首頁 / 原創(chuàng) / 電腦數(shù)碼/ 電腦配件/ 顯卡/ 正文

波導(dǎo)效率私房：藍(lán)戟A770實(shí)戰(zhàn)Whisper語音識別，排查效率問題

顯卡 07-15 12:12:01 51 0

大家好，我是波導(dǎo)終結(jié)者。

最近幾年，很多原來想象不到的事情都由AI來完成了，最近甚至有AI駕駛的出租車在某地掀起浪潮，前兩年我跟大家分享過的變聲軟件現(xiàn)在也被淘汰了，因?yàn)锳I換臉跟AI換聲都已經(jīng)很成熟了?；诒镜谹I的一些生產(chǎn)力軟件，我也跟大家分享過，有位小伙伴跟我組了差不多的配置，但是發(fā)現(xiàn)效率跟我這里有差別。所以最近來請教我，我也幫他復(fù)盤一下，分享給大家。

我的配置是12700K+48G+A770，小伙伴的配置是13700KF+96G+A770，一樣跑Whisper語音識別，他說他的效率只有我的一半出頭，一開始他是懷疑有核顯跟沒有顯的區(qū)別，但是我感覺沒那么簡單，排查了一下也確實(shí)不是這個(gè)原因。不過確實(shí)他的配置比我高一些，顯卡一樣都是藍(lán)戟的A770，貌似沒有理由比我慢呀。

本來想叫小伙伴把視頻發(fā)過來給我重現(xiàn)的，但是視頻體積太大了，到最后是叫他把音頻的部分扒下來發(fā)給我。實(shí)測確實(shí)發(fā)現(xiàn)速度分別為8倍和12倍，得高出了有一半之多，這顯然不是誤差。軟件都是我發(fā)給他的，顯卡也都是一樣的，配置又是他比較高，那問題到底出在哪里呢？

經(jīng)過兩天的排查，最后發(fā)現(xiàn)問題的原因，竟然是我之前認(rèn)為最不可能發(fā)生的點(diǎn)上。但說來也簡單，可能就是軟件有bug。我測試了自己錄的一些游戲視頻，參數(shù)基本一模一樣，就只有視頻分辨率跟碼率有區(qū)別，有的是1080p有的是4k。按照常理來想，因?yàn)檎Z音識別只處理音頻，這應(yīng)該跟視頻內(nèi)容沒有什么關(guān)系才對，但實(shí)測結(jié)果確實(shí)打臉了。我有4K視頻源處理速度正常，所以我又測試了同一個(gè)視頻1080P，純音頻，2K，8K的處理結(jié)果，其中只有純音頻的速度與4K一樣是正常的12倍，其他分辨率都降到了8倍。

實(shí)話說這一點(diǎn)，我從沒想到，而且也有悖常理。第一，音頻語音識別效率不應(yīng)該跟視頻規(guī)格有關(guān)系，更何況這個(gè)軟件本身的處理流程，就是先把視頻里的音頻提取為WAV文件再來處理。

第二，就算是因?yàn)橐曨l影響了，照常理來想，是不是因?yàn)橐曨l規(guī)格高而影響了效率呢？也不是這樣子。實(shí)測只有4k視頻是正常的，其他分辨率都會(huì)效率大降，而此時(shí)無論是內(nèi)存還是顯存都綽綽有余，也不是負(fù)載太高或者爆顯存的問題。測試至此，我只能說這應(yīng)該是軟件有個(gè)bug，雖然軟件是開源的，但我應(yīng)該也沒有時(shí)間去修正它。解決的辦法其實(shí)很簡單，用腳本把視頻里的音頻全部扒出來再處理就完事兒了。原來我看軟件會(huì)把音頻先轉(zhuǎn)成WAV，就以為說視頻內(nèi)容無論如何也不可能有什么影響，看來還是我天真了。

Whisper只能一個(gè)一個(gè)文件處理，如果有一堆文件要弄的話，也有人做了個(gè)GUI出來，叫Whisperer（笑）。它這里也有一次性處理多個(gè)文件的選項(xiàng)，我也順便幫大家測試了。

可能大家會(huì)覺得多線程的速度反而沒有單線程快，很奇怪，其實(shí)從代碼的角度來看也挺正常的。這些畢竟是開源軟件，而GUI工具又是民間自己弄的，沒有針對多線程進(jìn)行優(yōu)化，發(fā)生資源擠占倒也正常。當(dāng)然人家也有優(yōu)點(diǎn)，就是不管有多少文件，丟進(jìn)去之后呢人就不用管了，時(shí)間到了自然出結(jié)果。軟件有些小問題也是很正常的，就像剛才我測出來的視頻分辨率會(huì)大大影響速度，還有就算是我把音頻扒出來成WAV，它工作的時(shí)候還是要再轉(zhuǎn)換一遍WAV……

這年頭各種AI軟件的發(fā)展太快，大家會(huì)遇到的問題也千奇百怪，沒有一個(gè)通用的定式，就只能是具體問題具體分析了。小伙伴主要的需求是語音識別，人聲分離，以及SD繪圖，這些現(xiàn)在都已經(jīng)實(shí)現(xiàn)御三家獨(dú)顯可用，而目前性價(jià)比最高的方案仍然是A770。其他軟件各有瓶頸，而16G顯存則是AI繪圖的剛需，INTEL的16G顯存獨(dú)顯價(jià)格只要其他兩家的一半左右（4060Ti 16G或7800XT），短時(shí)間內(nèi)也很難撼動(dòng)。

今天的分享就先到這里，也歡迎各位小伙伴留言交流，感謝大家的點(diǎn)贊關(guān)注，我們下期再見。