大家好,我是波導(dǎo)終結(jié)者。
最近幾年,很多原來想象不到的事情都由AI來完成了,最近甚至有AI駕駛的出租車在某地掀起浪潮,前兩年我跟大家分享過的變聲軟件現(xiàn)在也被淘汰了,因?yàn)锳I換臉跟AI換聲都已經(jīng)很成熟了?;诒镜谹I的一些生產(chǎn)力軟件,我也跟大家分享過,有位小伙伴跟我組了差不多的配置,但是發(fā)現(xiàn)效率跟我這里有差別。所以最近來請教我,我也幫他復(fù)盤一下,分享給大家。
我的配置是12700K+48G+A770,小伙伴的配置是13700KF+96G+A770,一樣跑Whisper語音識別,他說他的效率只有我的一半出頭,一開始他是懷疑有核顯跟沒有顯的區(qū)別,但是我感覺沒那么簡單,排查了一下也確實(shí)不是這個(gè)原因。不過確實(shí)他的配置比我高一些,顯卡一樣都是藍(lán)戟的A770,貌似沒有理由比我慢呀。
本來想叫小伙伴把視頻發(fā)過來給我重現(xiàn)的,但是視頻體積太大了,到最后是叫他把音頻的部分扒下來發(fā)給我。實(shí)測確實(shí)發(fā)現(xiàn)速度分別為8倍和12倍,得高出了有一半之多,這顯然不是誤差。軟件都是我發(fā)給他的,顯卡也都是一樣的,配置又是他比較高,那問題到底出在哪里呢?
經(jīng)過兩天的排查,最后發(fā)現(xiàn)問題的原因,竟然是我之前認(rèn)為最不可能發(fā)生的點(diǎn)上。但說來也簡單,可能就是軟件有bug。我測試了自己錄的一些游戲視頻,參數(shù)基本一模一樣,就只有視頻分辨率跟碼率有區(qū)別,有的是1080p有的是4k。按照常理來想,因?yàn)檎Z音識別只處理音頻,這應(yīng)該跟視頻內(nèi)容沒有什么關(guān)系才對,但實(shí)測結(jié)果確實(shí)打臉了。我有4K視頻源處理速度正常,所以我又測試了同一個(gè)視頻1080P,純音頻,2K,8K的處理結(jié)果,其中只有純音頻的速度與4K一樣是正常的12倍,其他分辨率都降到了8倍。
實(shí)話說這一點(diǎn),我從沒想到,而且也有悖常理。第一,音頻語音識別效率不應(yīng)該跟視頻規(guī)格有關(guān)系,更何況這個(gè)軟件本身的處理流程,就是先把視頻里的音頻提取為WAV文件再來處理。
第二,就算是因?yàn)橐曨l影響了,照常理來想,是不是因?yàn)橐曨l規(guī)格高而影響了效率呢?也不是這樣子。實(shí)測只有4k視頻是正常的,其他分辨率都會(huì)效率大降,而此時(shí)無論是內(nèi)存還是顯存都綽綽有余,也不是負(fù)載太高或者爆顯存的問題。測試至此,我只能說這應(yīng)該是軟件有個(gè)bug,雖然軟件是開源的,但我應(yīng)該也沒有時(shí)間去修正它。解決的辦法其實(shí)很簡單,用腳本把視頻里的音頻全部扒出來再處理就完事兒了。原來我看軟件會(huì)把音頻先轉(zhuǎn)成WAV,就以為說視頻內(nèi)容無論如何也不可能有什么影響,看來還是我天真了。
Whisper只能一個(gè)一個(gè)文件處理,如果有一堆文件要弄的話,也有人做了個(gè)GUI出來,叫Whisperer(笑)。它這里也有一次性處理多個(gè)文件的選項(xiàng),我也順便幫大家測試了。
可能大家會(huì)覺得多線程的速度反而沒有單線程快,很奇怪,其實(shí)從代碼的角度來看也挺正常的。這些畢竟是開源軟件,而GUI工具又是民間自己弄的,沒有針對多線程進(jìn)行優(yōu)化,發(fā)生資源擠占倒也正常。當(dāng)然人家也有優(yōu)點(diǎn),就是不管有多少文件,丟進(jìn)去之后呢人就不用管了,時(shí)間到了自然出結(jié)果。軟件有些小問題也是很正常的,就像剛才我測出來的視頻分辨率會(huì)大大影響速度,還有就算是我把音頻扒出來成WAV,它工作的時(shí)候還是要再轉(zhuǎn)換一遍WAV……
這年頭各種AI軟件的發(fā)展太快,大家會(huì)遇到的問題也千奇百怪,沒有一個(gè)通用的定式,就只能是具體問題具體分析了。小伙伴主要的需求是語音識別,人聲分離,以及SD繪圖,這些現(xiàn)在都已經(jīng)實(shí)現(xiàn)御三家獨(dú)顯可用,而目前性價(jià)比最高的方案仍然是A770。其他軟件各有瓶頸,而16G顯存則是AI繪圖的剛需,INTEL的16G顯存獨(dú)顯價(jià)格只要其他兩家的一半左右(4060Ti 16G或7800XT),短時(shí)間內(nèi)也很難撼動(dòng)。
今天的分享就先到這里,也歡迎各位小伙伴留言交流,感謝大家的點(diǎn)贊關(guān)注,我們下期再見。