大家好,我是波導(dǎo)終結(jié)者。
這幾年AI的發(fā)展非常的迅速,也涌現(xiàn)出了不少好用的工具。我之前跟大家分享過(guò),比如說(shuō)人聲分離呀,語(yǔ)音和文字的互轉(zhuǎn)呀,這些工具都很實(shí)用。最近有不少?gòu)S家都在布局AI相關(guān)方面的應(yīng)用,而在開(kāi)源界,其實(shí)也有很多很不錯(cuò)的項(xiàng)目或者大神。今天跟大家分享的就是一款非常好用的語(yǔ)音識(shí)別輸入工具,完全本地運(yùn)行,無(wú)需聯(lián)網(wǎng)。
這個(gè)項(xiàng)目在github的地址是,作者HaujetZhao,項(xiàng)目名CapsWriter-Offline(之后統(tǒng)一用CapsWriter稱(chēng)之),由于一些眾所周知,卻又不方便說(shuō)的原因,這里可能給不了大家直接的地址,這種東西確實(shí)需要一點(diǎn)點(diǎn)的門(mén)檻。項(xiàng)目開(kāi)源,使用的是阿里巴巴開(kāi)源的 Paraformer 模型和標(biāo)點(diǎn)符號(hào)模型。作者已經(jīng)把Windows的可執(zhí)行文件和模型都做好打包了,理論上只需要下載解壓運(yùn)行就可以。個(gè)人覺(jué)得有點(diǎn)搞笑的是中文語(yǔ)音輸入的模型只有230MB大小,而標(biāo)點(diǎn)符號(hào)模型卻有1GB大小,但怎么樣也算非常小了。
這個(gè)項(xiàng)目的運(yùn)行完全依賴(lài)于本地模型,但是杠精肯定會(huì)說(shuō),你這不是有服務(wù)端跟客戶(hù)端嗎?是的,相關(guān)的技術(shù)問(wèn)題我也懶得科普,其實(shí)大部分工具都是這么個(gè)模式,只是把服務(wù)端跟客戶(hù)端一起打包隱藏起來(lái)了而已。這個(gè)項(xiàng)目所使用的服務(wù)端,因?yàn)榧夹g(shù)原因只支持win10,作者又很貼心的給客戶(hù)端提供了32位win7的版本,而已。如果你是win10本機(jī)運(yùn)行,雖然需要服務(wù)端跟客戶(hù)端,但是我實(shí)測(cè)完全就是127.0.0.1的本機(jī)訪(fǎng)問(wèn)而已,不需要互聯(lián)網(wǎng)。
解壓完之后,目錄下的config.py是主要的配置文件,使用記事本即可打開(kāi)編輯,這里我也把幾個(gè)比較重要的選項(xiàng)用紅框標(biāo)注了出來(lái)。首先是識(shí)別模式,支持長(zhǎng)按和按鍵切換開(kāi)關(guān)兩種模式,我個(gè)人還是習(xí)慣使用長(zhǎng)按。而默認(rèn)的快捷鍵是大小寫(xiě)鍵,這也正是此項(xiàng)目叫做CapsWriter的原因,我這里是把它改成了鍵盤(pán)上的Scroll Lock鍵,知道這個(gè)鍵的都跟我一樣,是老家伙了吧。然后軟件還支持把輸入進(jìn)行一個(gè)錄音,如果沒(méi)有需要的話(huà),你可以關(guān)閉這個(gè)功能,以免占用硬盤(pán)空間。標(biāo)點(diǎn)符號(hào)、阿拉伯?dāng)?shù)字的轉(zhuǎn)換、中英文之間是否有空格等,這些根據(jù)自己的實(shí)際使用習(xí)慣來(lái)調(diào)整,其他的默認(rèn)就可以。
CapsWriter比較好用的是支持中文熱詞功能,識(shí)別率還挺高的。完全依賴(lài)本地離線(xiàn)模型的工具是有這個(gè)問(wèn)題,就是你不太好去擴(kuò)充詞庫(kù),除非重新訓(xùn)練模型。而熱詞功能就可以基本解決這個(gè)問(wèn)題。
同時(shí)它還有英文熱詞的功能,但個(gè)人感覺(jué)識(shí)別準(zhǔn)確度跟中文還是有一點(diǎn)差距。也不知道是我的英文不準(zhǔn),還是模型本來(lái)就側(cè)重于中文。
還有一些不屬于識(shí)別錯(cuò)誤,但是是常用詞或者專(zhuān)有名詞替換的,也可以在hot-rule.txt里進(jìn)行設(shè)置。但不管怎么樣,目前肯定是達(dá)不到百分百的正確率的,還是需要自己進(jìn)行一些后期的校對(duì)。
在服務(wù)端跟客戶(hù)端窗口,也都可以看到每一句的識(shí)別結(jié)果。這篇文章也有一部分,我是使用語(yǔ)音識(shí)別來(lái)進(jìn)行輸入的。當(dāng)然,每一句每一個(gè)詞我都有進(jìn)行校對(duì),而且它也并不是AI生成文章,只是換成了語(yǔ)音輸入而已。以目前的使用體驗(yàn)來(lái)看,我覺(jué)得比不少的聯(lián)網(wǎng)或者收費(fèi)工具都要來(lái)的好用,更別說(shuō)手機(jī)上了。手機(jī)不管是各家的輸入法,還是什么王者榮耀的語(yǔ)音識(shí)別,正確率基本都是零,每一句話(huà)都有好幾個(gè)的錯(cuò)誤,真的是不堪大用。
這個(gè)項(xiàng)目的配置要求也非常低,僅對(duì)服務(wù)端要求64位WIN10,占用4G左右的系統(tǒng)內(nèi)存。客戶(hù)端可以使用32位的win7,局域網(wǎng)本地IP連接。另外,它還有什么關(guān)鍵字、日志、視頻文件轉(zhuǎn)錄等功能,但我覺(jué)得這并不是它的核心需求和強(qiáng)項(xiàng)。
感謝大家的觀(guān)看點(diǎn)贊和關(guān)注,有什么疑問(wèn)和需求,可以在評(píng)論區(qū)里交流,我們下期再見(jiàn)。