5
本文作者: 趙青 | 2014-10-09 08:46 |
如今,通過蘋果Siri和Google Now這樣的工具,我們可以通過聲音控制智能手機,完全不用觸摸手機就可以搜索網(wǎng)頁、獲取簡單問題的答案以及更新在線日歷。至少在某些時候,這些工具還是能達到廣告中宣傳的效果。但是在使用臺式電腦時,語音控制仍然遙不可及。
現(xiàn)在很多計算機內(nèi)置了語音識別軟件,可以讓用戶控制一些操作,但是Zachary Pomerantz的目標不止如此,通過一項名為JuliusJS(一個幫助軟件開發(fā)者打造用于網(wǎng)頁瀏覽器的語音控制應(yīng)用程序的工具)的開源項目,他希望形成一個適用于臺式電腦的Siri等應(yīng)用程序的全新潮流。
如今,當開發(fā)者向網(wǎng)頁應(yīng)用程序添加語音控制時,很少有能做到這一點的好辦法?,F(xiàn)代的瀏覽器內(nèi)置了部分語音控制工具,但它們總是依賴某種遠程服務(wù)(比如由Google Now的服務(wù)),在一個遠程服務(wù)器上進行基礎(chǔ)語音處理,這涉及到整個網(wǎng)絡(luò)的流媒體語音,經(jīng)常會降慢處理速度。
JuliusJS能解決這個問題,它是一個在瀏覽器內(nèi)運行的代碼庫,使用的是常見的網(wǎng)頁標準,幾乎可以在任何一臺機器上運作。使用這個代碼庫,開發(fā)者可以打造從網(wǎng)站導(dǎo)航及將語音控制添加到游戲中的工具,還能做一些沒人想過的事情。
Pomerantz是編程學(xué)校Hack Reactor的“專職黑客”,他是在今年早些時候嘗試語音控制軟件時萌生了這個想法?!拔蚁敫倪M語音識別的狀況,并了解它如何工作,”他說道。他正嘗試創(chuàng)建一個簡單的程序,可以聽到特定的關(guān)鍵詞并忽略其他輸入,就像Google Now一樣,你說出“OK Google”時它才會活躍起來。這個概念被稱為“關(guān)鍵字定位”。
他遇到的問題是,需要遠程語音服務(wù)的工具往往會過快地陷入困境。他真正需要的是一種完全在瀏覽器內(nèi)進行語音處理的方法,而不需要通過互聯(lián)網(wǎng)發(fā)送音頻。所以,他決定修改一個現(xiàn)有的開源語音平臺Julius,將其從C編程語言轉(zhuǎn)為JavaScript(網(wǎng)頁瀏覽器的通用語言),而沒有創(chuàng)建一個關(guān)鍵字定位系統(tǒng)。要做到這一點,Pomerantz使用了另一個名為Emscripten的開源軟件自動翻譯大部分的原始代碼,然后,他寫了一些額外的代碼,以確保網(wǎng)頁和該平臺能很好地配合。
到目前為止,JuliusJS只能識別樣本字典內(nèi)的一些詞語。程序員如果想要更多,他們就必須擴大軟件的詞匯。但這是一個開源項目,還會繼續(xù)生長。
Via Wired
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。