丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
特寫 正文
發(fā)私信給程弢
發(fā)送

1

搜狗版“Siri”是如何煉成的?

本文作者: 程弢 2016-08-05 21:01
導(dǎo)語:8月3日,搜狗推出語音搜索引擎——“知音”,融合了吞音優(yōu)化、語音糾錯以及多輪交互三個全新的功能。

搜狗版“Siri”是如何煉成的?

2011年年底搜狗組建了一支語音識別團(tuán)隊;

2012年6月上線了首款語音搜索引擎;

8月3日,搜狗推出語音搜索引擎——“知音”,并融合了吞音優(yōu)化、語音糾錯以及多輪交互三個全新的功能。

第三方的實測數(shù)據(jù)顯示,搜狗語音和科大訊飛的性能保持在同一水準(zhǔn),而這樣的成績顯然超出了搜狗語音團(tuán)隊創(chuàng)立之初的預(yù)期。

風(fēng)口下的搜狗語音

2012年前后,語音識別的概念還未得到普及,也沒有太多互聯(lián)網(wǎng)公司涌入進(jìn)來,而科大訊飛在當(dāng)時已經(jīng)初露鋒芒。

搜狗以輸入法和搜索發(fā)家,在輸入法產(chǎn)品完成了多次迭代并逐步走向成熟之后,搜狗CEO王小川試圖切入語音識別市場,不過公司最初沒有打算獨自研發(fā)。

剛好科大訊飛的高層找到了我們,希望強(qiáng)強(qiáng)聯(lián)合推出一款更好的語音產(chǎn)品。

搜狗語音交互技術(shù)中心負(fù)責(zé)人王硯峰說。

搜狗版“Siri”是如何煉成的?

搜狗語音交互技術(shù)中心負(fù)責(zé)人

搜狗有輸入法和搜索引擎,科大訊飛有語音技術(shù)儲備,二者合作的確是個雙贏的局面。但這次談判并不順利,雖然科大訊飛方面答應(yīng)在語音助手產(chǎn)品上展開合作,即由搜狗提供后臺的服務(wù),科大訊飛負(fù)責(zé)前端的產(chǎn)品。不過,雙方利益沒有達(dá)成平衡,合作談崩。

王硯峰表示,“科大訊飛希望通輸入法切入互聯(lián)網(wǎng)站穩(wěn)腳跟,而我們也準(zhǔn)備進(jìn)軍移動互聯(lián)網(wǎng),不可能會把輸入法的優(yōu)勢讓給別人?!?/p>

合作的告吹給搜狗留下了第二條路——研發(fā)一款搜狗專屬的語音識別產(chǎn)品。公司內(nèi)部很快就達(dá)成了一致——“時間不等人,這件事就快速自己做起來吧!”

拿定主意后,搜狗便開始招兵買馬擴(kuò)張團(tuán)隊。但語音技術(shù)的積累不是短期內(nèi)可以完成的,所以搜狗第一步還是選擇倚靠有技術(shù)功底的隊友,即谷歌。2012年上半年,搜狗借助谷歌的引擎,由谷歌負(fù)責(zé)收集數(shù)據(jù),產(chǎn)品的研發(fā)進(jìn)度非常迅速。

“1月份開始做這件事,到6月份就做出了一版準(zhǔn)確率還行的引擎,在第三方的實測數(shù)據(jù)上顯示,這一版引擎在地圖上的準(zhǔn)確率已經(jīng)超越了百度。”

地圖引擎后來居上,準(zhǔn)確率超越了百度,這對僅在語音識別涉足半年的搜狗來說是一份趨近完美的答卷。

盡管如此,這版產(chǎn)品依然存在一些問題,體驗還有很大的提升,與科大訊飛還有一定的差距,所以搜狗沒有讓其在輸入法上測試。根據(jù)王硯峰的說法,地圖應(yīng)用場景相對收斂,對語音的要求比輸入法要低得多。

半年之后(2012年11月),隨著搜狗輸入法數(shù)據(jù)的積累,公司放棄了谷歌的引擎,在輸入法上用上了自家的引擎,并將語音識別延伸到了輸入法上。

隨著Siri的走紅,語音識別產(chǎn)品也逐漸俘獲了大量的C端用戶。2013年一年,搜狗輸入法的數(shù)據(jù)量積累到了1.5萬個小時,依靠這些數(shù)據(jù)、深度學(xué)習(xí)以及日漸成熟的團(tuán)隊,搜狗的語音識別性能已經(jīng)基本保持和科大訊飛持平,微信和百度,而第二梯隊則是云知聲和思必馳等公司。

新起點:搜狗版“Siri”降臨

擁有輸入入口,對一家做語音識別的企業(yè)來說是得天獨厚的優(yōu)勢。

在數(shù)據(jù)量上,搜狗、百度都對其它公司都與明顯的優(yōu)勢。不過相比科大訊飛和百度等品牌,業(yè)界鮮見搜狗語音對外發(fā)聲,直到“知音”的發(fā)布。

“知音”對搜狗語音的重要性不言而喻,說其為后者的代名詞也毫不為過,正如度秘至于百度、GoogleNow之于谷歌、Siri之于蘋果...

從搜狗官方的介紹來看,“知音”擁有吞音優(yōu)化、語音糾錯以及多輪交互三個功能。雖然還算不上創(chuàng)新,但從技術(shù)角度而言,這三個功能都含金量十足。

吞音優(yōu)化

吞音問題來源于用戶,如果說話時語速過快會有吞音問題,而機(jī)器自然也不會適應(yīng)這樣的發(fā)音。

如果需要準(zhǔn)確地識別快語速的語音,那就需要技術(shù)和豐富的語料支持。王硯峰表示在語言模型訓(xùn)練時選擇大量吞音的語料,另外在建模上做一些吞音的優(yōu)化,這是解決吞音的基礎(chǔ)。

用“知音”舉個例子:

知音發(fā)音部分的建模使用的是LSTM+CTC的模型,對發(fā)音本身以及發(fā)音間的差異性做了細(xì)致的描述;

另外知音還使用了基于深度神經(jīng)網(wǎng)絡(luò)的語言模型對識別結(jié)果進(jìn)行了修正,依賴更長的歷史信息將吞音對識別結(jié)果的影響盡量降低;

除此之外,知音在數(shù)據(jù)層面也做了篩選以及生成的工作,通過調(diào)整數(shù)據(jù)分布優(yōu)化吞音識別的效果。

語音糾錯(修改)

通俗點講,語音修改是為語音識別錯誤填坑而存在的,它可以幫助用戶使用自然語音的方式來修改錯誤的識別,而不需要手動操作。

修改過程包含了語音識別(識別用戶糾錯的命令)、語義分析(分析用戶修改的意圖)、文本修正(執(zhí)行相應(yīng)的修改命令)三個步驟,整個系統(tǒng)性能的優(yōu)化是一個聯(lián)合優(yōu)化的過程,語音識別盡管面向的是垂直類別,但是語言模型嚴(yán)重依賴于語義分析模塊的知識。

在語義分析的基礎(chǔ)上,還需要輸入法和搜索的知識,例如輸入法拆字庫如立早章、海量詞庫如硯臺的硯,搜索知識圖譜如清華的邱勇等。

多輪交互

多輪對話一直都是語音識別難點,雖然有不少語音產(chǎn)品宣稱自己具備多輪交互的能力,但實際表現(xiàn)如何又是另一回事了。

如果只表達(dá)一個命令,只會涉及到機(jī)器學(xué)習(xí)當(dāng)中的分類問題,但多輪交互的問題就復(fù)雜了。他需要結(jié)合上下文,而用戶行為往往是不可預(yù)測的,會產(chǎn)生出很多新的行為范式,反映出來的就是狀態(tài)機(jī)會增加更多的狀態(tài)以及狀態(tài)之間的邊,那么如何根據(jù)用戶產(chǎn)生出來的數(shù)據(jù),動態(tài)的不停的構(gòu)建或者調(diào)整狀態(tài)機(jī),這是多輪交互里面最大的難點。


要實現(xiàn)多輪交互就需要強(qiáng)大的知識圖譜以及技術(shù)架構(gòu)。

“如果沒有好的知識圖譜和技術(shù)架構(gòu),你的語音產(chǎn)品只會是一個玩具。”王硯峰如此形容。

從各家語音識別產(chǎn)品的迭代情況來看,體驗的較量已經(jīng)上升到了一個新的level,但可以確定的是未來產(chǎn)品的差異不會體現(xiàn)在技術(shù)上,而是數(shù)據(jù)的積累,至于搜狗會把“知音”帶到一個什么樣的高度,我們拭目以待。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

略懂技術(shù)的小編

關(guān)注一切有未來感的產(chǎn)品及技術(shù)!
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說