Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

本文作者： MrBear

編輯：楊曉凡

2018-09-12 17:21

導(dǎo)語(yǔ)：通過(guò)地理位置信息為語(yǔ)音識(shí)別系統(tǒng)提供豐富的先驗(yàn)信息，你想到了嗎？

雷鋒網(wǎng) AI 科技評(píng)論按：這篇文章來(lái)自蘋(píng)果機(jī)器學(xué)習(xí)日記（Apple Machine Learning Journal）。與其他科技巨頭人工智能實(shí)驗(yàn)室博客的論文解讀、技術(shù)成果分享不同，蘋(píng)果的機(jī)器學(xué)習(xí)日記雖然也是介紹他們對(duì)機(jī)器學(xué)習(xí)相關(guān)技術(shù)的心得體會(huì)，但側(cè)重點(diǎn)在于技術(shù)產(chǎn)品的實(shí)現(xiàn)過(guò)程、技術(shù)資源用戶體驗(yàn)之間的取舍，更像是「產(chǎn)品經(jīng)理的 AI app 研發(fā)日記」。過(guò)往內(nèi)容可以參見(jiàn) 如何設(shè)計(jì)能在Apple Watch上實(shí)時(shí)運(yùn)行的中文手寫(xiě)識(shí)別系統(tǒng)，蘋(píng)果揭秘「Hey Siri」的開(kāi)發(fā)細(xì)節(jié)，為了讓iPhone實(shí)時(shí)運(yùn)行人臉檢測(cè)算法，蘋(píng)果原來(lái)做了這么多努力。

在最新一期中，蘋(píng)果介紹了如何讓 Siri 根據(jù)用戶所在地的不同，準(zhǔn)確識(shí)別出用戶提到的周圍的地點(diǎn)。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

近年來(lái)，由于深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用，自動(dòng)語(yǔ)音識(shí)別（ASR）系統(tǒng)的準(zhǔn)確率有了顯著的提高。然而，人們目前主要是在通用語(yǔ)音的識(shí)別方面取得了性能的提升，但準(zhǔn)確地識(shí)別有具體名字的實(shí)體（例如，小型本地商戶）仍然是一個(gè)性能瓶頸。

本文描述了我們是如何應(yīng)對(duì)這一挑戰(zhàn)的，通過(guò)將用戶地理位置信息融入語(yǔ)音識(shí)別系統(tǒng)提升 Siri 識(shí)別本地 POI 信息點(diǎn)（point of interest，興趣點(diǎn)）名稱的能力。能夠?qū)⒂脩舻奈恢眯畔⒖紤]在內(nèi)的自定義語(yǔ)言模型被稱為基于地理位置的語(yǔ)言模型（Geo-LMs）。這些模型不僅可以利用聲學(xué)模型和通用語(yǔ)言模型（例如標(biāo)準(zhǔn)的語(yǔ)音識(shí)別系統(tǒng)）提供的信息，還可以使用用戶周圍的環(huán)境中的POI信息點(diǎn)的信息，更好地估計(jì)用戶想要的單詞序列。

引言

一般來(lái)說(shuō)，虛擬助理都能夠正確地識(shí)別和理解像星巴克這樣的知名企業(yè)和連鎖商店的名字，但是很難辨認(rèn)出用戶查詢的數(shù)以百萬(wàn)計(jì)的小型本地 POI （興趣點(diǎn)）的名字。在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)中，人們公認(rèn)的一個(gè)性能瓶頸是：準(zhǔn)確有具體名字的的實(shí)體（例如，小型本地商戶），而這正是頻率分布的長(zhǎng)尾（少量、多種類的需求）。

我們決定通過(guò)將用戶地理位置信息融合到語(yǔ)音識(shí)別系統(tǒng)中來(lái)提高 Siri 識(shí)別本地 POI 的名稱的能力。

自動(dòng)語(yǔ)音識(shí)別系統(tǒng)同城由兩個(gè)主要部分組成：

一個(gè)聲學(xué)模型，用于捕捉語(yǔ)音的聲學(xué)特征和語(yǔ)言學(xué)單位序列之間的關(guān)系，如語(yǔ)音和單詞之間的關(guān)系
一個(gè)語(yǔ)言模型（LM），它決定了某個(gè)特定的單詞序列出現(xiàn)在一種特定的語(yǔ)言中的先驗(yàn)概率

我們可以找出造成這種困難（準(zhǔn)確識(shí)別具名實(shí)體）的兩個(gè)因素：

系統(tǒng)通常不知道如何表示用戶可能怎么樣發(fā)出模糊的實(shí)體名稱

實(shí)體名稱可能只在語(yǔ)言模型的訓(xùn)練數(shù)據(jù)中出現(xiàn)一次，或者根本沒(méi)有出現(xiàn)。想象你生活中各種各樣的公司的名稱，你就能理解為什么說(shuō)這是一個(gè)巨大的挑戰(zhàn)了。

第二個(gè)因素導(dǎo)致了構(gòu)成本地企業(yè)名稱的單詞序列會(huì)被通用語(yǔ)言模型分配到一個(gè)非常低的先驗(yàn)概率，從而使得一個(gè)公司的名稱不太可能被語(yǔ)音識(shí)別器正確地選到。（比如雷鋒網(wǎng)樓下的「時(shí)令果町」，日常的中文使用中是不會(huì)出現(xiàn)這樣的組合的）

我們?cè)诒疚闹刑岢龅姆椒茉O(shè)用戶更偏向于用移動(dòng)設(shè)備搜索附近的本地 POI，而不是使用 Mac，因此我們?cè)谶@里使用移動(dòng)設(shè)備的地理位置信息來(lái)提高 POI 的識(shí)別性能。這有助于我們更好地估計(jì)用戶想要的單詞序列。通過(guò)將用戶的地理位置信息融合到Siri的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)中，我們已經(jīng)能夠顯著地提高本地 POI 識(shí)別和理解的準(zhǔn)確率。

Siri 如何使用基于地理位置的語(yǔ)言模型（Geo-LMs）？

我們定義了一組覆蓋美國(guó)大部分地區(qū)的地理區(qū)域（Geo regions），并且為每個(gè)區(qū)域構(gòu)建了一個(gè)基于地理位置的語(yǔ)言模型（Geo-LMs）。當(dāng)用戶提出查詢請(qǐng)求時(shí)，他們會(huì)得到一個(gè)根據(jù)用戶目前的位置信息定制的系統(tǒng)，這個(gè)系統(tǒng)帶有一個(gè)基于地理位置的語(yǔ)言模型。如果用戶在任何定義的地理區(qū)域之外，或者如果 Siri 無(wú)法訪問(wèn)定位服務(wù)，系統(tǒng)就會(huì)使用一個(gè)默認(rèn)的全局 Geo-LM。接著，被選取的 Geo-LM 會(huì)與聲學(xué)模型結(jié)合起來(lái)對(duì)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行解碼。圖1 顯示了系統(tǒng)整體的工作流程。

Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

圖1.系統(tǒng)概覽

地理區(qū)域

我們根據(jù)美國(guó)人口普查局的綜合統(tǒng)計(jì)區(qū)域(CSAs)^[1]來(lái)定義地理區(qū)域。從通勤模式來(lái)看，CSA 包含了經(jīng)濟(jì)上和社會(huì)上相連的鄰近大都市區(qū)域。169 個(gè) CSA 覆蓋了美國(guó) 80% 的人口。我們?yōu)槊總€(gè) CSA 建立一個(gè)專用的 Geo-LM，其中包含一個(gè)全局 Geo-LM，覆蓋所有 CSA 未定義的區(qū)域。

為了高效地搜索用戶所處的 CSA，我們存儲(chǔ)了一個(gè)來(lái)自美國(guó)人口普查局^[2]提供的柵格化地圖邊界(或形狀文件)的緯度和經(jīng)度查找表。在運(yùn)行時(shí)，查找地理位置的計(jì)算復(fù)雜度為O(1)。

算法

Siri 的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)使用了一種基于加權(quán)有限狀態(tài)機(jī)（WFST）的解碼器，該解碼器由 Paulik 首次提出^[3]。該解碼器采用差分語(yǔ)言模型原理，這與^[4，5]中描述的框架相類似。

我們實(shí)現(xiàn)了一種類語(yǔ)言模型，在這個(gè)模型中，我們用類內(nèi)語(yǔ)法動(dòng)態(tài)地替換類非終結(jié)符。圖2 對(duì)這個(gè)概念進(jìn)行了說(shuō)明。我們使用了一個(gè)主語(yǔ)言模型，將其用于通用識(shí)別，并且為預(yù)定義的類別引入了終結(jié)符標(biāo)簽，例如地理區(qū)域。對(duì)于每一個(gè)類，Slot 語(yǔ)言模型都是由與類相關(guān)的實(shí)體名稱構(gòu)建的，并且用于表示類內(nèi)語(yǔ)法。接著，使用主語(yǔ)言模型和 slot 語(yǔ)言模型構(gòu)建基于地理位置的語(yǔ)言模型，其實(shí)現(xiàn)過(guò)程如下節(jié)所述。

Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

圖2 類語(yǔ)言模型的通用框架

構(gòu)建基于地理位置的語(yǔ)言模型

直接構(gòu)建基于地理位置的語(yǔ)言模型（Geo-LM）的方法是為每個(gè)地理區(qū)域構(gòu)建一個(gè)語(yǔ)言模型，每一個(gè)模型都是通過(guò)插入通用語(yǔ)言模型和從帶有地理信息的訓(xùn)練文本中訓(xùn)練出的特定地理位置的語(yǔ)言模型得到的。這樣做的問(wèn)題是，通用語(yǔ)言模型通常都很大，因?yàn)樗采w了很多的領(lǐng)域。生成的基于地理位置的語(yǔ)言模型積累出的模型大小往往太大，無(wú)法在運(yùn)行時(shí)直接裝載到內(nèi)存中。另一方面，POI名稱可以構(gòu)建緊湊的語(yǔ)言模型，它的大小可能是一個(gè)完整的通用語(yǔ)言模型的千分之一到十分之一；基于以上分析，我們提出了類語(yǔ)言模型框架。

在我們的類語(yǔ)言模型框架中，主語(yǔ)言模型如其它的類語(yǔ)言模型一樣被訓(xùn)練，訓(xùn)練使用的文本來(lái)自于所有模型支持的領(lǐng)域。為了提升對(duì)非終結(jié)符標(biāo)簽的支持，最初我們依賴于使用通過(guò)基于特定地理位置的模版認(rèn)為創(chuàng)建的訓(xùn)練文本，例如「指向\CS-POI」，其中「\CS-POI」為類標(biāo)簽。這樣的人造文本能夠幫助引導(dǎo)模型初始化對(duì)非終結(jié)符的識(shí)別。在部署好基于地理位置的語(yǔ)言模型后，我們的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的輸出將具有特殊的標(biāo)記，例如：在通過(guò)類語(yǔ)言模型框架識(shí)別的地理實(shí)體周圍會(huì)有「\CS-POI」標(biāo)記。新的基于地理位置的語(yǔ)言模型的輸出將使我們能夠不斷為主語(yǔ)言模型中的非終結(jié)符提供訓(xùn)練文本。

在基于地理位置的語(yǔ)言模型中，Slot 語(yǔ)言模型是用特定類的實(shí)體（POI）訓(xùn)練的。在我們提出的系統(tǒng)中，為每個(gè)地理區(qū)域都構(gòu)建了一個(gè)slot語(yǔ)言模型。每個(gè)slot語(yǔ)言模型的訓(xùn)練文本由相應(yīng)區(qū)域的本地POI的名稱組成。

圖3 展示了一個(gè)基于加權(quán)有限自動(dòng)機(jī)的類語(yǔ)言模型的小例子，其中包含了一個(gè)代表三個(gè)帶有先驗(yàn)概率的簡(jiǎn)單模板的主語(yǔ)言模型（某條記錄相對(duì)于其它的選項(xiàng)出現(xiàn)的概率）：

先驗(yàn)概率=0.5: 指向\CS-POI

先驗(yàn)概率=0.3: 地點(diǎn)正好為\CS-POI

先驗(yàn)概率=0.2：尋找最近的\CS-POI

該模型也囊孔了一個(gè)slot語(yǔ)言模型，它僅僅包含三個(gè)帶有先驗(yàn)概率的POI：

先驗(yàn)概率=0.4: 哈佛大學(xué)

先驗(yàn)概率=0.4: TD 花園

先驗(yàn)概率=0.2：Vidodivino

Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

圖3. 基于加權(quán)有限自動(dòng)機(jī)的類語(yǔ)言模型的簡(jiǎn)單示例

將 POI 作為一個(gè)統(tǒng)計(jì) n-gram 語(yǔ)言模型進(jìn)行訓(xùn)練讓我們能夠?qū)?POI 名稱的動(dòng)態(tài)變化進(jìn)行建模。例如，只要「哈佛大學(xué)」一詞存在于訓(xùn)練文本中，「哈佛」和「哈佛大學(xué)」都可以在 slot 語(yǔ)言模型中被建模。我們根據(jù)在產(chǎn)生的流量中觀察到的分布獲取先驗(yàn)概率。

在運(yùn)行中，我們必須基于如圖3 所示的當(dāng)前用戶的位置，動(dòng)態(tài)、有效地將主語(yǔ)言模型中的類非終結(jié)符替換為各自相應(yīng)的 slot 語(yǔ)言模型，其中「\CS-POI」代表基于地理位置的語(yǔ)言模型中的非終結(jié)符。

為了確保解碼詞典能夠涵蓋所有POI的名字，當(dāng)某個(gè) POI 的名字在我們的解碼詞典中無(wú)法找到時(shí)，我們會(huì)使用一個(gè)內(nèi)部的「字符到音素（G2P）」系統(tǒng)自動(dòng)推導(dǎo)出發(fā)音。

這樣的框架使我們能夠?qū)φ麄€(gè)系統(tǒng)進(jìn)行靈活的更新。當(dāng)你想要更新 POI 或增添新的地理區(qū)域時(shí)，你只需要重構(gòu)或添加更多的 slot 語(yǔ)言模型。由于 slot 語(yǔ)言模型的規(guī)模很小，其重構(gòu)過(guò)程使很快、效率很高。盡管一個(gè)典型的通用語(yǔ)言模型的大小可以達(dá)到 200MB 或者更大，而一個(gè) slot 語(yǔ)言模型的大小僅為 0.2MB 到 20MB，具體大小取決于包含的實(shí)體數(shù)量。Slot 語(yǔ)言模型的靈活性對(duì)于我們的應(yīng)用程序的可持續(xù)性至關(guān)重要。這是 POI 名稱的迅速變化造成的，這種變化可能是因?yàn)樵摰攸c(diǎn)的新公司開(kāi)張或者舊公司關(guān)閉以及這里不斷變化的人口。除此之外，由于 slot 語(yǔ)言模型比較小，我們提出的框架允許在服務(wù)器初始化時(shí)將所有的語(yǔ)言模型預(yù)加載到系統(tǒng)內(nèi)存中。因此，開(kāi)關(guān) slot 語(yǔ)言模型的過(guò)程可以在內(nèi)存中完成，這使得我們可以得到一個(gè)非常高效的實(shí)現(xiàn)。我們的測(cè)試結(jié)果說(shuō)明，主語(yǔ)言模型和 slot 語(yǔ)言模型的動(dòng)態(tài)組合智慧引起邊際延遲的增加。

實(shí)驗(yàn)和結(jié)果

在本節(jié)中，我們展示了對(duì)提出的基于地理位置的語(yǔ)言模型的對(duì)比基準(zhǔn)測(cè)試，與將通用模型用于美國(guó) POI 識(shí)別的任務(wù)進(jìn)行了對(duì)比。在所有的實(shí)驗(yàn)中，我們使用了一種混合的卷積神經(jīng)網(wǎng)絡(luò)CNN-HMM（隱馬爾可夫卷積神經(jīng)網(wǎng)絡(luò)）^[6]。自動(dòng)機(jī)是利用 5,000 個(gè)小時(shí)的英語(yǔ)語(yǔ)音數(shù)據(jù)通過(guò)過(guò)濾器組特征訓(xùn)練得到的。具體而言，我們的基于地理位置的語(yǔ)言模型是作為一個(gè)4元模型訓(xùn)練得來(lái)的。我們手動(dòng)改寫(xiě)了測(cè)試數(shù)據(jù)，并對(duì)地理位置進(jìn)行了標(biāo)注，一邊在測(cè)試期間可以使用正確的 slot 語(yǔ)言模型。接下來(lái)，我們將首先描述我們用來(lái)訓(xùn)練和測(cè)試 Geo-LM 的數(shù)據(jù)，然后展示實(shí)驗(yàn)結(jié)果。

數(shù)據(jù)

用來(lái)訓(xùn)練通用語(yǔ)言模型對(duì)比基線的訓(xùn)練文本（D1）包含從各種數(shù)據(jù)源收集到的、保密、實(shí)時(shí)使用的數(shù)據(jù)。

用來(lái)在我們提出的基于地理位置的語(yǔ)言模型（Geo-LM）中構(gòu)建主語(yǔ)言模型的訓(xùn)練數(shù)據(jù)由D1和人為創(chuàng)建的用例模版組成，其中包含「構(gòu)建基于地理位置的語(yǔ)言模型」這一節(jié)中提到的POI類標(biāo)志。

為了構(gòu)建 slot 語(yǔ)言模型，我們從每天更新的蘋(píng)果地圖搜索日志中提取出被搜索的POI名稱。提取出的POI被根據(jù)其地點(diǎn)和人口分成 170 組，從而為 169 個(gè) CSA 和一個(gè)對(duì)應(yīng)于沒(méi)有被 CSA 涵蓋的請(qǐng)求的全局組構(gòu)建 slot 語(yǔ)言模型。每個(gè) POI 的先驗(yàn)概率是根據(jù)它們?cè)谒阉魅罩局械氖褂妙l率設(shè)置的。表 1 顯示了通用語(yǔ)言模型和 Geo-LM 的兩個(gè)組成部分的 n-gram 的大小比較。Slot 在 170 個(gè)地理區(qū)域中，平均比通用模型的規(guī)模小的多。

表1.通用語(yǔ)言模型和Geo-LM中n-gram的數(shù)量

Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

在我們的實(shí)驗(yàn)中，我們使用了兩類測(cè)試數(shù)據(jù)：

我們使用的是從 Siri 在美國(guó)的生產(chǎn)流量中隨機(jī)選取出的真實(shí)世界中的用戶數(shù)據(jù)，我們根據(jù)它創(chuàng)建了兩個(gè)測(cè)試集：

T1:一個(gè)POI搜索測(cè)試集，由本地 POI 搜索域中的20,000條語(yǔ)音組成
T2:一個(gè)通用測(cè)試集，由沒(méi)有包含在 POI 中的10,000條語(yǔ)音組成

一套內(nèi)部記錄的本地POI搜索測(cè)試集（T3）。我們挑選出了八個(gè)美國(guó)主要的大都會(huì)區(qū)，并根據(jù) Yelp 上的評(píng)論選出了 1,000 個(gè)最熱門(mén)的 POI。對(duì)于每一個(gè) POI，我們將記錄來(lái)自于三個(gè)不同說(shuō)話者的三條語(yǔ)音，并且分別為這三條語(yǔ)音加上或刪掉領(lǐng)語(yǔ)「direction to」。請(qǐng)注意，我們從列表中刪除了 6,500 個(gè)大型 POI，因?yàn)樗鼈兇蠖鄶?shù)都可以在不使用 Geo-LM 的情況下被識(shí)別出來(lái)，并且其識(shí)別主要是根據(jù)熱度進(jìn)行的。

實(shí)驗(yàn)結(jié)果

我們首先在現(xiàn)實(shí)世界用戶測(cè)試集 T1 和 T2 上進(jìn)行了實(shí)驗(yàn)。表 3 總結(jié)的結(jié)果表明，Geo-LM 能夠在不降低在 T2 上的準(zhǔn)確率的情況下，在 T1 上降低 18.7% 的字錯(cuò)誤率。

因?yàn)?T1 是從生產(chǎn)環(huán)境的流量中隨機(jī)抽樣得到的，它包含了相沃爾瑪和家得寶這樣的大型 POI，而通用語(yǔ)言模型已經(jīng)能夠識(shí)別出它們。為了在更加難以找到的本地 POI 上測(cè)試名稱識(shí)別系統(tǒng)的性能，我們?cè)?T3 上進(jìn)行了測(cè)試，其中并不包括大型 POI。如表 4 所示，實(shí)驗(yàn)結(jié)果表明，通用語(yǔ)言模型在 T3 數(shù)據(jù)集上表現(xiàn)并不好，而我們提出的基于地理位置的語(yǔ)言模型在八個(gè)地理區(qū)域中普遍能夠?qū)⒆皱e(cuò)誤率降低40%以上。

我們還比較了兩個(gè)系統(tǒng)的運(yùn)行速度，并且觀察到 Geo-LM 的平均延遲稍微增加了不到10毫秒。

表3在真實(shí)世界用戶測(cè)試集（T1和T2）上通用語(yǔ)言模型和 Geo-LM 得到的字錯(cuò)誤率對(duì)比

Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

表4.在美國(guó)的八個(gè)主要的大都會(huì)區(qū)的最熱門(mén)的 POI 測(cè)試集（T3）上通用語(yǔ)言模型和 Geo-LM 得到的字錯(cuò)誤率對(duì)比

Siri 語(yǔ)音識(shí)別的小心機(jī)：你在哪里，就能更準(zhǔn)確地識(shí)別那附近的地址

結(jié)語(yǔ)

在這項(xiàng)工作中，我們展示了一個(gè)十分有效的基于地理位置的語(yǔ)言模型（Geo-LM），它有幾下幾個(gè)優(yōu)勢(shì)：

訓(xùn)練過(guò)程很靈活
運(yùn)行時(shí)高效的語(yǔ)言模型構(gòu)造
在本地 POI 識(shí)別任務(wù)重，自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率相較于通用語(yǔ)言模型有很大的提高

我們的實(shí)驗(yàn)表明，使用本地化的信息可以使當(dāng)?shù)?POI 搜索的字錯(cuò)誤率降低18%以上。在不包含大型 POI 使，字錯(cuò)誤率會(huì)降低 40% 以上。

由于對(duì)系統(tǒng)運(yùn)行速度的影響很小，對(duì)于其它區(qū)域的覆蓋還有很大的提升空間。然而，除了區(qū)域性的語(yǔ)言模型，還需要繼續(xù)提供一個(gè)全球化的 Geo-LM，從而使自動(dòng)語(yǔ)音識(shí)別系統(tǒng)能夠處理遠(yuǎn)距離查詢，并且能夠應(yīng)對(duì)用戶在支持的區(qū)域之外的情況。

本文提出的方法和系統(tǒng)與具體使用的語(yǔ)言是無(wú)關(guān)的。因此，除了美國(guó)和英語(yǔ)區(qū)，Geo-LM 也支持直接對(duì)其它的地區(qū)進(jìn)行擴(kuò)展。

想要了解更多的細(xì)節(jié)，以及對(duì)我們?cè)诒疚闹刑岢龅?Geo-LM 進(jìn)行的廣泛的性能評(píng)估，可以參閱我們?cè)?ICASSP2018上發(fā)表的論文「Geographic Language Models for Automatic Speech Recognition」^[7]。

參考文獻(xiàn)

[1] U.S. Census Bureau, “Combined Statistical Areas of the United States and Puerto Rico,” 2015.

[2] U.S. Census Bureau, “Cartographic Boundary Shapefiles,” 2015.

[3] M. Paulik, “Improvements to the Pruning Behavior of DNN Acoustic Models,” Interspeech, 2015.

[4] H. Dolfing and I. Hetherington, “Incremental Language Models for Speech Recognition Using Finite-state Transducers,” Proceedings of ASRU, 2001, pp. 194–197.

[5] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, et al., “The Kaldi Speech Recognition Toolkit,” Proceedings of ASRU, 2011, pp. 1–4.

[6] O. Abdel-Hamid, A. Mohamed, H. Jiang, L. Deng, G. Penn, and D. Yu, “Convolutional Neural Networks for Speech Recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 10, pp. 1533-1545, 2014.

[7] X. Xiao, H. Chen, M. Zylak, D. Sosa, S. Desu, M. Krishnamoorthy, D. Liu, M. Paulik, and Y. Zhang, “Geographic Language Models for Automatic Speech Recognition,” in Proceedings of ICASSP, 2018.

via Apple Machine Learning Journal，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。