來自語音從業(yè)者的一封批評信

本文作者：楊麗

2020-04-06 17:27

導語：“這種情況可能會導致對領域的投資不足?！?

雷鋒網訊，曾幾何時，NLP的ImageNet時代被許多人所期待，他們希望用于語言任務的模型也能夠像ImageNet在計算機視覺領域的應用一樣廣泛。

近日，來自俄羅斯Silero公司的數據科學家Alexander Veysov發(fā)表了一篇名為《語音從業(yè)者對業(yè)界和學術界的批評》的文章，引發(fā)了不少同行關注。

他在文中指出，“最近在大眾媒體中，有監(jiān)督機器學習泛濫成風。出現這種情況的原因是，無法兌現的承諾被炒作，使該領域出現了非理性的繁榮和過度投資。這種情況可能會導致對領域的投資不足。”

來自語音從業(yè)者的一封批評信

文中，Alexander Veysov以ImageNet在計算機視覺領域的廣泛應用進行對比，反襯語音轉文字（STT）行業(yè)的預訓練模型、遷移學習和數據集都遠遠落后，而計算要求（正如研究論文中所述）仍然過高。

據了解，大部分語音研究是由行業(yè)/企業(yè)贊助的學者發(fā)表的。為此，作者也將批評的矛頭轉向了業(yè)界與學界。

首先在業(yè)界，作者表示，大多數的STT論文出自Google、Facebook、百度等科技公司的研究人員。為此，行業(yè)從業(yè)者需要關注六個核心問題：一是關注基于私有數據的解決方案而非清楚地報告；二是復雜的框架和工具包；三是解決了不存在的問題；四是論文中結果模糊不清。

例如，像“關注基于私有數據的解決方案而非清楚地報告”這一問題中，作者指出，Google等公司可能擁有1萬甚至10萬小時的私有數據集用于訓練模型。但問題在于，他們使用這些數據以提升模型訓練卻并沒有報告這些數據。

眾所周知，語音標注需要耗費大量的資源和時間精力。標注一段1小時的語料可能需要2~10小時不等，這取決于數據集的難易程度及是否有其他自動標簽。這導致了當前幾乎所有人都宣稱通過開源數據集LibriSpeech進行訓練得到了最好的結果，但卻沒去說明這些模型在現實生活中的表現以及哪些模型投入了生產過程。因為像Google這樣的公司都沒有明顯的經濟動因而開源其大型專有數據集?？偠灾?，這為希望構建自身STT系統的從業(yè)者設置了非常高的進入門檻。

為什么會存在復雜的框架和工具包？作者指出，依靠框架或工具包而非從頭編寫是很常見的。如果有專門的框架和工具包，那么最好在框架提供的模型上進行構建，而不是直接在PyTorch或TensorFlow上構建自己的模型。但這在語言任務中卻需要另當別論。原因有很多：

例如，代碼經過優(yōu)化后可在大型計算機上運行；模型僅適用于小型學術數據集，且無法在沒有大量計算的情況下擴展到大型數據集；模型的樣本效率極低等等。

來自語音從業(yè)者的一封批評信