0
雷鋒網訊,曾幾何時,NLP的ImageNet時代被許多人所期待,他們希望用于語言任務的模型也能夠像ImageNet在計算機視覺領域的應用一樣廣泛。
近日,來自俄羅斯Silero公司的數據科學家Alexander Veysov發(fā)表了一篇名為《語音從業(yè)者對業(yè)界和學術界的批評》的文章,引發(fā)了不少同行關注。
他在文中指出,“最近在大眾媒體中,有監(jiān)督機器學習泛濫成風。出現這種情況的原因是,無法兌現的承諾被炒作,使該領域出現了非理性的繁榮和過度投資。這種情況可能會導致對領域的投資不足。”
文中,Alexander Veysov以ImageNet在計算機視覺領域的廣泛應用進行對比,反襯語音轉文字(STT)行業(yè)的預訓練模型、遷移學習和數據集都遠遠落后,而計算要求(正如研究論文中所述)仍然過高。
據了解,大部分語音研究是由行業(yè)/企業(yè)贊助的學者發(fā)表的。為此,作者也將批評的矛頭轉向了業(yè)界與學界。
首先在業(yè)界,作者表示,大多數的STT論文出自Google、Facebook、百度等科技公司的研究人員。為此,行業(yè)從業(yè)者需要關注六個核心問題:一是關注基于私有數據的解決方案而非清楚地報告;二是復雜的框架和工具包;三是解決了不存在的問題;四是論文中結果模糊不清。
例如,像“關注基于私有數據的解決方案而非清楚地報告”這一問題中,作者指出,Google等公司可能擁有1萬甚至10萬小時的私有數據集用于訓練模型。但問題在于,他們使用這些數據以提升模型訓練卻并沒有報告這些數據。
眾所周知,語音標注需要耗費大量的資源和時間精力。標注一段1小時的語料可能需要2~10小時不等,這取決于數據集的難易程度及是否有其他自動標簽。這導致了當前幾乎所有人都宣稱通過開源數據集LibriSpeech進行訓練得到了最好的結果,但卻沒去說明這些模型在現實生活中的表現以及哪些模型投入了生產過程。因為像Google這樣的公司都沒有明顯的經濟動因而開源其大型專有數據集??偠灾?,這為希望構建自身STT系統的從業(yè)者設置了非常高的進入門檻。
為什么會存在復雜的框架和工具包?作者指出,依靠框架或工具包而非從頭編寫是很常見的。如果有專門的框架和工具包,那么最好在框架提供的模型上進行構建,而不是直接在PyTorch或TensorFlow上構建自己的模型。但這在語言任務中卻需要另當別論。原因有很多:
例如,代碼經過優(yōu)化后可在大型計算機上運行;模型僅適用于小型學術數據集,且無法在沒有大量計算的情況下擴展到大型數據集;模型的樣本效率極低等等。
此外,對于“解決不存在的問題”及“無法復現的結果”,作者并未過多贅述。他認為,與最先進相反,應該更多關注在“足以在現實生活中使用的”解決方案和公共數據集。
當然,除了對業(yè)界進行抨擊外,學界也未幸免。
一是由于過于追求SOTA的模型或效果,反而使其失去了意義。因為每次有SOTA出現時原因是不盡相同的,并且不一定是技術性問題,但在機器學習訓練中,通常是模型過度擬合用于某些數據集。
學術數據集將成為公司用來炫耀實力的“排行榜”。為達到最先進的水平,盡管小玩家無法訪問大型計算,但在大型計算上使用龐大且樣本效率低的網絡已成為默認設置。
二是在理想情況下,論文應足夠詳細,以使獨立研究人員至少復現論文的95%。
三是在現實中,論文的內容和結構通常會因其實際目的和現實生活應用而受到質疑。例如為了發(fā)表論文,選擇復雜的計算方式以解釋某個新概念,盡管事實上,研究人員可能從來不用上述計算方式或者使用了現成的儀器。
此外,作者還指出研究論文還有一些常見的缺陷,如對方法的概括含糊不清,隱瞞耗費的計算資源,或者從不公布收斂曲線等等。(雷鋒網雷鋒網)
相關鏈接:https://thegradient.pub/a-speech-to-text-practitioners-criticisms-of-industry-and-academia/
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。