3
雷鋒網(wǎng) AI 科技評(píng)論按:在文本編碼中,能否找到一種能夠適用于所有語(yǔ)言,并在機(jī)器學(xué)習(xí)的模型中有優(yōu)良表現(xiàn)的編碼級(jí)別和編碼方式呢?針對(duì)此問(wèn)題,Yann LeCun和他的學(xué)生張翔在不久前發(fā)表了一篇研究工作《Which Encoding is the Best for Text Classification in Chinese, English, Japanese and Korean?》。
在這篇論文中,他們通過(guò)473種模型的對(duì)比,最終得出了一系列極有價(jià)值的結(jié)論。雷鋒網(wǎng) AI 科技評(píng)論對(duì)這篇論文也有較為深度的解讀。 詳情可閱讀:Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?
隨后雷鋒網(wǎng)AI科技評(píng)論聯(lián)系到了論文第一作者,紐約大學(xué)博士生張翔,并就此項(xiàng)工作對(duì)他進(jìn)行了采訪。據(jù)了解,目前張翔的主要研究方向是基于卷積網(wǎng)絡(luò)的文本表征學(xué)習(xí),包括文本的表達(dá)和生成。
當(dāng)機(jī)器學(xué)習(xí)對(duì)自然語(yǔ)言進(jìn)行學(xué)習(xí)和訓(xùn)練時(shí),如何表示文本(文本編碼)將是首先遇到的最基本的問(wèn)題。
這需要考慮兩點(diǎn),首先從哪個(gè)級(jí)別進(jìn)行編碼,是byte級(jí)別,還是character級(jí)別,或者word級(jí)別等,不同的級(jí)別編碼對(duì)模型的依賴是不一樣的;其次是采用哪種機(jī)制進(jìn)行編碼,是通過(guò)字符的字形進(jìn)行編碼,還是采用獨(dú)熱編碼,或者嵌入編碼,編碼機(jī)制也將影響深度學(xué)習(xí)模型的效果。
更關(guān)鍵的是,CJK語(yǔ)言(漢語(yǔ)、韓語(yǔ)、日語(yǔ)等語(yǔ)言)與英語(yǔ)這樣的字母語(yǔ)言有很大的不同。對(duì)英語(yǔ)進(jìn)行字符級(jí)編碼可能比較有效,但將這種編碼方式用到CJK語(yǔ)言中可能會(huì)導(dǎo)致模型的體量很大。Yann LeCun和張翔的研究工作正是基于這種考慮進(jìn)行的。
張翔告訴雷鋒網(wǎng)AI科技評(píng)論,這項(xiàng)工作大約開(kāi)始于一年半以前。當(dāng)時(shí),張翔向他的導(dǎo)師Yann LeCun教授提出希望做這樣的一個(gè)課題,即通過(guò)抓取數(shù)據(jù),對(duì)不同的文本表示方式進(jìn)行一個(gè)相對(duì)公平的評(píng)測(cè),評(píng)測(cè)方式為自然語(yǔ)言處理任務(wù)中較為簡(jiǎn)單、有明確輸出評(píng)測(cè)的文本分類。
剛開(kāi)始,LeCun教授并不十分看好這項(xiàng)研究,因?yàn)檫@似乎是一個(gè)工程多于學(xué)術(shù)思維的課題。張翔向雷鋒網(wǎng)AI科技評(píng)論回憶道,“但當(dāng)我跟導(dǎo)師說(shuō)到中日韓語(yǔ)言和西方語(yǔ)言的不同特點(diǎn),以及當(dāng)前自然語(yǔ)言處理的模型并不能夠以一種統(tǒng)一的方式來(lái)處理所有不同的語(yǔ)言時(shí),我們意識(shí)到,其實(shí)真正有意思的是,不同語(yǔ)言的文本是否能夠用一種統(tǒng)一的方式輸入到神經(jīng)網(wǎng)絡(luò)里面,使得像分詞這樣的自然語(yǔ)言處理的預(yù)先處理最小化?!?/strong>
在這篇論文里,這些不同的文本輸入方式被稱作不同的編碼方式(Encoding Mechanism)。之前學(xué)界對(duì)于到底哪種編碼方式更好并沒(méi)有一個(gè)統(tǒng)一的意見(jiàn),也缺乏較為全面的橫向比較,不同的學(xué)者只選擇其中一種或多種方式來(lái)驗(yàn)證自己的模型。于是,鑒于統(tǒng)一多語(yǔ)言模型并非一個(gè)顯而易見(jiàn)的事情,張翔與LeCun開(kāi)始了這項(xiàng)研究。
在課題的意義明確之后,接下來(lái)的工作就是寫(xiě)代碼來(lái)進(jìn)行數(shù)據(jù)抓取和模型訓(xùn)練了。據(jù)雷鋒網(wǎng)AI科技評(píng)論了解,最初這個(gè)項(xiàng)目大概花了4個(gè)月的時(shí)間進(jìn)行數(shù)據(jù)抓取,共獲得橫跨4種語(yǔ)言(英、漢、日、韓語(yǔ))和8個(gè)網(wǎng)站(大眾點(diǎn)評(píng)、京東、Rakuten、11st、Amazon、鳳凰網(wǎng)、中國(guó)日?qǐng)?bào)、NYnews)的數(shù)億條的文本數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過(guò)一定的去重和長(zhǎng)度控制之后,構(gòu)成了這篇論文中提到的大規(guī)模文本分類數(shù)據(jù)集(共14個(gè),具體可參考解讀文章)。這些數(shù)據(jù)源每個(gè)都要比最終數(shù)據(jù)集大幾個(gè)數(shù)量級(jí)。這種對(duì)于數(shù)據(jù)大規(guī)模的抓取和處理其實(shí)是非常鍛煉一個(gè)人的工程能力的。
張翔向雷鋒網(wǎng)AI科技評(píng)論表示:“在這個(gè)課題的整個(gè)研究過(guò)程中,LeCun教授一直定期與我進(jìn)行交流和指導(dǎo),還特別介紹了fastText發(fā)明人Joulin一起探討不同模型所具有的優(yōu)勢(shì)和劣勢(shì)。我認(rèn)為,每一次這樣的交流都能夠?qū)W到很多有用的知識(shí)?!?/p>
在大約一年多的時(shí)間里面,張翔和Yann LeCun大概使用了幾十塊GPU對(duì)不同的模型進(jìn)行訓(xùn)練,最終得到了473個(gè)模型的結(jié)果。通過(guò)對(duì)比發(fā)現(xiàn),字節(jié)級(jí)獨(dú)熱編碼(byte-level one-hot encoding)是卷積網(wǎng)絡(luò)最好的編碼方式。這樣的結(jié)果離不開(kāi)字節(jié)獨(dú)熱(one-hot)編碼的易用性,從而使得卷積網(wǎng)絡(luò)能夠在性能和計(jì)算量之間取得較好的平衡。同時(shí),基于字節(jié)的輸入方式徹底不再需要對(duì)文本進(jìn)行預(yù)處理,能夠很方便地應(yīng)用到不同的語(yǔ)言中去。
目前這篇文章的工作已經(jīng)結(jié)束,但由于數(shù)據(jù)和代碼體量較大,張翔目前還在對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的整理,隨后會(huì)連同大部分?jǐn)?shù)據(jù)集一起發(fā)布。為了保證實(shí)驗(yàn)的可重復(fù)性,他們還將對(duì)于論文中出現(xiàn)的每一個(gè)數(shù)據(jù)點(diǎn)提供能夠重復(fù)其結(jié)果的命令行腳本。
不過(guò)張翔對(duì)雷鋒網(wǎng)AI科技評(píng)論表示,這項(xiàng)工作雖然實(shí)驗(yàn)量大,但遠(yuǎn)遠(yuǎn)沒(méi)有覆蓋到所有可能的模型和編碼方式。在未來(lái),對(duì)于循環(huán)(Recurrent)神經(jīng)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)不同設(shè)計(jì)方法的探索,也都是可能的研究方向。
“現(xiàn)在的科研新想法層出不窮,但到頭來(lái)還是需要公平的比較和清晰的結(jié)果才能說(shuō)明問(wèn)題?!边@是張翔在論文發(fā)表在arXiv后,在朋友圈中所說(shuō)的一段話,也許從某種層面上正表達(dá)了他的治學(xué)想法。
據(jù)對(duì)張翔博士的采訪,我們了解到張翔曾在2007-2011年就讀于天津大學(xué),師從劉世光教授。本科畢業(yè)后,他到紐約大學(xué)就讀碩士研究生,起初他并沒(méi)有讀博的打算?!昂髞?lái),我在第一個(gè)學(xué)期選了LeCun教授的機(jī)器學(xué)習(xí)和Rob Fergus教授的計(jì)算攝影學(xué)(Computational Photography)課程,覺(jué)得深度學(xué)習(xí)是非常有意思的課題(當(dāng)時(shí)深度學(xué)習(xí)還不是機(jī)器學(xué)習(xí)的主流)?!?/p>
張翔告訴AI科技評(píng)論,紐約大學(xué)CILVR實(shí)驗(yàn)室研究課題領(lǐng)域非常廣泛,包括生成模型、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解和推理、自動(dòng)駕駛、表征學(xué)習(xí)理論、優(yōu)化等。張翔說(shuō):“可以說(shuō)在CILVR實(shí)驗(yàn)室,任何深度學(xué)習(xí)方向都可以找到專家來(lái)進(jìn)行探討?!?/p>
由于他在這兩門課取得了非常優(yōu)異的成績(jī),兩位教授都主動(dòng)發(fā)郵件詢問(wèn)他讀博的意向。甚至,LeCun教授還特地為他寫(xiě)了一封推薦信,讓他參加UCLA應(yīng)用數(shù)學(xué)研究院于2012年舉辦的深度學(xué)習(xí)和表征學(xué)習(xí)夏令營(yíng)。兩位大牛如此主動(dòng)“示好”,張翔最終成功申請(qǐng)到紐約大學(xué)的博士學(xué)位,成為Yann LeCun的弟子。不過(guò)對(duì)此,他謙虛地將這一切歸因于運(yùn)氣,“我可能運(yùn)氣較好,碰巧趕上了好的機(jī)遇和環(huán)境?!?/p>
當(dāng)問(wèn)到他以后的打算時(shí),張翔表示:“我大概離畢業(yè)還有一年左右的時(shí)間。目前的想法是尋找一個(gè)工業(yè)實(shí)驗(yàn)室或者學(xué)術(shù)界的博士后職位,進(jìn)一步推進(jìn)目前的研究課題。在繼續(xù)科研數(shù)年之后,我希望能夠有機(jī)會(huì)將所學(xué)到的人工智能和深度學(xué)習(xí)的技術(shù)應(yīng)用到制造、能源和醫(yī)療等領(lǐng)域?!?/p>
張翔個(gè)人主頁(yè):http://xzh.me
更多精彩資訊敬請(qǐng)關(guān)注雷鋒網(wǎng)AI科技評(píng)論。
相關(guān)文章:
Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。