丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給谷磊
發(fā)送

0

盡管有伊隆馬斯克的嘲諷,但學(xué)術(shù)論文該寫還是要寫的,而且要寫好

本文作者: 谷磊 2017-05-05 20:05
導(dǎo)語:NLP頂級會議ACL2017年收錄論文公布,我們和一些作者聊了聊,成功者的經(jīng)驗不能完全復(fù)制,希望大家看完能有自己的思考

今天,朋友圈里又傳來一陣激烈的討論,原來是特斯拉 CEO 伊隆馬斯克又放出“狂言”:90%的學(xué)術(shù)論文都是毫無價值的。

其實,在很多從事學(xué)術(shù)研究的老師和學(xué)生看來,是多少有一些認(rèn)同感的。相信不會有人因為這句話就否定論文在基礎(chǔ)理論和應(yīng)用層面的帶來的巨大創(chuàng)新力,很多人爭論的點僅是到底百分之多少有價值的問題。那么雷鋒網(wǎng)認(rèn)為論文既然還要寫,就應(yīng)該努力去做那有價值的那部分?;诖耍覀兟?lián)系到一些最近剛剛被NLP領(lǐng)域的頂級會議ACL收錄的論文作者,跟他們聊了聊如何寫出一篇優(yōu)秀的學(xué)術(shù)論文的話題。

近日,自然語言處理領(lǐng)域國際最權(quán)威的學(xué)術(shù)會議 ACL(The Association for Computational Linguistics) 公布了其2017年錄用的論文。

以人類語言為研究對象的“自然語言處理”(Natural Language Processing:NLP)是人工智能最重要的研究方向之一。作為在 NLP 領(lǐng)域世界范圍內(nèi)影響力最大、也最具活力的國際學(xué)術(shù)組織,ACL(國際計算語言學(xué)會)第 55 屆年會將于 2017 年 7 月 30 日至 8 月 4 日在加拿大溫哥華舉辦。

盡管有伊隆馬斯克的嘲諷,但學(xué)術(shù)論文該寫還是要寫的,而且要寫好

4月22日,為了促進國內(nèi)自然語言處理相關(guān)研究的發(fā)展以及研究者之間的交流,中國中文信息學(xué)會青年工作委員會聯(lián)合騰訊公司在北京舉辦了“ACL 2017論文報告會”,邀請到了國內(nèi)部分被錄用論文的作者報告其論文方法,共同探討自然語言處理領(lǐng)域的新發(fā)展和新技術(shù)(附講者Slides下載)。

雷鋒網(wǎng) AI 科技評論作為合作媒體也應(yīng)邀參與,并在會后采訪了部分的作者,請他們就論文投稿技巧、心中的偶像、今后的打算以及新舊研究方法之間的聯(lián)系等問題表達了自己的看法,雷鋒網(wǎng)將回答匯總整理如下。

雷鋒網(wǎng):請簡單描述下本次投稿的過程,從選題,寫稿,投稿到被收錄,你認(rèn)為有什么經(jīng)驗可以遵循嗎?

吳雙志:經(jīng)驗的話談不上,就是一個按部就班的過程吧。首先我本身就是以做神經(jīng)網(wǎng)絡(luò)機器翻譯課題為主的,所以需要對現(xiàn)有模型的優(yōu)點缺點有較為深刻的掌握和理解。平時就會看很多相關(guān)的工作,找找靈感。這次的投稿的內(nèi)容也是去嘗試解決翻譯中的一個經(jīng)典問題。至于方法,是在一次偶然的機會中跟同事討論時定下來的,當(dāng)時也是抱著嘗試的心態(tài)。當(dāng)模型雛形做出來以后發(fā)現(xiàn)效果挺好的,從而繼續(xù)深入的做下去。后來剛好在ACL投稿之前就都差不多完成了,就投了ACL。所以我覺得就是一個按部就班的過程吧。

何世柱:博士期間我一直在做知識庫問答相關(guān)的工作,了解到知識庫問答目前研究中的一個重要瓶頸就是問答-答案標(biāo)注數(shù)據(jù)的匱乏。正好課題組內(nèi)有師兄在研究社區(qū)問答,而社區(qū)問答中有大量的用戶標(biāo)注的問答-答案數(shù)據(jù),雖然這些數(shù)據(jù)有噪音有錯誤,但還是非常有價值的資源。因此,那時候就想是不是可以利用社區(qū)問答的數(shù)據(jù)幫助知識庫答案。早期的想法還是比較樸素,沒有想到比較好的模型來做這樣的任務(wù)。16年上半年,看到了華為諾亞方舟實驗室的幾個相關(guān)工作,并與相關(guān)作者進行了深入的溝通和交流。受此啟發(fā),針對我們的問題設(shè)計了文章的模型。

在選題的時候,與組內(nèi)老師進行了討論,他們認(rèn)為課題是有意義的,但是難點就在于如何評價。目前還是沒有很好的評價方法,只能采取邊工作邊摸索的方式推進工作。任務(wù)是什么,解決的問題是什么,模型是如何解決這些問題的,這些思路確定之后,論文的撰寫就比較流暢了。

另外,寫作過程中,老師和同學(xué),特別是非該研究方向的同學(xué),幫助檢查也是非常重要的。個人認(rèn)為研究中仔細(xì)思考討論“要解決什么問題”和“如何解決這個問題”至關(guān)重要。

羅炳峰:這篇論文的選題是相對比較自然的一次。我在做關(guān)系抽取的相關(guān)實驗的過程中,發(fā)現(xiàn)數(shù)據(jù)集的噪聲很大程度上影響最終關(guān)系抽取器的效果。而通過查閱以往文獻,發(fā)現(xiàn)以往的工作對這一問題處理的比較粗糙。于是我就通過查詢其他領(lǐng)域的噪聲處理相關(guān)文獻尋找靈感,并結(jié)合關(guān)系抽取的具體情況設(shè)計出了現(xiàn)在的算法,并做了相應(yīng)的實驗。由于寫代碼和做實驗還算順利,所以初步完成這個工作并沒有花太多時間。不過由于這個工作的頭緒比較多,所以花了比較大的功夫?qū)懜?,從開始寫到初步定稿就花了一個多月的時間。功夫不負(fù)有心人,最后審稿人給的分?jǐn)?shù)也比較高,所以從投稿到收錄都比較順利。

經(jīng)驗方面,首先我覺得選題是論文的基礎(chǔ),選擇的研究方向最好要么可以解決一類問題,要么可以覺得可以顯著提升一個重要的任務(wù)。方法設(shè)計方面,可以從問題本身出發(fā),分析出問題的本質(zhì)是什么,難點是什么。明確了問題之后,就可以結(jié)合大量的文獻調(diào)研來尋找靈感,同時也確保自己的方法的新穎性。

最后寫稿的時候,一定要認(rèn)真對待,因為工作做得再好,寫的讓別人看不明白,或者論證不充分都是白搭。最好在截稿日前一個月就開始寫,然后通過迭代來逐步完善。在迭代的過程中,一定要找有經(jīng)驗的人(比如導(dǎo)師和高年級學(xué)長學(xué)姐)提一些意見,爭取把審稿人可能會覺得有問題的地方都在文章中說清楚。比如我這次寫稿就被指出了intuition寫的不夠,文章脈絡(luò)要重新組織,缺某一塊的實驗,實驗論證的太淺等一系列問題。要發(fā)現(xiàn)這些問題需要有充足的投稿經(jīng)驗,而我們學(xué)生在這一點上往往是欠缺的,所以多找有經(jīng)驗的人提一些意見可以大大提高最終論文被錄取的概率。

不愿具名的作者: 這次比較幸運,我的工作能夠被ACL收錄。本文提出的模型簡單但方法相對比較新穎。由于研究方向是信息抽取,所以一直以來都在針對信息抽取相關(guān)任務(wù)進行方法上的探索,并不存在著一個選題的問題。許多的工作都在方法的嘗試和探索方面。

關(guān)于方法的探索方面,這次沒有局限于已有的抽取方法框架,而是從NLP的其他研究任務(wù)中借鑒思路,把我們需要研究的抽取問題轉(zhuǎn)換為了另外一種形式“序列標(biāo)注問題”,從而方便使用更有效地端對端模型去實現(xiàn)抽取,并在相關(guān)數(shù)據(jù)集中實驗,實驗結(jié)果也驗證了方法的有效性。

有了上述的實驗工作就可以開始撰寫論文。一般我寫論文的思路都是:提出問題(說明清楚本文旨在研究一個什么樣的任務(wù),它有什么意義),分析問題(該任務(wù)的特點以及已有方法存在的問題),解決問題(本文設(shè)計模型的思路以及模型的創(chuàng)新性)。力求思路清晰,邏輯嚴(yán)謹(jǐn),描述簡單易懂。在學(xué)術(shù)的路上我還有許多需要學(xué)習(xí)的,上述只是自己在研究過程中的一點習(xí)慣和經(jīng)驗。

涂存超:我覺得選題最重要的方面是面向真實存在的問題,提出自己的解決方案,不要無病呻吟。motivation足夠強或研究的問題足夠新,才會有更大的把握被ACL這種專門領(lǐng)域的頂會錄用。

夏喬林:我的論文雖然是NLP領(lǐng)域的,但是之前受到了很多篇其他領(lǐng)域論文的啟發(fā),所以我的體會是,多看一些自己學(xué)科的論文可能是有好處的。

雷鋒網(wǎng):有沒有NLP方向的偶像?學(xué)術(shù)界是誰? 工業(yè)界是誰?

何世柱:NLP方面比較崇拜的是斯坦福大學(xué)NLP組的Percy Liang。閱讀過他的相關(guān)文章,也深入研究過他開源的想法。發(fā)現(xiàn)他不僅文章寫得好,代碼也非常漂亮,閱讀他的文章和代碼收獲非常大。

不愿具名的作者:沒有固定的偶像,只有一些欣賞的工作。像Hinton, Lencun等這些高高在上的大牛們,更多的是一種敬畏和膜拜。此外,我比較佩服Mikolov這樣的年輕學(xué)者,博士剛畢業(yè)就發(fā)出了影響力巨大的Word2vec工作,將學(xué)術(shù)和工程結(jié)合的很好。

涂存超:學(xué)術(shù)界偶像:Christopher D. Manning;業(yè)界偶像:Tomas Mikolov

雷鋒網(wǎng):有沒有想加入的公司?是哪家?有沒有打算創(chuàng)業(yè)?

吳雙志:我個人來說是比較喜歡搞研究的,而且也很希望能將研究成果放到到實際應(yīng)用中。所以我希望能加入既能做研究也能實現(xiàn)產(chǎn)品轉(zhuǎn)化的公司吧,至于創(chuàng)業(yè)的話,還沒想過。

何世柱:暫時沒有加入產(chǎn)業(yè)界的想法,也沒有創(chuàng)業(yè)的打算(可能再多磨煉磨煉吧,個人覺得創(chuàng)業(yè)非常難)。還是更喜歡科研中的自主性。但是我們的相關(guān)研究其實是與產(chǎn)業(yè)應(yīng)用非常相關(guān)的,比如我這次的文章就是解決產(chǎn)業(yè)上的真實用戶需求,因此,我們也非常樂于跟產(chǎn)業(yè)界合作,因為可以更準(zhǔn)確的獲取用戶的真實需求和數(shù)據(jù)。

夏喬林:還在讀博,但會考慮去谷歌這樣的公司實習(xí),大牛的集中地,應(yīng)該會學(xué)到很多東西。國內(nèi)想嘗試去一些創(chuàng)業(yè)公司實習(xí)。

涂存超:打算創(chuàng)業(yè)。

雷鋒網(wǎng):如何看待目前熱點的研究方法(神經(jīng)網(wǎng)絡(luò))與傳統(tǒng)方法之間的關(guān)系?或者說如何看待經(jīng)驗主義和理性主義的鐘擺。

吳雙志:我覺得神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)方法相比是有很多優(yōu)點的。神經(jīng)網(wǎng)絡(luò)具有很強的學(xué)習(xí)能力,我們知道在很多任務(wù)中,傳統(tǒng)方法可能需要復(fù)雜子模型結(jié)合一起才能完成,訓(xùn)練過程和使用過程復(fù)雜,需要有較多的背景知識。然而神經(jīng)網(wǎng)絡(luò)卻可以用一個網(wǎng)絡(luò)對任務(wù)進行建模,并且在很多任務(wù)上的性能優(yōu)于傳統(tǒng)方法。神經(jīng)網(wǎng)絡(luò)模型降低了很多自然語言經(jīng)典任務(wù)的門檻。但是我覺得不能太盲從于神經(jīng)網(wǎng)絡(luò),在應(yīng)用神經(jīng)網(wǎng)絡(luò)的同時還要對具體任務(wù)做一些反思。傳統(tǒng)方法是領(lǐng)域?qū)<覀兒芏嗄甑难芯砍晒?,非常值得我們借鑒。

所以我覺得對于一個具體任務(wù)而言,我們不能僅僅去把神經(jīng)網(wǎng)絡(luò)拿來就用,還應(yīng)該掌握這個任務(wù)的傳統(tǒng),經(jīng)典方法。

何世柱:這個問題很大,我只能是根據(jù)自己在實踐中的感受來進行回答。神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)方法各自有優(yōu)缺點,神經(jīng)網(wǎng)絡(luò)表達能力強,可以對數(shù)據(jù)進行很好的泛化(本質(zhì)是上平滑),有更強的記憶能力(能存儲和匹配數(shù)據(jù)中更多的模式),但是神經(jīng)網(wǎng)絡(luò)方法對于數(shù)據(jù)的要求比較高,大量高質(zhì)量的數(shù)據(jù)才能學(xué)習(xí)好的模型。傳統(tǒng)方法可以很好的融合人的知識,實際上現(xiàn)在很多神經(jīng)網(wǎng)絡(luò)的方法也在嘗試加入更多的外部知識,比如機器翻譯中加入句法信息其實就是一種外部知識。我們的工作也是在神經(jīng)網(wǎng)絡(luò)中融入存儲于外部知識庫中的知識。

羅炳峰:我覺得神經(jīng)網(wǎng)絡(luò)的方法很大程度上是對傳統(tǒng)方法研究的問題提供了一個新的建模的視角,即區(qū)別于傳統(tǒng)方法通過人工構(gòu)造特征對問題進行刻畫,神經(jīng)網(wǎng)絡(luò)方法可以通過設(shè)計神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),來對問題的各個特性進行建模,或者通過深層網(wǎng)絡(luò)使得模型自己學(xué)習(xí)特征。雖然神經(jīng)網(wǎng)絡(luò)剛提出時宣揚的優(yōu)勢之一就是不需要特征工程,但是其和傳統(tǒng)的基于特征的方法本身是不沖突的,比如Google的Deep&Wide模型就是神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)特征工程方法結(jié)合的一個典型實例。另外像LSTM+CRF這類模型又是神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)建模方法和概率圖模型的結(jié)構(gòu)建模方法的一個有效的結(jié)合方式。相信今后會看到更多的神經(jīng)網(wǎng)絡(luò)方法和傳統(tǒng)方法結(jié)合的案例。

不愿具名的作者: 目前的熱點的神經(jīng)網(wǎng)絡(luò)方法更偏向于一種數(shù)據(jù)驅(qū)動型的方法,相比傳統(tǒng)方法,無需更多的人工干預(yù)工作但對訓(xùn)練數(shù)據(jù)具有很強的依賴性,在如今的大數(shù)據(jù)時代以及計算資源豐富的情況下,相對更具優(yōu)勢。此外,二者也并非完全獨立,也可相輔相成。比如傳統(tǒng)的人工定義規(guī)則模板的方法,這類方法可以提供準(zhǔn)確的先驗知識,如何將這些準(zhǔn)確的先驗知識和神經(jīng)網(wǎng)絡(luò)模型進行融合。

*出門問問NLP工程師李超對本文有貢獻。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

盡管有伊隆馬斯克的嘲諷,但學(xué)術(shù)論文該寫還是要寫的,而且要寫好

分享:
相關(guān)文章

編輯

專注報道人工智能。微信:ydxy301
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說