0
本文作者: skura | 2019-07-16 17:59 |
雷鋒網(wǎng) AI 科技評論按,近年來,隨著移動(dòng)通信和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與普及應(yīng)用,數(shù)據(jù)挖掘技術(shù)得到了越來越多的關(guān)注。文本數(shù)據(jù)挖掘作為自然語言處理、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等多種技術(shù)的交叉研究領(lǐng)域,其研究熱度也逐年提升。在學(xué)術(shù)界,每年都有大量相關(guān)論文發(fā)表;在工業(yè)界,文本數(shù)據(jù)挖掘被廣泛地應(yīng)用于醫(yī)療、金融風(fēng)控、司法和情報(bào)分析等各個(gè)領(lǐng)域,極大地幫助了人們提高工作效率和分析挖掘相關(guān)信息。
如何更好地入門這項(xiàng)技術(shù)呢?相信相關(guān)專業(yè)的學(xué)生和該領(lǐng)域的初學(xué)者都非常關(guān)心這個(gè)問題。近日,由中國科學(xué)院自動(dòng)化所研究員、博士生導(dǎo)師宗成慶、南京理工大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師夏睿和中科院自動(dòng)化所副研究員張家俊三位老師歷時(shí)兩年多撰寫的《文本數(shù)據(jù)挖掘》問世,為這項(xiàng)技術(shù)的推廣和應(yīng)用提供了一部優(yōu)秀的教學(xué)輔導(dǎo)書。該書全面梳理了文本數(shù)據(jù)挖掘技術(shù)各個(gè)方向的基本概念和經(jīng)典方法,并給出了具體的應(yīng)用案例,對于初學(xué)者來說這是一本不可多得的好書,對研究人員也不失一本值得參閱的手邊書。
對于宗成慶老師,相信國內(nèi)任何一位學(xué)習(xí)和從事 NLP 技術(shù)研發(fā)的人應(yīng)該都不會(huì)陌生,他撰寫的《統(tǒng)計(jì)自然語言處理》多年來都是國內(nèi) NLP 學(xué)習(xí)和研究必備的參考書。時(shí)隔數(shù)年,宗成慶老師再次發(fā)表新著,其初衷和意義為何?帶著這些問題,雷鋒網(wǎng) AI 科技評論宗和成慶老師進(jìn)行了深入交流。
文本數(shù)據(jù)挖掘研究
AI 科技評論:文本數(shù)據(jù)挖掘作為一個(gè)研究方向,它的意義何在?
答:文本數(shù)據(jù)挖掘具有極其廣闊的應(yīng)用前景,包括金融、醫(yī)療、生物醫(yī)藥、司法和情報(bào)分析等各個(gè)領(lǐng)域。我們所說的自然語言處理技術(shù),其應(yīng)用目標(biāo)除了機(jī)器翻譯和對話系統(tǒng)以外,主要任務(wù)就是利用這本書中所介紹的這些文本數(shù)據(jù)挖掘技術(shù)進(jìn)行文本的分析和處理。
AI 科技評論:您能否簡單介紹下這個(gè)領(lǐng)域的發(fā)展歷史?
答:其實(shí),某些技術(shù)最早可以追溯到上個(gè)世紀(jì)的 50 年代,例如,自動(dòng)文摘。那時(shí)候人們就已經(jīng)在關(guān)注如何為圖書文獻(xiàn)自動(dòng)生成摘要。之后,應(yīng)用需求范圍不斷擴(kuò)大,尤其是隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及應(yīng)用,相關(guān)技術(shù)需求逐漸被提出,如情感分析、主題發(fā)現(xiàn)和追蹤等。我個(gè)人認(rèn)為,這并不是一個(gè)新的領(lǐng)域,而是以自然語言處理為主,結(jié)合機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等多種技術(shù)的具體應(yīng)用。
AI 科技評論:文本數(shù)據(jù)挖掘的主要難點(diǎn)在哪里?
答:不同的任務(wù)面臨的難點(diǎn)是不一樣的。但如果籠統(tǒng)一點(diǎn)來說的話,主要在于如何弄清楚文本作者的意圖和觀點(diǎn),這是最根本的問題。不同于從數(shù)據(jù)庫中挖掘和發(fā)現(xiàn)知識(shí),文本數(shù)據(jù)挖掘的處理的都是非結(jié)構(gòu)化的文本數(shù)據(jù),因此自然語言處理中面臨的問題都是文本數(shù)據(jù)挖掘中的難點(diǎn)。
計(jì)算機(jī)和人不一樣,對于一段文字,人掃一眼就可以明白了。而計(jì)算機(jī)理解語言會(huì)涉及到太多東西,包括語言學(xué)的問題、人的背景知識(shí)和常識(shí)等。目前我們還無法清楚地知道人腦是如何理解語言的。所以從長遠(yuǎn)的深層次研究角度,我們要和腦科學(xué)研究結(jié)合起來。目前我們正在與中科院上海神經(jīng)所、心理所等從事腦科學(xué)和語言認(rèn)知研究的專家進(jìn)行合作。當(dāng)然,這是一個(gè)遙遠(yuǎn)的目標(biāo)。從應(yīng)用的角度,我們希望盡快利用機(jī)器學(xué)習(xí)等技術(shù),結(jié)合語言學(xué)和具體應(yīng)用需求,建立實(shí)用的文本挖掘方法。
AI 科技評論:目前這一研究進(jìn)展如何?
答:對人腦從事語言認(rèn)知機(jī)理的研究是一個(gè)長遠(yuǎn)的目標(biāo),屬于基礎(chǔ)性的探索研究,很難指望在短時(shí)期內(nèi)看到直接的應(yīng)用效果。但是,相關(guān)研究會(huì)給我們很多啟發(fā),讓我們改進(jìn)或者解釋現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型,或者建立更加有效的新方法。總起來說,這需要持續(xù)地研究,甚至需要幾代人一點(diǎn)一點(diǎn)地努力,去攻克這個(gè)堡壘。
《文本數(shù)據(jù)挖掘》
AI 科技評論:您寫作《文本數(shù)據(jù)挖掘》這本書的初衷是什么?
答:主要有幾方面考慮。一方面,我前一本書《統(tǒng)計(jì)自然語言處理》的主要內(nèi)容是自然語言處理的基礎(chǔ)理論和關(guān)鍵技術(shù),而《文本數(shù)據(jù)挖掘》介紹的目前自然語言處理應(yīng)用領(lǐng)域中熱點(diǎn)的研究方向,如情感分析、主題發(fā)現(xiàn)和信息抽取等。另一方面,我在國科大為研究生開設(shè)的一門課程名稱就是「文本數(shù)據(jù)挖掘」,需要這樣一本教學(xué)輔導(dǎo)書。另外,近年來自然語言處理技術(shù)的應(yīng)用需求很大,技術(shù)發(fā)展非常之快,很多新技術(shù)和新方法不斷推出,對于我個(gè)人而言,撰寫這本書的過程也是學(xué)習(xí)和熟悉最新技術(shù)和方法,梳理學(xué)科知識(shí)的過程。
AI 科技評論:既然《文本數(shù)據(jù)挖掘》梳理的是最新的技術(shù)方法,那么,您此前撰寫的《統(tǒng)計(jì)自然語言處理》,其內(nèi)容需要更新嗎?
答:當(dāng)然需要,因?yàn)楝F(xiàn)在的技術(shù)發(fā)展太快了,很多技術(shù)都已經(jīng)更新。但是,我需要在清楚地掌握這些新技術(shù)以后,才能判斷哪些新方法需要寫進(jìn)書中,很多技術(shù)都需要經(jīng)過時(shí)間的驗(yàn)證。其實(shí),有些新技術(shù)已經(jīng)被寫入《文本數(shù)據(jù)挖掘》這本書里了,如詞的分布式表示,深度神經(jīng)網(wǎng)絡(luò)方法等。我認(rèn)為文本數(shù)據(jù)挖掘?qū)嶋H上就是自然語言處理方向的一個(gè)延伸和擴(kuò)展。
AI 科技評論:文本數(shù)據(jù)挖掘現(xiàn)在在企業(yè)里面有哪些具體的應(yīng)用案例?
答:文本數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛。在醫(yī)學(xué)上,它可以用來幫助醫(yī)生進(jìn)行診斷,或者為醫(yī)學(xué)研究者提供技術(shù)手段或知識(shí)支撐,也可以為患者提供幫助,如問診或查詢等;在金融領(lǐng)域,根據(jù)財(cái)務(wù)報(bào)告、大眾評價(jià)等一些公開的信息,可以幫助投資人分析某家公司的信譽(yù)如何;它還可以幫助法官根據(jù)以往的案例如何量刑和斷案等。
AI 科技評論:因?yàn)橹袊酥饕褂弥形?,那么,漢語的文本挖掘和其他語言有區(qū)別嗎?
答:區(qū)別是存在的。首先,中文文本挖掘面臨著分詞的問題,這是一個(gè)基本問題。
雖然其他語言也存在這類問題,如韓國語和日語等,但是中文的分詞更麻煩,尤其對于非規(guī)范化的文本而言。其次,中文在表達(dá)方式上比較復(fù)雜,或者說比較靈活,語義表達(dá)更復(fù)雜,有時(shí)候不同的人對同一句話的理解可能也不一樣。例如,在中文文本中很多時(shí)候作者在表達(dá)觀點(diǎn)時(shí)都比較委婉,甚至在描述一件事情的時(shí)候喜歡繞圈子,而不會(huì)直接表達(dá)自己的意思,而在英文文本中較為直截了當(dāng)。所以,在進(jìn)行中文文本挖掘時(shí)需要考慮漢語篇章的特殊性。
AI 科技評論:文本數(shù)據(jù)挖掘這本書里面如何處理機(jī)器學(xué)習(xí)方法和傳統(tǒng)方法?
答:從性能和最終結(jié)果來看,對于很多任務(wù)來說,神經(jīng)網(wǎng)絡(luò)或者深度學(xué)習(xí)方法的結(jié)果要優(yōu)于傳統(tǒng)方法,但是傳統(tǒng)方法也有它自己的優(yōu)點(diǎn),如便于結(jié)合先驗(yàn)知識(shí)、可解釋等。在方法改進(jìn)和創(chuàng)新研究中,我們不應(yīng)該完全拋棄原來的方法。如何把這些方法結(jié)合起來,讓它們在不同的方面發(fā)揮作用,最終取得更好的性能,這是我們的目標(biāo)。創(chuàng)新就是這樣,始終在前人工作的基礎(chǔ)上一步一步地提升和前進(jìn)。
在《文本數(shù)據(jù)挖掘》這本書里面,我們并沒有過多地強(qiáng)調(diào)深度學(xué)習(xí)方法,比較有代表性的方法都介紹了。我們希望讀者能夠完整地了解某個(gè)方向的發(fā)展歷程。在此基礎(chǔ)上,讀者自己會(huì)去進(jìn)行判斷或者研究應(yīng)該如何建立更加有效的新方法。
AI 科技評論:您剛才提到,傳統(tǒng)的方法也很重要。那么,如果您現(xiàn)在修訂《統(tǒng)計(jì)自然語言處理》,會(huì)如何進(jìn)行內(nèi)容取舍?
答:一方面,有些內(nèi)容需要壓縮。《統(tǒng)計(jì)自然語言處理》中的有些方法在性能表現(xiàn)上有點(diǎn)跟不上時(shí)代了。有些方法,如統(tǒng)計(jì)機(jī)器翻譯,只需要介紹起主要思想,而不過多地介紹模型細(xì)節(jié)。另一方面,需要增加一些深度學(xué)習(xí)的新方。
進(jìn)一步學(xué)習(xí)
AI 科技評論:如果學(xué)完了這本書以后,還想要進(jìn)一步學(xué)習(xí),您覺得應(yīng)該從哪一些方向入手?
答:《文本數(shù)據(jù)挖掘》這本書講的主要是一些比較基礎(chǔ)的方法,主要目的是帶領(lǐng)讀者進(jìn)入這個(gè)領(lǐng)域。正如前面所說,這個(gè)方向發(fā)展得非???,需要不斷地跟進(jìn)和更新。每年 ACL、COLING 和 EMNLP 等本領(lǐng)域的會(huì)議上都會(huì)不斷推出一些新的方法,需要不斷地跟蹤。讀者在了解和掌握本書的基本知識(shí)之后可以通過閱讀論文、聽學(xué)術(shù)報(bào)告或其他交流形式,跟蹤和關(guān)注這一領(lǐng)域的最新進(jìn)展。
AI 科技評論:在國內(nèi),很多學(xué)生過度依賴開源工具,缺乏自己的思考,您怎么看待這一現(xiàn)象?應(yīng)該如何改善這一狀況?您認(rèn)為優(yōu)秀的學(xué)生一般應(yīng)該具有哪些重要的品質(zhì)?
答:及時(shí)學(xué)習(xí)、跟蹤和使用開源工具,了解國際最新的前沿技術(shù),是對學(xué)生,包括對碩士研究生和博士研究生最基本的要求。對于初學(xué)者來說,使用開源工具是一條捷徑,已有的很多創(chuàng)新也都是從模仿開始的。但是,跟蹤到一定階段,學(xué)生必須學(xué)會(huì)獨(dú)立地思考,提出創(chuàng)新思路。
目前各種誘惑和不合理的評價(jià)體系,是導(dǎo)致學(xué)生過度依賴開源工具、急功近利的主要原因之一。大家都希望在短時(shí)間內(nèi)盡快出論文、出系統(tǒng),而不愿靜下心來深入思考。
要改變這一狀況,每一位從事科研工作的人,尤其老師和學(xué)生都有責(zé)任和義務(wù),從我做起,從現(xiàn)在做起,不受一時(shí)利益和榮譽(yù)的誘惑,靜下心來,打牢理論基礎(chǔ),扎扎實(shí)實(shí)地開展工作,堅(jiān)守「一輩子做好一件事情」的目標(biāo)和理想,才是改變這一現(xiàn)象的根本出路。
我認(rèn)為優(yōu)秀學(xué)生應(yīng)該具備如下重要的品質(zhì):能夠坐得住,甘于寂寞,持之以恒地用心鉆研,不受前人思路的限制和制約,勇于創(chuàng)新和實(shí)踐。從長遠(yuǎn)來看,社會(huì)最終認(rèn)可的一定是扎扎實(shí)實(shí)的有用的技術(shù),而不是故弄玄虛、華而不實(shí)的墻上畫餅。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。