數(shù)據(jù)挖掘領(lǐng)頭人韓家煒教授：如何從無(wú)結(jié)構(gòu)文本到有用的知識(shí)？

本文作者： camel

2019-11-06 19:36

導(dǎo)語(yǔ)：無(wú)結(jié)構(gòu)數(shù)據(jù)->有結(jié)構(gòu)數(shù)據(jù)->有用的知識(shí)

語(yǔ)音播放文章內(nèi)容

由深聲科技提供技術(shù)支持

數(shù)據(jù)挖掘領(lǐng)頭人韓家煒教授：如何從無(wú)結(jié)構(gòu)文本到有用的知識(shí)？

雷鋒網(wǎng) AI 科技評(píng)論按：這幾日，對(duì)于許多數(shù)據(jù)挖掘領(lǐng)域的研究者來(lái)說(shuō)，北京是一個(gè)關(guān)注的焦點(diǎn)，原因無(wú)他，作為數(shù)據(jù)挖掘領(lǐng)域的兩大頂會(huì)CIKM 2019和ICDM 2019相繼在北京召開(kāi)，甚至連開(kāi)會(huì)地點(diǎn)（國(guó)家會(huì)議中心）都沒(méi)有變化。

數(shù)據(jù)挖掘領(lǐng)頭人韓家煒教授：如何從無(wú)結(jié)構(gòu)文本到有用的知識(shí)？

兩個(gè)會(huì)議同為CCF B類，其區(qū)別在于前者是ACM舉辦，而后者是IEEE舉辦；此外CIKM覆蓋范圍更廣，包括了數(shù)據(jù)庫(kù)、信息檢索和數(shù)據(jù)挖掘三個(gè)領(lǐng)域，而ICDM則更為專注數(shù)據(jù)挖掘。

在兩次會(huì)議中，數(shù)據(jù)挖掘領(lǐng)域的巨擘韓家煒教授將就其研究分別做主題為《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》（@CIKM2019）和《Embedding-Based Text Mining: A Frontier in Data Mining》（@ICDM2019）的報(bào)告。

現(xiàn)實(shí)世界中的大數(shù)據(jù)在很大程度上是非結(jié)構(gòu)化的、互聯(lián)的和動(dòng)態(tài)的，且以自然語(yǔ)言文本的形式出現(xiàn)，將此類龐大的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為有用的知識(shí)是一條必由之路。目前大家普遍采用勞動(dòng)密集型的方法對(duì)數(shù)據(jù)進(jìn)行打標(biāo)簽從而提取知識(shí)，這種方法短時(shí)來(lái)看可取，但卻無(wú)法進(jìn)行擴(kuò)展，特別是許多企業(yè)的文本數(shù)據(jù)是高度動(dòng)態(tài)且領(lǐng)域相關(guān)。

韓家煒教授認(rèn)為，大量的文本數(shù)據(jù)本身就隱含了大量的隱模式、結(jié)構(gòu)和知識(shí)，因此我們可以借助domain-independent 和 domain-dependent的知識(shí)庫(kù)，來(lái)探索如何將海量數(shù)據(jù)從非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的知識(shí)。

如下圖所示，是韓家煒教授及其學(xué)生在過(guò)去以及未來(lái)研究的主線：

數(shù)據(jù)挖掘領(lǐng)頭人韓家煒教授：如何從無(wú)結(jié)構(gòu)文本到有用的知識(shí)？

韓家煒認(rèn)為要想將現(xiàn)有的無(wú)結(jié)構(gòu)的大數(shù)據(jù)變成有用的知識(shí)，首先要做的就是將數(shù)據(jù)結(jié)構(gòu)化。他提出兩種結(jié)構(gòu)化數(shù)據(jù)的形式，一種是異質(zhì)網(wǎng)絡(luò)（Heterogeneous Network），另一種是多維文本立方體（Multi-dimensional Text Cube）。由這種結(jié)構(gòu)化數(shù)據(jù)生成知識(shí)已經(jīng)證明是很強(qiáng)大的，但是如何將原始無(wú)結(jié)構(gòu)的數(shù)據(jù)變成有結(jié)構(gòu)的數(shù)據(jù)（Network 或 Text Cube）則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問(wèn)題上，韓家煒等人已經(jīng)做了很多研究工作，也已經(jīng)由此獲得了很多獎(jiǎng)項(xiàng)；在無(wú)結(jié)構(gòu)文本數(shù)據(jù)到有結(jié)構(gòu) Network/Text Cube 的路上他們也做出了許多嘗試和成果，現(xiàn)在仍在進(jìn)行中。韓家煒認(rèn)為這是一條很長(zhǎng)的路，他們現(xiàn)在只是在這條路上突破了幾個(gè)可以往前走的口子，還只是一條小路，要變成一條康莊大道則需要各國(guó)學(xué)者共同努力。

韓家煒教授的研究工作并非跟隨熱點(diǎn)，而是在十年如一日地去打通一條從無(wú)結(jié)構(gòu)數(shù)據(jù)到有用的知識(shí)的康莊大道，因此脈絡(luò)極為清晰且極具連貫性。

雷鋒網(wǎng) AI 科技評(píng)論在2018年初曾整理過(guò)一篇韓家煒教授的演講報(bào)告文章《韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么》，值得大家參考。相比一年前，韓家煒教授的團(tuán)隊(duì)也在不斷將當(dāng)前最新的研究進(jìn)展融入到他們這條「小路」當(dāng)中，例如BERT、Spherical Text Embedding等，這些請(qǐng)查閱韓家煒教授團(tuán)隊(duì)近期發(fā)表論文：

數(shù)據(jù)挖掘領(lǐng)頭人韓家煒教授：如何從無(wú)結(jié)構(gòu)文本到有用的知識(shí)？