丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給camel
發(fā)送

0

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

本文作者: camel 2019-11-06 19:36
導語:無結構數(shù)據(jù)->有結構數(shù)據(jù)->有用的知識

語音播放文章內(nèi)容

由深聲科技提供技術支持

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

雷鋒網(wǎng) AI 科技評論按:這幾日,對于許多數(shù)據(jù)挖掘領域的研究者來說,北京是一個關注的焦點,原因無他,作為數(shù)據(jù)挖掘領域的兩大頂會CIKM 2019和ICDM 2019相繼在北京召開,甚至連開會地點(國家會議中心)都沒有變化。

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

兩個會議同為CCF B類,其區(qū)別在于前者是ACM舉辦,而后者是IEEE舉辦;此外CIKM覆蓋范圍更廣,包括了數(shù)據(jù)庫、信息檢索和數(shù)據(jù)挖掘三個領域,而ICDM則更為專注數(shù)據(jù)挖掘。

在兩次會議中,數(shù)據(jù)挖掘領域的巨擘韓家煒教授將就其研究分別做主題為《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)和《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)的報告。

現(xiàn)實世界中的大數(shù)據(jù)在很大程度上是非結構化的、互聯(lián)的和動態(tài)的,且以自然語言文本的形式出現(xiàn),將此類龐大的非結構化數(shù)據(jù)轉換為有用的知識是一條必由之路。目前大家普遍采用勞動密集型的方法對數(shù)據(jù)進行打標簽從而提取知識,這種方法短時來看可取,但卻無法進行擴展,特別是許多企業(yè)的文本數(shù)據(jù)是高度動態(tài)且領域相關。

韓家煒教授認為,大量的文本數(shù)據(jù)本身就隱含了大量的隱模式、結構和知識,因此我們可以借助domain-independent 和 domain-dependent的知識庫,來探索如何將海量數(shù)據(jù)從非結構化的數(shù)據(jù)轉化為結構化的知識。

如下圖所示,是韓家煒教授及其學生在過去以及未來研究的主線:

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

韓家煒認為要想將現(xiàn)有的無結構的大數(shù)據(jù)變成有用的知識,首先要做的就是將數(shù)據(jù)結構化。他提出兩種結構化數(shù)據(jù)的形式,一種是異質(zhì)網(wǎng)絡(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由這種結構化數(shù)據(jù)生成知識已經(jīng)證明是很強大的,但是如何將原始無結構的數(shù)據(jù)變成有結構的數(shù)據(jù)(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經(jīng)做了很多研究工作,也已經(jīng)由此獲得了很多獎項;在無結構文本數(shù)據(jù)到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果,現(xiàn)在仍在進行中。韓家煒認為這是一條很長的路,他們現(xiàn)在只是在這條路上突破了幾個可以往前走的口子,還只是一條小路,要變成一條康莊大道則需要各國學者共同努力。

韓家煒教授的研究工作并非跟隨熱點,而是在十年如一日地去打通一條從無結構數(shù)據(jù)到有用的知識的康莊大道,因此脈絡極為清晰且極具連貫性。

雷鋒網(wǎng) AI 科技評論在2018年初曾整理過一篇韓家煒教授的演講報告文章《韓家煒在數(shù)據(jù)挖掘上開辟的「小路」是什么》,值得大家參考。相比一年前,韓家煒教授的團隊也在不斷將當前最新的研究進展融入到他們這條「小路」當中,例如BERT、Spherical Text Embedding等,這些請查閱韓家煒教授團隊近期發(fā)表論文:

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?


在2018年初他提到的以下幾本已經(jīng)發(fā)表的書:

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

站在2019年末,韓家煒的團隊又發(fā)布了幾本新書:

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

任翔出了《Mining Structures of Factual Knowledge from Text》,張超也出版了《Multidimensional Mining of Massive Text Data》 。

雷鋒網(wǎng) AI 科技評論報道。

相關文章:

專訪數(shù)據(jù)挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」

韓家煒在數(shù)據(jù)挖掘上開辟的「小路」是什么

CCF ADL 87講習班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

數(shù)據(jù)挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說