0
由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業(yè)大學承辦的第七屆全國社會媒體處理大會(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網(wǎng)作為獨家戰(zhàn)略媒體帶來合作報道。SMP 專注于以社會媒體處理為主題的科學研究與工程開發(fā),為傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平臺,旨在構建社會媒體處理領域的產(chǎn)學研生態(tài)圈,成為中國乃至世界社會媒體處理的風向標。
本屆 SMP 大會主席由哈爾濱工業(yè)大學教授劉挺與伊利諾伊大學芝加哥分校教授 Philip S. Yu 擔任,程序委員會主席由哈爾濱工業(yè)大學秦兵教授與清華大學劉知遠副教授擔任。SMP 2018 的六位特邀報告嘉賓包括:李宇明(北京語言大學)、林學民(澳大利亞新南威爾士大學)、林鴻飛(大連理工大學)、張洪忠(北京師范大學)、胡小華(美國德雷賽爾大學)、李兵(中央財經(jīng)大學)。
開幕式于 8 月 2 日上午隆重召開,開幕式之后是四場特邀報告,涉及到世界知識的中文表達、圖數(shù)據(jù)分析、幽默計算、社交網(wǎng)絡中的 AI 機器人。
第一位特邀報告嘉賓是北京語言大學語言資源高精尖創(chuàng)新中心主任李宇明教授,他的報告題為《世界知識的中文表達問題》。
報告伊始,他表示,我國面臨著兩個問題:向世界講好中國故事和向中國講好世界故事,這兩個問題互有關聯(lián),而在今天將重點討論世界知識的中文表達,即向中國講好世界故事。
他提到中文在國際學界「邊緣化」的問題,通過對 2006-2015 年全世界各語種發(fā)表論文情況分析,發(fā)現(xiàn) SCI 論文中中文占比僅 0.59%,在所有語言中排在第三位,在 SSCI 論文中,中文沒有進入前 10 位。
這時候,主要有三個應對之策。
其一是全民學英語,但是用外語實現(xiàn)知識獲取是有問題的。不可能人人都把一門外語學好,想要將英語達到母語水平幾乎不可能。此外,知識分類越來越細,不同領域的知識鴻溝越來越深,通過英語直接閱讀了解多方面科技知識難度極大,同時這種方法減少了使用漢語表達現(xiàn)代科技知識的機會。
其二是機器翻譯,讓機器把世界的知識都翻譯成中文,供國人使用。
他表示,隨著信息技術的發(fā)展,機器翻譯在不久的將來有望實現(xiàn)這一目標。但這時候,為中國人獲取信息而設計的翻譯系統(tǒng),翻譯的軸心語必當是中文。此外,中國必須解決知識源頭問題,必須建立中國知識庫存的共同體。
但機器翻譯也存在「后遺癥」,如知識獲取永遠「慢半拍」,要與「知識源」保持良好關系,同時也容易導致原創(chuàng)知識產(chǎn)權缺失。
這時候,應對之策三是提升中文刊物聲望,這時候需要力挺中文文本的學術評價體系,他強調(diào),用外文提升中國學術界的國際地位是策略,提升中文的國際學術地位才是根本,需要提倡科研成果中文首發(fā)。
最后他對自己的報告內(nèi)容做出總結,他表示,解決世界知識的中文表達問題十分不易,需要有耐心、有恒心、有信心,國家和知識界須有危機意識,更要通過政策支持建立「中文自信」的學術評價體系。
澳大利亞新南威爾士大學的林學民教授做了題為《Towards Big Graph Processing: Applications, Challenges and Advances》的特邀報告。
他首先介紹了圖數(shù)據(jù)在金融詐騙檢測、產(chǎn)品推薦、投資分析、零售服務、反洗錢、網(wǎng)絡安全等多個領域的廣泛應用,并以 k-Core、k-Truss、k-Edge Connected、k-Vertex Connected 等多種算法為例,結合 ICDE 2016 最佳論文《I/O Efficient Core Graph Decomposition at Web Scale》,SIGMOD 2015 年《Index-based Optimal Algorithms for Computing Steiner Components with Maximum Connectivity》等論文,闡述了 Cohesive Subgraph 的相應定義及核心思想。
結合上述算法,他介紹了兩個領域的研究探索,一個是給定社交網(wǎng)絡,判斷對應的核心用戶在留存及離開時,對于團體產(chǎn)生的影響分析;另一個是結合子圖搜索研究以社交網(wǎng)絡為代表的多維屬性,并讓圖表在每個維度上都呈現(xiàn)稠密性。
結合與多家知名企業(yè)及團隊的合作,他也展現(xiàn)了 Cohesive Subgraph 在不同領域上的應用,比如在華為公有云上實現(xiàn)人物識別、社區(qū)發(fā)現(xiàn)及好友推薦等功能,并將其延伸到時間維度上;此外,他們也與阿里巴巴合作構建 FLASH Query Language、Biclique 欺詐檢測及 RT Cycle 檢測,在相應的電商業(yè)務、金融業(yè)務上實現(xiàn)毫秒級應用。
隨后,大連理工大學的林鴻飛教授帶來令全場笑聲不斷的特邀報告《幽默計算探討》。
林老師介紹幽默從通俗層面講,形容的是有趣或可笑且意味深長的內(nèi)容,而理論定義則是產(chǎn)生于對于同一陳述兩種不同解釋框架的混合,是期望與實際結果之間的差異、沖突或不協(xié)調(diào)。
圍繞幽默點定義及相應設計,他闡述了確定幽默強度的基本原則,包括數(shù)量、表達方式的間接性、遞進性、雙關語成分及因果關系等五大方面。隨后,他借助大量的例子,介紹了言語幽默、指稱幽默等類別,并結合幽默的相關理論背景引出幽默計算框架:以認知語言學、情感圖譜、自然語言處理為技術基礎,以雙關、諧音、隱喻、反諷為表達方式;以笑話、相聲、喜劇、歇后語為呈現(xiàn)載體;最終劃分為幽默識別、笑點識別、幽默等級、幽默理解及幽默生成等應用領域。
與之相應地,他分別介紹了以 SemEval 2017 Task6 為代表的幽默等級識別,以 SemEval 2017 Task7 為代表的雙關語識別、定位與推斷,以 CCL2018 任務 2 為代表的中文隱喻識別與情感分析,以 CCL2018 任務 4 為代表的中文幽默計算等多項評測任務。
他在最后分享了諧音雙關語、語義雙關語、諧音幽默生成及相聲包袱識別等幽默計算研究在學界及業(yè)界的相應嘗試與實踐。他也指出,目前幽默計算的難點在于常識知識的應用,而中文幽默的挑戰(zhàn)在于「音形義結合的表示+基于常識的推理」。他總結道,幽默計算是一件并不幽默的事情,不懂幽默的智能只是機械的匹配,缺乏情感的計算也只是無趣的代碼,也進一步強調(diào)了幽默計算于自然語言理解的重要性。
北京師范大學新聞傳播學院張洪忠教授的特邀報告主題是《社交網(wǎng)絡中的 AI 機器人:新問題與新范式》。
報告伊始,他提到社交媒體中的 AI 機器人無處不在,如微軟小冰、騰訊 babyQ 等。他表示,AI 機器人的分類,可以從功能類別上劃分,也可以從價值上(即「好」和「壞」)進行劃分,還可以從人機關系的角度劃分。社交網(wǎng)絡中的 AI 機器人則分為聊天機器人、垃圾機器人、移動電話助手三類。
從傳播學角度看,社交網(wǎng)絡中的 AI 機器人定義為:在線社交網(wǎng)絡中對人的身份的扮演、擁有不同程度的人格屬性、與人進行互動的虛擬 AI 形象。
他表示,社交網(wǎng)絡中 AI 機器人現(xiàn)在有兩條研究路徑:
一是從計算機科學的角度,這里有基于社交網(wǎng)絡信息的機器人識別系統(tǒng),如機器人排名,群組識別算法,聯(lián)結免責,「蜜罐陷阱」算法,還有基于眾包方式和人工手段的機器人識別系統(tǒng),此外還有基于特征工程的機器學習識別技術。
二是從社會科學的角度,這里可以從四個方向探討,一是注重效果測量的計算方法取向,二是注重道德問題的文化批判取向,三是偏重政策分研究取向,四是著眼未來趨勢的探索反思取向。
他表示,AI 機器人已經(jīng)成為計算機科學和社會科學都共同關注的一個新事物,一個交叉學科的研究對象。
接下來,他介紹了自己學生的一個實驗案例,從選題背景和文獻回顧、實驗設計和分析、仿真模型設計和分析等多個方面進行了討論。他們將社交媒體群組中不存在機器人的原始實驗和社交媒體群組中存在機器人的第二次實驗對比,得出如下結論:社交機器人參與社交群組討論會改變社交群組的意見表達形勢;由于機器人缺乏對外部意見形勢的感知,盡管社交機器人的效用優(yōu)于普通賬戶,但不如關鍵少數(shù)派用戶。
之后,他表示對社交網(wǎng)絡中機器人影響的研究應該成為一個重要方向,這里他還簡單介紹了印第安納大學 Shao 等學者,Murthy 等學者,Vosoughi 等學者的研究。
而在報告的最后,他表示,隨著技術的快速迭代,AI 機器人越來越具有人格化特征,但這些人格化特性不同于我們正常的「人」,會為社會科學帶來新的問題。他強調(diào),社交網(wǎng)絡中的 AI 機器人將引來社會科學研究的新范式。
大會第二天的兩場特邀報告,內(nèi)容包括文本摘要和大數(shù)據(jù)應用。
德雷塞爾大學計算與信息學學院教授胡小華作為第一位上臺嘉賓,他的報告主題為《Question-based Text Summarization》。
在報告中,他首先談到 Facebook、IBM 和 Google 的文本摘要模型,F(xiàn)acebook 模型有 bag-of-words encoder、convolutional encoder、attention-based encoder,當時在 DUC-2004 數(shù)據(jù)集上達到頂尖水平,IBM 在 Facebook 基礎上提出一些改進,encoder 是 bi-directional GRU,decoder 是 uni-directional GRU,隨后,Google 又在這兩個模型基礎上提出改進,取得了非常不錯的效果。
隨后,他提到文本摘要的一些案例,他表示,大多數(shù)摘要受限于陳述句,這時候,提出了這樣一個觀點,問句能否幫助文本摘要?
做基于問題的摘要主要有如下原因:問題讀起來更有吸引力,問題能幫讀者變得更具互動性。他表示,基于問題的摘要并不是要替換掉陳述性摘要,而是能用來反映源文件的主旨。
之后,他提到研究問題的主要目標是確保生成的問題與文本相關,同時文本能回答生成的問題。這時候衍生出三個主要研究問題:一是問題存在于哪里,二是如何測量問題和文本間的相容性,三是如何評估基于問題的摘要的有效性。
他提到這一系統(tǒng)的整體架構,第一步是問題選擇,這里涉及到目標、方法等等,第二步是問題多樣化。接下來是一些實驗,涉及到實驗數(shù)據(jù)集、實驗設置、網(wǎng)絡模型、評價指標、實驗結果等各個方面。
他做出如下總結:這是一個信息檢索和自然語言處理的交叉任務,包含問題選擇和多樣化的兩層框架。在問題選擇上,他探討了基于檢索的方法和數(shù)據(jù)驅(qū)動的方法。未來,他們將會延伸到多文本摘要,也將繼續(xù)擴展至不同的文本,例如新聞、科學類文章、社交媒體等等。
在報告的最后,他提到即將于 12 月在美國召開的 IEEE Big Data 2018,希望大家踴躍參與。
最后一位特邀報告嘉賓是中央財經(jīng)大學國際經(jīng)濟與貿(mào)易學院的李兵副教授,他的報告主題是《經(jīng)濟學中的大數(shù)據(jù)應用》。他指出,經(jīng)濟學(社會科學)的數(shù)據(jù)困境目前面臨追求因果關系、實驗數(shù)據(jù)有限、測量成本高昂等因素,而大數(shù)據(jù)為經(jīng)濟學研究提供了低成本、客觀、迅速的有利條件。
借助衛(wèi)星遙感數(shù)據(jù)、網(wǎng)絡平臺數(shù)據(jù)、行政管理數(shù)據(jù)和文本數(shù)據(jù)等多種數(shù)據(jù),研究者可以對經(jīng)濟學進行更加深入的研究。比如,通過植被覆蓋率的變化,研究者可以推斷其對溫室效應造成的環(huán)境影響,甚至關聯(lián)到國家治理問題;通過銀行數(shù)據(jù)的調(diào)查,可以印證凱恩斯等經(jīng)典經(jīng)濟學理論,并延伸到階層固化問題于經(jīng)濟增長的意義。
他隨后介紹了幾個研究案例,以夜間燈光數(shù)據(jù)庫為樣本,他的團隊測算出各國 GDP 增長率的燈光擬合值及最優(yōu)擬合值,并通過這種方式補全了部分數(shù)據(jù)缺失的國家GDP(如羅馬尼亞、阿富汗)。同時還以此為線索,發(fā)現(xiàn)了一些GDP數(shù)據(jù)被高估/低估的國家。
此外,通過爬蟲抓取大眾點評上的商店名稱、地理位置、商品等公開信息,團隊將數(shù)據(jù)與第六次人口普查數(shù)據(jù)進行地理匹配,探討人口數(shù)量、人口流動及菜品之間的關系。他指出研究顯示「人口的集聚會從消費端帶來不可貿(mào)易品的集聚,最終給人口更加集聚的城市帶來更大的多樣性福利」。同時,人口流動的放開與限制需要權衡多種因素,政策制定也需要精巧的設計。
不論是考察電子商務平臺對企業(yè)出口市場進入和出口規(guī)模的影響,或是基于報紙關鍵詞集的測量判斷對經(jīng)濟政策的影響,本質(zhì)上都是借助大數(shù)據(jù)對經(jīng)濟學進行更加廣泛的研究和調(diào)查。他最后總結道,上述成功案例表明,在用大數(shù)據(jù)研究經(jīng)濟學問題時,需要關注重大現(xiàn)實問題,驗證重要理論問題,并發(fā)明簡單實用的方法。未來,學科交叉將成為大趨勢,學術研究的模塊化也會成為研究的新方向。
以上就是 SMP 2018 特邀報告全部內(nèi)容,相信聽完這六場報告,大家勢必對社會媒體處理的內(nèi)涵和外延產(chǎn)生了更豐富的認識和見解。接下來,雷鋒網(wǎng)將會持續(xù)帶來更多現(xiàn)場報導,敬請期待。
本文圖片來源:哈工大 SCIR 李家琦,特此感謝。
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。