丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

本文作者: 汪思穎 編輯:郭奕欣 2018-08-08 18:04 專題:SMP 2018
導語:智慧司法論壇和計算歷史學論壇全攻略~
活動
企業(yè):科大訊飛
操作:獨家演講
事項:SMP 2018 智能+司法《司法認知智能研究實踐》

由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業(yè)大學承辦的第七屆全國社會媒體處理大會(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網(wǎng)作為獨家戰(zhàn)略媒體帶來合作報道。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

SMP 專注于以社會媒體處理為主題的科學研究與工程開發(fā),為傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平臺,旨在構建社會媒體處理領域的產(chǎn)學研生態(tài)圈,成為中國乃至世界社會媒體處理的風向標。

本屆 SMP 大會主席由哈爾濱工業(yè)大學教授劉挺與伊利諾伊大學芝加哥分校教授 Philip S. Yu 擔任,程序委員會主席由哈爾濱工業(yè)大學秦兵教授與清華大學劉知遠副教授擔任。

會議期間并行舉行八大專題論壇,包括智能金融論壇、計算社會學論壇、情感分析論壇、數(shù)據(jù)挖掘論壇、計算傳播學論壇、智慧司法論壇、計算歷史學論壇、智能教育論壇。值得一提的是,智慧司法論壇和計算歷史學論壇都為今年新增,也邀請到了許多知名學者參與交流。

8 月 4 日上午,智慧司法論壇在友誼宮國際廳拉開帷幕。法律作為一種社會行為規(guī)范體系,是現(xiàn)代文明的制度基石。隨著自然語言處理技術的發(fā)展,并響應國家「智慧司法」戰(zhàn)略,SMP 2018 會議第一次設立智慧司法論壇。

智能司法論壇由大連理工大學的林鴻飛教授擔任論壇主席,并邀請了五位主講嘉賓做了主題分享。

SMP 大會主席、哈爾濱工業(yè)大學人工智能研究院副院長劉挺教授受邀做智能司法論壇的開場致辭,他表示本屆 SMP 舉辦的八大論壇,有六個和人文社科緊密相關,展現(xiàn)了社會媒體處理大會在信息技術與社會科學的交叉融合,而本次的智慧司法論壇可以算得上是國內(nèi)最早涉足這一領域討論的議程。隨著智能司法在人工智能學術界及法學界引起的重點關注,通過這一論壇各位老師的分享,希望大家在其中也能夠得到更多的啟示。

首位上臺演講的嘉賓是最高人民檢查院網(wǎng)絡安全和信息化領導小組辦公室副主任、檢察技術信息研究中心主任趙志剛,他的演講主題是《檢察信息化的昨天、今天和明天》

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

「這是最好的時代,也是最壞的時代」,他表示,檢查機關正身處一場以互聯(lián)網(wǎng)為代表的新技術革命浪潮之中,用科學、用智慧做好檢察信息化,已經(jīng)成為了與時俱進的必答題。

從 1991 年的數(shù)字檢務 1.0 的自動化辦公室,到 2000 年的網(wǎng)絡檢務 2.0,2009 年的信息檢務 3.0,再到 2015 年 7 月的轉(zhuǎn)型升級期后,于 2017 年最高人民檢察院正式明確「智慧檢務」戰(zhàn)略,步入智慧檢務 4.0 的新時期,目前已建立包括司法辦案平臺、檢察辦公平臺、檢察決策支持平臺、隊伍管理平臺、檢務保障平臺及檢務公開與服務平臺為核心的電子檢務平臺。

他也從多個層面描述了檢查信息化:

  • 從理論體系來看,2017 年 9 月的智檢會議召開,標志智慧建伍理論的基本成型。從規(guī)劃體系層面,以《關于深化智慧檢務的意見》、《檢察大數(shù)據(jù)行動指南》(一中心四體系)、《檢察人工智能創(chuàng)新指南》為代表的文件,目前已逐步完善戰(zhàn)略規(guī)劃的總體思路及相應的體系建設。

  • 從應用體系層面,以「一主數(shù)輔多元」為指導,初步形成檢查信息化應用體系。啟動檢察機關統(tǒng)一業(yè)務應用系統(tǒng)的建設,并探索以 SPAAs 為代表的智能輔助辦案系統(tǒng),此外還建設了如最高人民檢察院大數(shù)據(jù)決策分析平臺的可視化平臺,滿足多樣化檢察需要。

  • 從創(chuàng)新體系層面,通過高校、企業(yè)、檢察院的合作,建立實驗管理中心、科研管理中心和培訓管理中心,結合相應的實驗室建設,檢察信息化經(jīng)歷了一個從無到有的過程。

他最后總結,圍繞智慧檢務的應用層、支撐層和數(shù)據(jù)層,檢察信息化也將在今后持續(xù)探索智慧檢務的研究。

清華大學計算機系劉知遠副教授和涂存超博士后帶來了題為《面向法律智能的自然語言處理》的演講。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

劉知遠表示,自然語言是法律的載體,借助高質(zhì)量且形式豐富的文本數(shù)據(jù),基于法律文本的多樣需求,自然語言處理在法律領域有著眾多應用前景,如智能案例檢索、文書自動生成等。不過隨后他也指出,目前的比較多的研究都來源于法學院的相關研究。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

隨后,涂存超介紹了幾種利用自然語言處理技術實現(xiàn)法律智能的研究內(nèi)容。

  • 面向案例文書的判決預測:根據(jù)案件的案情描述,預測最終的判決結果。

  • 拓撲結構預測的判決預測:通過法官的判案邏輯找到子任務之間的依賴關系。

  • 引入?yún)^(qū)分性屬性的罪名預測,包括低頻罪名、混淆罪名的相應預測:通過引入顯式的屬性,能對低頻罪名進行基于屬性的判斷,對混淆罪名進行區(qū)分;此外還能采用多任務學習及注意力機制訓練基于屬性的罪名預測模型。

  • 基于層次結構的案由預測:通過刑事案由(罪名)和民事案由的層次結構,結合案由本身的文本信息,采用序列預測及基于案由名稱的注意力機制,訓練相應模型。

  • 基于法律閱讀理解的判決預測:由于在民事案件中判決結果需要結合原告的具體訴求,可以建立基于閱讀理解機制,模仿「人帶著問題找答案」的閱讀理解行為進行案件判決的預測。

他表示,法律智能技術有著豐富的研究和應用前景,包括信息檢索、輔助判決等多個方向。作為一種具有高度專業(yè),富含知識的研究方向,法律智能未來仍然充滿挑戰(zhàn)。未來可以從「數(shù)據(jù)驅(qū)動+法律知識」的結合入手,驅(qū)動更多的場景應用落地。

接下來北京大學計算機科學技術研究所副教授馮巖松帶來了題為《面向法律文本的自然語言分析與理解》的演講。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

他表示,法律與人工智能的淵源最早可以追溯到 20 世紀 70 年代,而隨著 80-90 年代專家系統(tǒng)的興起,如基于規(guī)則專家系統(tǒng)的輔助決策、改善法條制定為代表的研究工作也開始引起關注。

但當人工智能與法律的結合蓬勃發(fā)展之時,「專家系統(tǒng)」遇冷的大環(huán)境也讓這一結合領域不像之前那樣受到重視。但早期專家系統(tǒng)仍然留下了很多的寶貴經(jīng)驗,包括機器并不能代替法律實務工作者,應該成為信息化中的重要組成,而技術也應該以法律文書作為主要研究對象。

他提到,圍繞法律文書的研究,研究者主要還是以實用性出發(fā),以智能化為導向,引起學術界與工業(yè)界的廣泛關注。典型任務包括信息獲取與檢索、智能輔助決策及其它基礎支持(如卷宗管理、圖像語音文字識別等)。

從核心應用、核心技術及法律文本資源入手,基于文本分析的法律智能在公安、檢察、法院、律師等方面有著廣泛研究。以代表會議 ICAIL 為例,這一會議起源于 1987 年,每兩年舉辦一次,從 2013 年開始近幾年的投稿方向來看,推理及說理、論辯的文章相對減少,而基礎 NLP 分析,QA、IE、IR 以及判決預測等內(nèi)容則受到了越來越多的關注,但整體還是以法律文書的分析為主體研究方向。

他也強調(diào)了在應用領域中,需要加強文本及法律推理及篇章、論辯分析兩個領域的關注。

總體而言,考慮到法律領域自身的復雜性,還有 AI 及 NLP 技術的局限性,目前要利用相應技術進行實踐大范圍應用還存在巨大挑戰(zhàn)。如任務性能仍然有待提高的問題,模型的可解釋性問題,還有如何做到有理有據(jù)的問題。

他進一步介紹了三個探索的相應研究方向:

  • 利用法律領域知識轉(zhuǎn)化為語義分析的結構目標,邊閱讀邊理解,利用知識進行深度解析;

  • 結合強化學習等方法,研究者可以從文書中找出輔助決策的支持理由,進行預測結果的解釋;

  • 進一步地,可以解決標注數(shù)據(jù)有限的方法,精簡專家的投入。

從技術角度,他圍繞篇章理解、多源知識集成、可解釋性算法、多模態(tài)數(shù)據(jù)整合、標注數(shù)據(jù)擴展等方面,分享了自己對于如上問題可能的探索方向,做到對法律文本的深度理解。

最后一位演講嘉賓是科大訊飛 AI 研究院研究主管、司法認知智能方向負責人、資深研究員李劍鋒,他的演講主題為《司法認知智能研究實踐》。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

他表示,從「能聽會說」到「能理解會思考」,經(jīng)過近 20 年的發(fā)展,科大訊飛已經(jīng)在語音合成、識別和評測上取得了領先表現(xiàn),在機器翻譯、閱讀理解和圖文識別也取得了階段性的成果。秉承「平臺+賽道」的發(fā)展戰(zhàn)略,科大訊飛通過人工智能開放平臺,在教育、醫(yī)療、司法、政務等多個領域與中小企業(yè)進行深入合作。

他分享了科大訊飛于司法行業(yè)的業(yè)務布局和相應的技術研究及挑戰(zhàn)。

  • 偵察辦案,筆錄轉(zhuǎn)寫

利用電話防詐騙預警系統(tǒng),訊飛基于海量話單、通話語音、應用語音識別、意圖理解行技術,實現(xiàn)詐騙電話自動分類及危害程度的準確評估。在筆錄環(huán)節(jié)中,可以解決復雜多人問話、遠距識音等「效率」難題和審訊審查的「賦能」問題。

  • 圖文識別,自動編目

在圖文識別領域,哈工大訊飛聯(lián)合實驗室通過設備輸入、文檔圖像、圖像預處理、版面分析、文字識別及結果輸出等環(huán)節(jié),進行司法文書圖文識別;針對公安、檢察院、法院等電子卷宗材料,生成規(guī)范化、可閱讀的電子卷宗文檔材料。

  • 證據(jù)分析,輔助量刑

證據(jù)分析包括查證事項抽取、問答對聚類查詢等內(nèi)容;而在輔助量刑中,則通過模型優(yōu)化改進、提取案情要素、融入法律知識、構建知識圖譜進行量刑優(yōu)化。

  • 自動量刑探索

哈工大訊飛聯(lián)合實驗室提出了 DRNN 模型,用 Recurrent單體代替卷積核。在保持與 CNN 類似的位置不變性前提下,增大窗口捕捉長距離信息,且不會增加參數(shù)數(shù)量,緩解了過擬合問題。這一工作發(fā)表在 ACL 2018 上。

為增加可解釋性,也為了進一步提升模型效果,訊飛在抽取案情要素上也做了一些嘗試,能一定程度地降低案情的檢測錯誤率。

哈工大訊飛聯(lián)合實驗室還結合法官量刑步驟,構建了相應的量刑知識圖譜。目前,訊飛研發(fā)了一個基于自動情節(jié)要素抽取的規(guī)則量刑器。

  • 法律咨詢小程序

面向普通大眾,哈工大訊飛聯(lián)合實驗室開發(fā)了一個法律咨詢小程序,對常見問題、法律知識提供內(nèi)容參考,并進行律師推薦、案例分析與判決預測、類案推送等多項服務。

而面向司法認知的智能挑戰(zhàn),他也指出了目前存在的幾個問題。

首先是,基于可解釋性、以往判決的不一致性及數(shù)據(jù)分布造成的模型偏差,目前的司法認知需要突破統(tǒng)計模型的固有缺陷。

其次的一個問題是,如何有效使用行業(yè)知識?

他表示,要讓機器使用行業(yè)知識,有兩種方式可以探索,一是基于符號體系的規(guī)則系統(tǒng);二是采用機器學習得到知識表示的統(tǒng)計模型。在實際應用中,應該靈活運用兩種方法。

對于不同任務,對知識的需求度也有著差異。結合任務、算法和知識,未來可以從三個方面努力:

1)聯(lián)合業(yè)內(nèi)專家標注數(shù)據(jù),積累數(shù)據(jù)知識;2)進一步提升算法能力;3)簡化任務定義,一個是發(fā)掘技術要求低,用戶價值大的應用,其次是將任務分解、細化、分而治之。

第三個挑戰(zhàn)在于,技術水平與法官期望的距離。在這個過程中,可以打造人機協(xié)同的應用場景,讓人與機器共同解決問題。

最后,林鴻飛教授為本次 SMP 2018 智慧司法論壇做總結。他表示,五位嘉賓以自然語言處理等技術應用于智慧司法領域的切入點,探討了其研究方法及所面臨的挑戰(zhàn),在未來,如何增加法官和檢察官的智慧,如何利用技術更好地服務于人類,做好信息技術與社會科學的融合,也將成為智慧司法不斷探索的重要目標。

在上午的議程結束之后,下午迎來計算歷史學論壇。將計算技術用于人文和社會科學大數(shù)據(jù)的研究,已經(jīng)得到學界的共識,這也是 SMP 首次舉辦計算歷史學論壇的原因。本次論壇邀請了來自計算機和歷史學領域的五位專家講者,論壇報告的內(nèi)容涉及自然語言處理技術在計算社會科學方面的最新動態(tài)、基于文本挖掘技術的中國近代思想史研究、基于中國商業(yè)廣告數(shù)據(jù)庫對中國現(xiàn)代社會的建模以及中國歷代人物傳記資料庫(CBDB)的建設與使用。他們結合各自的領域和研究專長,探討了計算技術和歷史學可能產(chǎn)生的碰撞。

清華大學計算機系副教授劉知遠做了主題為《語言表示學習與計算社會科學》的演講。

他表示自己將更多從計算機角度介紹自然語言處理對歷史學、計算社會科學的幫助。他談到語言是研究人類社會的重要角度,社會語言學、社會心理學領域提出一系列通過語言分析社會的理論,其中比較知名的有 LIWC(Linguistic Inquiry and Word Count)詞典。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

他談到基于關鍵詞的計算社會科學研究,其中有幾個典型案例,如通過 Google Books 中歷年來使用「The United States is」和「The United States are」的統(tǒng)計趨勢圖,定量分析美國作為一個統(tǒng)一國家的概念是如何慢慢形成的,此外還有康奈爾大學等學者對用戶在在線社區(qū)中語言使用變遷模式的研究,他提到 WWW 2013 最佳論文《no country for old members:user lifecycle and linguistic change in online communities》。

隨后,他介紹了基于符號統(tǒng)計的計算社會科學研究。清華大學與新華社建立合作,利用關鍵詞抽取和可視化技術分析 2013 年「兩會」報告。此外,他還提到社會化標簽,如用戶可以給在線資源標注任意標簽,標簽雖然是用戶任意選取的,但它們作為整體體現(xiàn)了豐富的語義信息。這里的應用有微博用戶職業(yè)預測、微博用戶重大事件監(jiān)測等。

前面這些案例,他總結為前表示學習時代,即基于符號的表示,他表示,這種方法非常簡單高效,但有一個重要缺陷,即無法區(qū)分任意兩個對象間的相關情況,在一定程度上限制了研究彈性。

他表示,現(xiàn)在迎來了基于深度學習,新的分布式表示學習時代,這里的對象均被表示成稠密、實值、低維向量,他提到詞匯語義變遷研究以及利用分布式表示繪制詞匯大腦地圖,隨后他談到基于詞匯表示的人類偏見研究,2017 年 Science 上一篇論文指出,文本語料庫包含可重現(xiàn)且準確的偏見印記,并能夠被機器習得。

此外,他也談到基于神經(jīng)網(wǎng)絡模型的抑郁檢測,如 EMNLP2017 最佳論文,利用神經(jīng)網(wǎng)絡模型自動檢測在線社交媒體上的抑郁傾向用戶。

演講最后,他總結了分布式表示的優(yōu)勢——提供了比符號表示更加強大的計算能力,具有更強更深的洞察能力,其中的關鍵是看如何創(chuàng)造性地用起來。

第二位演講嘉賓是山東大學歷史文化學院副研究員邱偉云,他的演講主題是《詞匯、概念、話語:基于文本挖掘技術的中國近代思想史研究》。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

演講伊始,他談到思想史的定義,英國著名歷史學家和政治學家史華慈表示,思想史是涉及人類整體的意識生活,即思維、感情、想象,以及各種感受的生活;思想史注重思想的出現(xiàn)與影響,強調(diào)思想與環(huán)境之間的關系。

隨后,他談到文本挖掘技術如何連接思想史研究。至于為什么研究的是中國近代,他表示,近代以前是文言文,語料相對較少,近代以后是白話文,語料相對較多。在上述考慮下,學者結合人文研究理論與計算機計算方法,建造出一個適合于進行思想史研究的數(shù)據(jù)庫——中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫。這一數(shù)據(jù)庫前后經(jīng)歷三次演進,其內(nèi)容涵蓋史學、文學、美學。

為了創(chuàng)建該數(shù)據(jù)庫,搜羅的資料包括清末明初近代期刊、晚清檔案資料、清末明初士大夫著述等。金觀濤與劉青峰借鑒與挪用了人文領域中的關鍵詞與觀念史研究法,計算領域中的數(shù)據(jù)挖掘方法,從關鍵詞、語言學、語意分析等視角對數(shù)據(jù)庫的內(nèi)容與計算功能進行調(diào)整。

而他也提到利用計算機方法,思想史數(shù)據(jù)庫進行的若干研究,如分析《新青年》雜志如何推動中國近代思想從傳統(tǒng)走向現(xiàn)代轉(zhuǎn)型, 具體包含對民主取代共和、真理取代公理的研究。

2008 年他們轉(zhuǎn)向數(shù)據(jù)驅(qū)動研究,關鍵因素有兩點:一是意識到 2008 年前仍是使用比較簡單的數(shù)字人文方法進行研究,仍不可避免要先由人文學者做出主觀認定,且只能觀察研究者自身覺得重要的關鍵詞分析結果。二是 2008 年后計算機學家與數(shù)學家陸續(xù)加入思想史研究團隊。

之后,他重點探討了從人工到數(shù)據(jù)驅(qū)動的成果:其一是在轉(zhuǎn)型期階段中,團隊改采數(shù)據(jù)驅(qū)動視野進行研究,確實避開了過去從人工驅(qū)動出發(fā)進行理論假設所可能產(chǎn)生的偏頗;其二是透過數(shù)據(jù)驅(qū)動從資料結構中自動找到資料結構自身的觀念系統(tǒng),客觀呈現(xiàn)出觀念系統(tǒng)伴隨意識形態(tài)立場的變化情況,這正是轉(zhuǎn)型期階段觀念史研究數(shù)據(jù)庫方法的特點與長處所在。

未來,他們將在此基礎上進行情感分析與思想史研究,如計算歷史學能否找到支配辛亥革命/五四運動發(fā)生的主要支配情感,能否找到引發(fā)時間的情感積量權重,預測事件的爆發(fā)時間點。

南京大學藝術學院副教授陳靜的兩位學生李夢琦、趙寅州介紹了 CCAA 中國商業(yè)廣告數(shù)據(jù)庫并帶來基于該數(shù)據(jù)庫的一系列分析。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

據(jù)介紹,中國商業(yè)廣告數(shù)據(jù)庫(CCAA)是一個對于 1880 年代至 1940 年代期間出版的中國五個商業(yè)條約口岸城市報紙中離散廣告進行元數(shù)據(jù)化處理和專業(yè)級圖像提取的擴展集合,每一條廣告都是歷史的文本/圖像。

他們團隊希望該數(shù)據(jù)庫能為文化學者、歷史學家等提供有用的廣告數(shù)據(jù),促進理解商業(yè)文化生活是如何在 19 世紀末 20 世紀初進入中國并滲透入歷史的。廣告使用了混雜了口語化的社會和科學文本的新的書寫語言,描繪了歷史的商品-人的關系,圖像化了商品導向的世界中的現(xiàn)代人形象。

他們在調(diào)查中發(fā)現(xiàn)三個主要問題:一是很多報紙沒有數(shù)字化,二是數(shù)字化的報紙和數(shù)據(jù)庫不是免費開放的,三是已經(jīng)數(shù)字化好的報紙,廣告不如新聞重要,所以一般沒有做全文轉(zhuǎn)錄(除了標題和日期)。

其中,考慮到的問題有三點:

  • 第一,現(xiàn)代中國語言中新詞的擴散與廣泛使用是否與廣告圖像有關;

  • 第二,中國一種新型的售賣語言在什么時候開始出現(xiàn),以及怎樣出現(xiàn)的;

  • 第三,統(tǒng)計方法能給商業(yè)文本/圖像中的圖像發(fā)生學帶來什么新發(fā)現(xiàn)。

研究圍繞三個問題展開:一是如何使圖像變得可讀,二是如何將圖像聯(lián)系到當時的社會和文化語境;三是如何使圖像生產(chǎn)知識,且使觀者意識到他們能夠理解并且習得這種知識。

之后,他們提到從數(shù)字化到知識的四個階段,一是數(shù)字化,二是標注,三是文本挖掘,四是視覺呈現(xiàn)。之后,他們提到利用這一數(shù)據(jù)庫展開的相關研究,例如天津《大公報》醫(yī)藥廣告圖像描述分析,通過《申報》廣告圖像探討近代上海道路空間的形態(tài)及其發(fā)展。

最后一位上臺演講的嘉賓是來自北京大學中古史中心的博士生胡斌,他的演講主題是《中國歷代人物傳記資料庫(CBDB)的建設與使用》。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

演講伊始,他介紹了 CBDB 基本狀況,這是一個關系型數(shù)據(jù)庫,涵蓋多個不同實體,如人名、時間、地址、著作、親屬關系、社會關系等。他表示,在關系型數(shù)據(jù)庫中,人物的數(shù)據(jù)資料存在于各種實體的互動之中。大家可以點擊 https://projects.iq.harvard.edu/cbdb 訪問該數(shù)據(jù)庫。

他談到 CBDB 的發(fā)展歷程:

  • 郝若貝教授在 1980 年代開始搜集數(shù)據(jù),他在 1996 年去世后,將其捐贈哈佛-燕京學社;

  • 2004 年,傅君勱教授重新編寫數(shù)據(jù)庫的結構;

  • 2005 年,哈佛/中央研究院/北大開始共同開發(fā);

  • 之后,該數(shù)據(jù)庫項目得到多項國內(nèi)外基金會的支持。

CBDB 現(xiàn)今包含 417382 人的數(shù)據(jù),質(zhì)量比較高的是唐宋數(shù)據(jù)。該數(shù)據(jù)庫的特色在人物關系上,除了人物基本屬性外,還記錄了人與人之間的交往關系,共包括 10 種關系類,34 種關系子類以及 241 種關系條目。

該數(shù)據(jù)庫涵蓋了三方面資料,一是原始材料,包括正史列傳、墓志銘、墓表等,二是當代學者整理研究的傳記資料索引、郡守年表、方鎮(zhèn)年表等,三是來自其他數(shù)據(jù)庫的人物數(shù)據(jù),如明清婦女著作(McGill)、人名權威(史語所)。

他表示,這一數(shù)據(jù)庫是數(shù)字與人文領域的深度合作,數(shù)據(jù)庫的建立主要分為五個階段,一是光學字符識別(OCR),二是半人工校對數(shù)據(jù),三是分割要處理的數(shù)據(jù)點,四是進行消歧,五是對數(shù)據(jù)進行編碼。

接下來,他提到利用 CBDB 的一些應用,以下是利用該數(shù)據(jù)集可以做的三種分析:

一是群體分析、統(tǒng)計分析,相關案例有統(tǒng)計 CBDB 數(shù)據(jù)集中 32270 人的死亡年齡,統(tǒng)計 CBDB 資料中 3119 名女性的死亡年齡。

二是社會網(wǎng)絡分析,三是地理空間分析,例如分析 4730 個宋代進士的籍貫。

在最后,他提到他們最近與北大信息管理系 DH 小組合作,進行唐代人物遷徙圖以及相關探索。

他表示,計算歷史學對人文研究提供了如下幫助:幫助提出、驗證,并呈現(xiàn)相對復雜、具體的歷史問題及其答案,快速地反復分析和呈現(xiàn)大批數(shù)據(jù)。這也是文獻的一種新的打開方式、查詢方式、呈現(xiàn)方式。

精彩的論壇已經(jīng)結束,留給大家的思考和啟發(fā)無處不在。SMP 2019 將在鵬城深圳召開,相信在新的一年將為大家?guī)砀嗑?。雷鋒網(wǎng)也將在現(xiàn)場為大家?guī)韺崟r報道。

本文圖片來源:哈工大 SCIR 李家琦 馮掌印,特此感謝。

雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

SMP 2018 落下帷幕,看計算+司法、計算+歷史擦出新火花

分享:
相關文章

編輯

關注AI學術,例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說