丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

以史為鑒:從數(shù)字計(jì)算機(jī)到知識(shí)圖譜的這 60 多年

本文作者: MrBear 編輯:幸麗娟 2019-12-24 23:50
導(dǎo)語(yǔ):「忘記過(guò)去的人注定要重蹈覆轍」- George Santayana

雷鋒網(wǎng)AI科技評(píng)論按:以史為鑒,可以知興替。縱觀近期包括 AAAI、NeurIPS、IJCAI 在內(nèi)的人工智能頂級(jí)會(huì)議,對(duì)圖結(jié)構(gòu)模型的研究是一個(gè)繞不開(kāi)的話(huà)題,大量的學(xué)者紛紛涌入了這個(gè)賽道,想一試身手。

然而,作為一類(lèi)古老的理論,人們對(duì)圖論的研究實(shí)際上貫穿于計(jì)算機(jī)科學(xué)發(fā)展的始終。如今我們看來(lái)耀眼輝煌的人工智能技術(shù),實(shí)際上也是離散數(shù)學(xué)、統(tǒng)計(jì)理論、邏輯推理、數(shù)據(jù)庫(kù)、分布式計(jì)算等基礎(chǔ)理論厚積薄發(fā)的產(chǎn)物。

本文是智利大學(xué)教授 Claudio Gutierrez 為今年的 ISWC 大會(huì)所撰寫(xiě)的主題文章,從人工智能的起源開(kāi)始,循序漸進(jìn)地介紹了知識(shí)圖譜誕生的歷史,也探討了該學(xué)科未來(lái)的研究方向。

引言

「忘記過(guò)去的人注定要重蹈覆轍」

—— George Santayana

從某種程度上來(lái)說(shuō),我們可以認(rèn)為知識(shí)圖譜實(shí)現(xiàn)了計(jì)算機(jī)科學(xué)早期的愿景:創(chuàng)造智能化的系統(tǒng),從而大規(guī)模集成知識(shí)和數(shù)據(jù)。本世紀(jì)初,研究者們提出了「知識(shí)圖譜」這一術(shù)語(yǔ),谷歌自 2012 年起便大力推廣「知識(shí)圖譜」技術(shù),讓它在學(xué)術(shù)界和工業(yè)界迅速流行了起來(lái)。

不過(guò)要?jiǎng)?wù)必注意的是,無(wú)論人們對(duì)「知識(shí)圖譜」如何定義、進(jìn)行怎樣的討論,客觀地說(shuō),它都是各個(gè)研究領(lǐng)域(例如,語(yǔ)義 Web,數(shù)據(jù)庫(kù),知識(shí)表征和推理,自然語(yǔ)言處理,機(jī)器學(xué)習(xí)等等)科學(xué)進(jìn)展的結(jié)晶。

將這些來(lái)自不同學(xué)科的思想和技術(shù)融合起來(lái),極大豐富了知識(shí)圖譜的概念,但同時(shí)也給相關(guān)從業(yè)人員和研究人員提出了挑戰(zhàn):他們需要知道當(dāng)前的研究進(jìn)展如何根植于早期的技術(shù),并從中發(fā)展而來(lái)。

本文將討論什么?

作者選擇從知識(shí)圖譜學(xué)科歷史發(fā)展的角度進(jìn)行介紹,并且突出相關(guān)的重點(diǎn)內(nèi)容。本文為讀者展示了該領(lǐng)域的知識(shí)結(jié)構(gòu),引導(dǎo)讀者跟進(jìn)最新的相關(guān)思想、理論,以及我們認(rèn)為具有標(biāo)志性意義、并推動(dòng)了當(dāng)前學(xué)科發(fā)展的學(xué)術(shù)事件。本文旨在幫助讀者理解哪些思想有效、哪些無(wú)效,并反映出它如何啟發(fā)人們得出下一個(gè)想法。

為什么要寫(xiě)這篇文章?

對(duì)于一名研究者來(lái)說(shuō),了解研究領(lǐng)域的歷史背景對(duì)于推斷出通往未來(lái)的可能途徑至關(guān)重要。今天,這種重要性尤其凸顯了出來(lái),因?yàn)槿藗兠刻於佳蜎](méi)在了無(wú)窮無(wú)盡的信息的海洋中。這些歷史背景堪稱(chēng)科研方法的「DNA」:為站在巨人的肩膀上而進(jìn)行背景調(diào)研。

對(duì)于語(yǔ)義 Web 研究領(lǐng)域來(lái)說(shuō),尤其是其中前景最為光明的一個(gè)發(fā)展領(lǐng)域——知識(shí)圖譜,我們注意到學(xué)生和初級(jí)研究者并沒(méi)有完全地熟知他們所掌握的思想、概念和技術(shù)的來(lái)源。我們認(rèn)為本文將是為克服這一缺點(diǎn)所邁出的一小步。

本文作者根據(jù)自己的經(jīng)驗(yàn)提出了撰寫(xiě)這篇文章的想法。Juan 在以「Integrating Semantic Web in the Real World: A journey between two cities」為主題的演講(http://www.juansequeda.com/blog/2019/01/07/my-most-memorable-event-of-2018/)中,對(duì)邏輯和數(shù)據(jù)的歷史進(jìn)行了簡(jiǎn)要的介紹。

在 2018 年的 15 場(chǎng)演講中,Juan 向聽(tīng)眾提出了以下問(wèn)題:「如果你知道在 1956 年夏天舉行的達(dá)特茅斯人工智能暑期研究項(xiàng)目,請(qǐng)舉手」以及「你是否聽(tīng)說(shuō)過(guò)上世紀(jì) 80 年代日本發(fā)布的第五代計(jì)算機(jī)計(jì)劃」?

而每次,都只有很少的聽(tīng)眾舉手,并且這些聽(tīng)眾往往是參加講座的高級(jí)研究者。

另一方面,出于類(lèi)似的動(dòng)機(jī),Claudio 在一些場(chǎng)合也簡(jiǎn)短地介紹了知識(shí)圖譜的歷史(「知識(shí)圖譜概念的簡(jiǎn)明敘述」),激發(fā)了年輕研究者的興趣。這些反復(fù)發(fā)生的事件也促使作者撰寫(xiě)了本文和相關(guān)教程。

據(jù)我們所知,我們?nèi)匀粵](méi)有深刻理解知識(shí)圖譜概念長(zhǎng)期以來(lái)背后的思想、概念和技術(shù)[1]。我們希望本文可以對(duì)此作出貢獻(xiàn)。

本文的內(nèi)容和組織結(jié)構(gòu)

知識(shí)圖譜的概念所包含的基本要素可以追溯到古代。如果你想要深入挖掘它們的起源,應(yīng)該同時(shí)考慮多個(gè)學(xué)科,其中包括數(shù)學(xué)、哲學(xué)、語(yǔ)言學(xué)和心理學(xué)[2]。然而,我們沒(méi)有時(shí)間追溯回遠(yuǎn)古時(shí)代 [3],重新審視廣泛的科學(xué)領(lǐng)域。

因此,從時(shí)間的角度來(lái)看,我們將集中討論現(xiàn)代意義上的計(jì)算出現(xiàn)之后(上世紀(jì) 50 年代),知識(shí)圖譜的演變。此外,我們將每個(gè)時(shí)代劃分為「數(shù)據(jù)」,「知識(shí)」和「數(shù)據(jù)+知識(shí)」來(lái)組織相關(guān)的思想、技術(shù)和系統(tǒng)。 我們以幾十年為一個(gè)周期,但我們也意識(shí)到,周期之間的界限實(shí)際上較為模糊[4]。

文中參考的相關(guān)論文,本文都會(huì)一一列出。

一、數(shù)字時(shí)代的來(lái)臨(20世紀(jì) 50、60年代) 

數(shù)字計(jì)算機(jī)的出現(xiàn)和普及、第一代編程語(yǔ)言(LISP、FORTRAN、COBOL、ALGOL 等最具代表性的語(yǔ)言)、一個(gè)新的科學(xué)和技術(shù)領(lǐng)域(即計(jì)算機(jī)科學(xué))的誕生,標(biāo)志著數(shù)字時(shí)代的開(kāi)端。

接下來(lái),我們將重點(diǎn)介紹這一時(shí)代的五條發(fā)展路線(xiàn):

(1)第一條發(fā)展路線(xiàn)是自動(dòng)推理。

Newell、Shaw 和 Simon 在 1956 年發(fā)明的「Logic Theorist」是第一個(gè)標(biāo)志性的處理復(fù)雜信息的程序。在這之后,他們于 1958 年開(kāi)發(fā)的「通用解題程序」,很好地闡釋了研究人員奉為圭臬的研究范式:「該程序是作者的研究工作的一部分,目的是理解人類(lèi)智能、適應(yīng)能力和創(chuàng)造能力背后的信息處理機(jī)制」。其目標(biāo)為:「構(gòu)建可以解決對(duì)智能和適應(yīng)性有所需求的計(jì)算機(jī)程序,并探索這些程序中有哪些可以與人類(lèi)處理問(wèn)題的方式相匹配」。

此后,研究者們繼續(xù)在自動(dòng)推理領(lǐng)域取得了一系列進(jìn)展,其中較為突出的工作有:Robinson 第一定理(歸結(jié)原理)[5]、Green 和 Raphael 通過(guò)開(kāi)發(fā)問(wèn)答系統(tǒng)將數(shù)據(jù)庫(kù)中的定理證明和演繹聯(lián)系起來(lái)[6][7]。

在實(shí)踐層面上,「推理」特征的實(shí)現(xiàn)是多種多樣的。Joseph Weizenbaum 的 ELIZA 系統(tǒng)就是一個(gè)很好的例子,只要程序編寫(xiě)正確,該程序就可以用英語(yǔ)進(jìn)進(jìn)行關(guān)于任何話(huà)題的對(duì)話(huà)。

(2)第二條發(fā)展路線(xiàn)就是我們今天所說(shuō)的「在空間中搜索」。

很早,人們就意識(shí)到在某種空間中進(jìn)行搜索是所謂的「智能」或「推理」的努力的重要部分。為這樣的空間建立一種好的表征可以使搜索更加容易。「排序」就是一個(gè)很直觀的例子(70 年代以前,有 25% 的計(jì)算時(shí)間被用來(lái)對(duì)數(shù)據(jù)進(jìn)行排序,使任何搜索過(guò)程都變得可行[8])。

甚至在計(jì)算機(jī)出現(xiàn)之前,對(duì)于從事數(shù)據(jù)處理的人來(lái)說(shuō),搜索的概念就廣為人知。但是,對(duì)于在多樣且復(fù)雜的空間(特別是在國(guó)際象棋、跳棋、圍棋等游戲中產(chǎn)生的搜索空間)中進(jìn)行搜索和表征的思想還是很新穎的。迪杰斯特拉(Dijkstra)于 1956 年提出了著名的最短路徑算法,而這一算法在 1968 年被擴(kuò)展,從而產(chǎn)生了 A* 算法。

(3)第三條發(fā)展路線(xiàn)是從非結(jié)構(gòu)化數(shù)據(jù)源中檢索信息。

一旦具備了一定的計(jì)算能力,人們就可以從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)之外的數(shù)據(jù)源中獲取數(shù)據(jù)。其中,具有里程碑意義的工作是:Bertram Raphael 于 1964 年發(fā)表的「SIR: A Computer Program for Semantic Information Retrieval」(論文地址:https://dspace.mit.edu/handle/1721.1/6904)。

該系統(tǒng)展示了可以合理地被稱(chēng)為「理解」語(yǔ)義信息的能力。它使用單詞關(guān)聯(lián)和屬性列表來(lái)建模對(duì)話(huà)語(yǔ)句中傳達(dá)的關(guān)系信息。同時(shí),他們通過(guò)格式匹配處理程序從英語(yǔ)句子中提取語(yǔ)義內(nèi)容。

(4)第四條發(fā)展路線(xiàn)是處理數(shù)據(jù)的語(yǔ)言和系統(tǒng)。

這一方向具有標(biāo)志性的工作是:Charles Bachman 于 1963 年提出的集成數(shù)據(jù)存儲(chǔ)(IDS)系統(tǒng)[9]。IDS 系統(tǒng)在磁盤(pán)上維護(hù)共享文件的集合,擁有構(gòu)造和維護(hù)這些集合的工具和一種操作數(shù)據(jù)的應(yīng)用程序語(yǔ)言。

這種做法保證了工作的效率,但是犧牲了后來(lái)被稱(chēng)為「數(shù)據(jù)獨(dú)立性」的特性。IDS 成為了「CODASYL」標(biāo)準(zhǔn)的基礎(chǔ),后來(lái)還演變成了人們熟知的數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)。

此外,人們認(rèn)為應(yīng)該有更多的專(zhuān)用語(yǔ)言來(lái)處理數(shù)據(jù),從而催生了 COBOL(1959)。COBOL 是一種早期的面向數(shù)據(jù)處理的編程語(yǔ)言,其語(yǔ)法看上去與英語(yǔ)類(lèi)似。

(5)第五條發(fā)展路線(xiàn)是知識(shí)的圖表征。

由 Richard H.Richens 于 1956 年提出的「語(yǔ)義網(wǎng)絡(luò)」是知識(shí)圖譜領(lǐng)域最重要的概念之一,起初人們將它作為自然語(yǔ)言機(jī)器翻譯的一種工具[10]。

然而,只有少數(shù)研究人員獨(dú)立地進(jìn)行了進(jìn)一步的研究,其中較為有影響力的工作有:Ross Quillian 于 1963 年發(fā)表的「A notation for representing conceptual information: An application to semantics and mechanical English paraphrasing」(論文地址:https://apps.dtic.mil/docs/citations/AD0425486),他于 1967 年發(fā)表的博士論文「Word concepts: A theory and simulation of some basic semantic capabilities」(論文地址:https://onlinelibrary.wiley.com/doi/abs/10.1002/bs.3830120511)也對(duì)此進(jìn)行了說(shuō)明[11]。

在上世紀(jì) 50 年年代和 60 年代期間,人們意識(shí)到:

  •  自動(dòng)推理的重要性和可行性

  • 處理大型搜索空間的問(wèn)題

  • 對(duì)理解自然語(yǔ)言和其它人類(lèi)對(duì)于知識(shí)的表征的需要

  • 語(yǔ)義網(wǎng)絡(luò)(和更加通用的圖表征)作為抽象層的潛力

  • 系統(tǒng)和高級(jí)語(yǔ)言對(duì)于管理數(shù)據(jù)的相關(guān)性

當(dāng)時(shí)技術(shù)的局限性則包括:

  • 硬件的物理、技術(shù)和成本限制

  • 圖表征和線(xiàn)性實(shí)現(xiàn)之間的差異

  • 人類(lèi)語(yǔ)言邏輯和計(jì)算機(jī)系統(tǒng)處理的數(shù)據(jù)之間的差異

參考文獻(xiàn)

主要文獻(xiàn):

  • Bachman, MIACS 1962; See: Charles W. Bachman. The Origin of the Integrated Data Store (IDS): The First Direct-Access DBMS.  IEEE Annals of the History of Computers, 2009, vol. 31, pp. 42-54.

  • Newell, A.; Shaw, J.C.; Simon, H.A. (1958-9).?Report on a general problem-solving program.?Proceedings of the International Conference on Information Processing. pp. 256–264.

  • Bertram Raphael. SIR: A Computer Program for Semantic Information Retrieval. (1964)

  • Robinson, J. Alan (1965). "A Machine-Oriented Logic Based on the Resolution Principle".?Journal of the ACM. 12 (1): 23–41

次要文獻(xiàn):

  • Stuart Russel & Peter Norvig.  Artificial Intelligence, A Modern Approach, 1995. Chps. 1.2, 1.3

  • Paul E. Ceruzzi, History of Modern Computing, 2nd. Edit. MIT Press, 2003.

  • Minker, J., Gallaire, H., and Nicolas, J.-M., Logic and Databases: A Deductive Approach, ACM Computing Surveys 16(2):153-185 (1984).

二、數(shù)據(jù)和知識(shí)的基石(20 世紀(jì) 70 年代

上世紀(jì) 70 年代,計(jì)算機(jī)在工業(yè)界得到了更加廣泛的應(yīng)用。在這十年間,諸如蘋(píng)果和微軟等著名的公司紛紛成立。同時(shí),像「Wordstar」和「Visicalc」等數(shù)據(jù)處理系統(tǒng)也誕生了。此時(shí),存儲(chǔ)和處理能力不斷提升,人類(lèi)的專(zhuān)業(yè)知識(shí)漸漸積累,從而推動(dòng)了大型公司對(duì)改進(jìn)數(shù)據(jù)管理方法的需求。

1、數(shù)據(jù)

對(duì)數(shù)據(jù)處理需求的增長(zhǎng)帶來(lái)了通過(guò)「表征獨(dú)立性」(Representational Independence)概念體現(xiàn)的勞動(dòng)分工。 這個(gè)時(shí)候,程序員和應(yīng)用程序現(xiàn)在「忘掉」為了訪(fǎng)問(wèn)數(shù)據(jù)而對(duì)數(shù)據(jù)進(jìn)行物理上的組織的方法。

這一想法是 Edgar Codd 的論文「A Relational Model of Data for Large Shared Data Banks」的核心,該論文描述了利用關(guān)系作為一種數(shù)學(xué)模型來(lái)提供表征獨(dú)立性(Codd 將其稱(chēng)之為「數(shù)據(jù)獨(dú)立性」)。這種理念促進(jìn)了數(shù)據(jù)庫(kù)管理系統(tǒng)和建模工具的發(fā)展。

在建模層面上,Peter Chen 在他的論文「The Entity-Relationship Model - Toward a Unified View of Data」中介紹了「關(guān)系-實(shí)體」(ER)數(shù)據(jù)模型,提倡基于實(shí)體和它們之間的關(guān)系對(duì)數(shù)據(jù)建模。這樣的 ER 模型以圖的形式包含了現(xiàn)實(shí)世界的語(yǔ)義信息。這是早期嘗試將概念設(shè)計(jì)與數(shù)據(jù)模型(在本例中是關(guān)系數(shù)據(jù)模型)聯(lián)系起來(lái)的嘗試之一。

在系統(tǒng)層面上,人們基于關(guān)系模型,開(kāi)發(fā)并實(shí)現(xiàn)了用于管理數(shù)據(jù)的軟件應(yīng)用程序,即關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)。在這十年間,出現(xiàn)了兩個(gè)關(guān)鍵系統(tǒng):

(1)IBM 的 System R,詳情請(qǐng)參閱論文「System R: Relational Approach to Database Management」,論文地址:http://daslab.seas.harvard.edu/reading-group/papers/astrahan-1976.pdf

(2)加州大學(xué)伯克利分校的 INGRES 系統(tǒng),詳情請(qǐng)參閱論文「The Design and Implementation of INGRES」。論文地址:https://www.seas.upenn.edu/~zives/cis650/papers/INGRES.PDF

這些系統(tǒng)首次實(shí)現(xiàn)了 Codd 所描述的關(guān)系模型查詢(xún)系統(tǒng)的「愿景」,包括關(guān)系查詢(xún)語(yǔ)言(如最終催生了當(dāng)今最成功的聲明式查詢(xún)語(yǔ)言 SQL 的 SEQUEL 和 QUEL)。

2、知識(shí)

雖然「數(shù)據(jù)」流派重點(diǎn)關(guān)注數(shù)據(jù)結(jié)構(gòu),并創(chuàng)建系統(tǒng)以最好地管理數(shù)據(jù),但「知識(shí)」流派則重點(diǎn)關(guān)注數(shù)據(jù)的意義。

S. C. Shapiro 的工作便是這一方向的早期探索,他提出了一種網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)(一種存儲(chǔ)方式)來(lái)組織和檢索語(yǔ)義信息[13]。這些想法在語(yǔ)義網(wǎng)絡(luò)和處理系統(tǒng)(SNePS)中得以實(shí)現(xiàn),它可以被認(rèn)為是第一個(gè)獨(dú)立的 KRR 系統(tǒng)。

在這十年間,對(duì)語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)的批評(píng)甚囂塵上,主要都是針對(duì)其較弱的邏輯基礎(chǔ)。在這些批評(píng)的聲音中,具有代表性的工作是 Wood 于 1975 年發(fā)表的論文「What's in a Link: Foundations for Semantic Networks」,論文地址:https://apps.dtic.mil/dtic/tr/fulltext/u2/a022584.pdf

在這十年間,研究者們通過(guò)意義和形式化語(yǔ)義對(duì)語(yǔ)義網(wǎng)絡(luò)進(jìn)行了拓展。另一種代表性的人工智能語(yǔ)言是 Marvin Minsky 于 1974 年在論文「A Framework for Representing Knowledge」中提出的 Frames,它是一種為局部和微觀的數(shù)據(jù)賦予結(jié)構(gòu)和可擴(kuò)展性的方式,即給出一種「統(tǒng)一且連貫的理論」。其中,我們將一個(gè)由節(jié)點(diǎn)和關(guān)系組成的網(wǎng)絡(luò)定義為一個(gè)「幀」。論文地址:https://dspace.mit.edu/bitstream/handle/1721.1/6089/AIM-306.pdf?sequence=2&isAllowed=y

1976 年,John Sowa 在他的論文「Conceptual Graphs for a Data Base Interface」中引入了概念圖,作為一種將自然語(yǔ)言查詢(xún)和斷言映射到關(guān)系型數(shù)據(jù)庫(kù)中的中間語(yǔ)言。這種形式化的體系體現(xiàn)為概念和關(guān)系類(lèi)型的有序邏輯。論文地址:https://pdfs.semanticscholar.org/2ae6/ac8fc13710d9c086c0e5cb952eef52c9b3cd.pdf

幾乎在同一時(shí)間,Patrick Hayes 于 1977 年在其論文「In Defense of Logic」中認(rèn)識(shí)到,可以使用一階邏輯對(duì) Frame 網(wǎng)絡(luò)進(jìn)行形式化處理。論文地址:https://pdfs.semanticscholar.org/1fd7/d9517c41f3102aedf6dba01f3572ec34ad0d.pdf

這份工作后來(lái)影響了 Brachman 和 Levesque,啟發(fā)他們確定了一個(gè)易處理的一階邏輯的子集,而這后來(lái)成為了描述邏輯領(lǐng)域的第一個(gè)研究進(jìn)展。(詳見(jiàn) 1980 年代)

3、數(shù)據(jù)+知識(shí)

在這十年間,我們開(kāi)始經(jīng)歷數(shù)據(jù)和知識(shí)的融合。Robert Kowalski 在論文「Predicate Logic?as Programming?Language」中提出將邏輯同時(shí)作為聲明式的和過(guò)程式的知識(shí)表征,這一領(lǐng)域目前被稱(chēng)為「邏輯編程」。Alain Colmerauer 在 PROLOG 語(yǔ)言中實(shí)現(xiàn)了這些思想。論文地址:https://www.researchgate.net/publication/221330242_Predicate_Logic_as_Programming_Language                          

在構(gòu)建一個(gè)基于知識(shí)的系統(tǒng)時(shí),一個(gè)重要的問(wèn)題是「從哪里獲取知識(shí)」,該領(lǐng)域被稱(chēng)為「知識(shí)獲取」。專(zhuān)家系統(tǒng)是對(duì)特定領(lǐng)域人類(lèi)專(zhuān)家的知識(shí)(特別是規(guī)則)進(jìn)行編碼的程序,它解決了知識(shí)獲取的問(wèn)題。

上世紀(jì) 60 年代后期,Edward Shortliffe 開(kāi)始開(kāi)發(fā)第一個(gè)專(zhuān)家系統(tǒng),該系統(tǒng)在 70 年代逐漸流行了起來(lái)。MYCIN 是專(zhuān)家系統(tǒng)的一個(gè)經(jīng)典范例,它是一個(gè)識(shí)別引起嚴(yán)重感染的細(xì)菌的專(zhuān)家系統(tǒng)[14]。           

于 1977 年在法國(guó)的圖盧茲舉行的邏輯和數(shù)據(jù)庫(kù)研討會(huì)是這十年中的一個(gè)里程碑事件,它由  Herve Gallaire,Jack Minker,和 Jean-Marie Nicolas 組織。

在這次研討會(huì)上,出現(xiàn)了諸如 Ray Reiter 提出的「封閉世界假設(shè)」和 Keith Clark 提出的「失敗即否定」原則等重要的概念,這次會(huì)議可以被認(rèn)為標(biāo)志著數(shù)據(jù)邏輯方法的誕生,對(duì)該領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。人們普遍認(rèn)為,這次研討會(huì)形式化定義了邏輯和數(shù)據(jù)庫(kù)之間的聯(lián)系,并將其作為一個(gè)單獨(dú)的字段。

在這十年間,人們意識(shí)到:

  • 需要保證表征獨(dú)立性,關(guān)系模型就是第一個(gè)例子,而這種方法也可以在實(shí)際的系統(tǒng)中被實(shí)現(xiàn)。

  • 需要通過(guò)形式化邏輯的工具,形式化定義語(yǔ)義網(wǎng)絡(luò)。

  • 可以通過(guò)網(wǎng)絡(luò)的方法將邏輯和數(shù)據(jù)融合起來(lái)。

當(dāng)時(shí)技術(shù)的局限性包括:

  • 在數(shù)據(jù)方面,需要有更靈活的數(shù)據(jù)結(jié)構(gòu)來(lái)表征新型的數(shù)據(jù),從而產(chǎn)生了面向?qū)ο蟮乃枷牒蛨D數(shù)據(jù)結(jié)構(gòu)。

  • 在知識(shí)方面,需要進(jìn)一步理解邏輯中知識(shí)的形式化,從而產(chǎn)生了描述邏輯。

參考文獻(xiàn)

主要文獻(xiàn):

  • Shortliffe, E. Computer-Based Medical Consultations: MYCIN. 1976

  • E. F. Codd: A Relational Model of Data for Large Shared Data Banks. Commun. ACM 13(6): 377-387 (1970)

  • Peter P. Chen: The Entity-Relationship Model - Toward a Unified View of Data. ACM Trans. Database Syst. 1(1): 9-36 (1976)

  • Michael Stonebraker, Eugene Wong, Peter Kreps, Gerald Held: The Design and Implementation of INGRES. ACM Trans. Database Syst. 1(3): 189-222 (1976)

  • Robert Kowalski 74  Predicate Logic as Programming Language. ?Information Processing 1974.

  • Patrick Hayes 1979.  In Defense of Logic. IJCAI 1977

  • Patrick Hayes 1981. The Logic of Frames. January 1979.

  • Marvin Minsky. A Framework for Representing Knowledge. MIT-AI Laboratory Memo 306, June,  1974. Reprinted in The Psychology of Computer Vision, P. Winston (Ed.), McGraw-Hill, 1975.

  • J-M. Nicolas, J. Minker, H. Gallaire. Logic and Data Bases Workshop 1977

  • Sowa, John F. (1976) “Conceptual graphs for a database interface,” IBM Journal of Research and Development 20:4, 336-357.

  • Buchanan and Feigenbaum. 1978?Dendral and meta-dendral: Their applications dimension

  • Shortliffe 1976.?Computer-based medical consultations: MYCIN

次要文獻(xiàn):

  • Alain Colmerauer and Philippe Roussel. 1993. The birth of Prolog. SIGPLAN Not. 28, 3 (March 1993), 37-52

  • F. Puppe, Systematic Introduction to Expert Systems. Springer-Verlag Berlin Heidelberg 1993. Ch. 1. Characterization and History of Expert Systems.

  • Edward A. Feigenbaum. Expert Systems: Principles and Practice. In: The Encyclopedia of Computer Science and Engineering, 1992.

三、管理數(shù)據(jù)和知識(shí)(20 世紀(jì) 80 年代)

20 世紀(jì) 80 年代,隨著個(gè)人電腦的蓬勃發(fā)展,計(jì)算任務(wù)逐漸從工業(yè)界發(fā)展到家庭。在數(shù)據(jù)管理領(lǐng)域,關(guān)系型數(shù)據(jù)庫(kù)工業(yè)發(fā)展迅速(Oracle、Sybase、IBM 等公司紛紛入場(chǎng))。面向?qū)ο蟮某橄笞鳛橐环N新的表征獨(dú)立性的形式而發(fā)展起來(lái)。與此同時(shí),互聯(lián)網(wǎng)開(kāi)始改變?nèi)藗兘涣骱徒粨Q信息的方式。

1、數(shù)據(jù)

不斷增長(zhǎng)的計(jì)算能力推動(dòng)了新計(jì)算領(lǐng)域和相關(guān)產(chǎn)品的發(fā)展。這些反過(guò)來(lái)又生成了需要管理的復(fù)雜數(shù)據(jù)。此外,假定表征獨(dú)立性需要的關(guān)系演變導(dǎo)致了軟件程序與數(shù)據(jù)的分離,促使人們想方設(shè)法將編程語(yǔ)言(特別是像 Smalltalk 這樣的面向?qū)ο笳Z(yǔ)言)與數(shù)據(jù)庫(kù)結(jié)合起來(lái)。這導(dǎo)致了面向?qū)ο蟮臄?shù)據(jù)庫(kù)(OODB)的發(fā)展。

該領(lǐng)域研究如何通過(guò)引入將成為未來(lái)數(shù)據(jù)中心的功能(如對(duì)象、標(biāo)識(shí)符、關(guān)系、繼承對(duì)象相等[15]),處理復(fù)雜的數(shù)據(jù)。許多來(lái)自學(xué)術(shù)界和工業(yè)界的系統(tǒng)在這個(gè)時(shí)期得到了蓬勃發(fā)展,例如 Encore-Observer(布朗大學(xué))、EXODUS(威斯康星大學(xué)麥迪遜分校)、IRIS(惠普)、ODE (貝爾實(shí)驗(yàn)室)、ORION(MCC)和 Zeitgeist(德州儀器),這些系統(tǒng)衍生了一系列商業(yè)產(chǎn)品。

在這一時(shí)期,人們開(kāi)始將圖作為面向?qū)ο髷?shù)據(jù)、圖形化和可視化界面、超文本系統(tǒng)等的表征方式,對(duì)其進(jìn)行研究。

一個(gè)早期的例子是 Harel 于 1988 年提出的圖形化編程語(yǔ)言「HiGraph」[16]。Alberto Mendelzon 和他的學(xué)生針對(duì)該領(lǐng)域的而研究工作產(chǎn)出了有影響力的成果。他們使用圖上的遞歸式來(lái)開(kāi)發(fā)查詢(xún)語(yǔ)言,這是現(xiàn)代圖查詢(xún)語(yǔ)言的基礎(chǔ)[17]。

然而,目前仍然沒(méi)有一種成熟的技術(shù)能夠讓這些圖系統(tǒng)真正實(shí)用[18]。研究人員提出了一些方法試圖解決這些難題,例如在超圖上引入操作來(lái)彌補(bǔ)「對(duì)象-關(guān)系」之間的差距等[19]。由于一些值得進(jìn)一步研究的原因,OODB 和圖數(shù)據(jù)庫(kù)系統(tǒng)未能戰(zhàn)勝 RDBMS 的激烈競(jìng)爭(zhēng)。

2、知識(shí)

20世紀(jì)80年代最重要的成就是形式化定義了語(yǔ)言表達(dá)能力和計(jì)算復(fù)雜度或推理任務(wù)之間的根本上的平衡。這在 Brachman 和 Levesque 的論文「The Tractability of Subsumption in Frame-Based Description Languages」(https://aaai.org/Papers/AAAI/1984/AAAI84-036.pdf)中得到了首次展示。

要想提升語(yǔ)言的表達(dá)能力,就必須在計(jì)算效率上付出代價(jià)。這導(dǎo)致研究人員開(kāi)展一系列工作尋找表達(dá)性連續(xù)體(Expressivity Continuum)的平衡點(diǎn),從而產(chǎn)生了一套名為「描述邏輯」的新邏輯理論。最突出的系統(tǒng)有「KL-ONE」、「LOOM」、「CLASSIC」等。除了描述邏輯,另一個(gè)形式化體系在此期間也得到了發(fā)展: 「F-邏輯」,它深受對(duì)象(Object)和幀(Frame)的影響。

盡管這些早期的邏輯系統(tǒng)在當(dāng)時(shí)并沒(méi)有得到大規(guī)模的工業(yè)應(yīng)用,但它們表明邏輯推理可以在易于處理的軟件中實(shí)現(xiàn)。最終,它們將成為當(dāng)今應(yīng)用最廣泛的本體建模語(yǔ)言 OWL 和語(yǔ)義網(wǎng)絡(luò)的基礎(chǔ)(詳見(jiàn) 2000 年代)。

在這里,值得一提的是,非單調(diào)推理技術(shù)在這十年間也得以發(fā)展。例如,許多形式化體系(包括限定推理、缺省邏輯、自認(rèn)知邏輯、以及條件邏輯)被引入到非單調(diào)推理中[20]。

3、數(shù)據(jù)+知識(shí)

在這十年間,人們對(duì)融合數(shù)據(jù)和知識(shí)的興趣日益濃厚。在這個(gè)發(fā)展過(guò)程中,一個(gè)重要的事件是:日本的第五代計(jì)算機(jī)計(jì)劃對(duì)人工智能的大力宣傳。鑒于日本在汽車(chē)和電子工業(yè)上的成功,他們也希望在軟件領(lǐng)域取得成功。

他們的目標(biāo)是創(chuàng)造人工智能硬件和軟件,將邏輯和數(shù)據(jù)結(jié)合起來(lái),并能像人類(lèi)一樣進(jìn)行對(duì)話(huà)、翻譯語(yǔ)言、解釋圖片并進(jìn)行推理。其采用邏輯編程作為邏輯和數(shù)據(jù)結(jié)合的基礎(chǔ)[21]。

日本的這一計(jì)劃引發(fā)了世界范圍內(nèi)人工智能活動(dòng)的浪潮,催生了諸如美國(guó)的微電子學(xué)和計(jì)算機(jī)技術(shù)聯(lián)盟(MCC)[22]、慕尼黑的歐洲計(jì)算機(jī)研究中心(ECRC)和英國(guó)的 Alvey 計(jì)劃等競(jìng)爭(zhēng)項(xiàng)目。在整個(gè)80年代和90年代,MCC 都是硬件和軟件領(lǐng)域重要的研究中心。例如,MCC 開(kāi)展的 Cyc 計(jì)劃旨在創(chuàng)建世界上最大的常識(shí)知識(shí)庫(kù),用于執(zhí)行類(lèi)人推理的應(yīng)用程序[23]。

作為一種在計(jì)算機(jī)中編纂知識(shí)的實(shí)用手段,專(zhuān)家系統(tǒng)在此期間迅速發(fā)展,成為了人工智能風(fēng)口浪尖上的話(huà)題。諸如「OPS5」和「Rate algorithm」等產(chǎn)生式規(guī)則系統(tǒng)在此期間也取得了進(jìn)展,從而高效地實(shí)現(xiàn)基于規(guī)則的系統(tǒng)。

為了將專(zhuān)家系統(tǒng)提升到更高的水平上,人們認(rèn)為專(zhuān)家系統(tǒng)應(yīng)該被部署到并行處理的計(jì)算機(jī)集群上。因此,我們看到了像「DADO 并行計(jì)算機(jī)」、「大規(guī)模并行機(jī)」(Connection Machine)、「PARKA 計(jì)劃」這樣的系統(tǒng)紛紛出現(xiàn)。專(zhuān)家系統(tǒng)開(kāi)始展現(xiàn)出其商業(yè)價(jià)值(請(qǐng)參考 Xcon、ACE 的例子)。

風(fēng)險(xiǎn)投資人逐漸開(kāi)始為諸如「IntelliCorp」[25]、「ILOG」、「Neuron Data」、「Haley 系統(tǒng)」等人工智能公司注資。

從學(xué)術(shù)的角度來(lái)說(shuō),將邏輯與數(shù)據(jù)相結(jié)合的初步方法是:在關(guān)系型數(shù)據(jù)庫(kù)的基礎(chǔ)上進(jìn)行邏輯編程。在邏輯編程中,人們指定程序的功能(「是什么」)而不指定算法(「怎么做」),因此優(yōu)化起著關(guān)鍵作用。

在這段時(shí)間里,我們認(rèn)識(shí)到優(yōu)化問(wèn)題比關(guān)系查詢(xún)優(yōu)化問(wèn)題要困難得多。這催生了演繹數(shù)據(jù)庫(kù)系統(tǒng),它們用遞歸規(guī)則和優(yōu)化自然地?cái)U(kuò)展了關(guān)系型數(shù)據(jù)庫(kù)。 

「Datalog」是 Prolog 的一個(gè)子集,它可以被看作是通過(guò)將關(guān)系型數(shù)據(jù)庫(kù)語(yǔ)言形式化,為邏輯編程創(chuàng)造簡(jiǎn)潔的語(yǔ)義。 Datalog 成為了演繹數(shù)據(jù)庫(kù)的查詢(xún)語(yǔ)言(詳情請(qǐng)參閱 Ceri 等人的論文「What you always wanted to know about Datalog (and never dared to ask)」,論文地址:https://personal.utdallas.edu/~gupta/courses/acl/papers/datalog-paper.pdf

Bancelhon 等人在他們的論文「Magic sets and other strange ways to implement logic programs」中提出的「魔法集」(Magic Set)是對(duì) Datalog 的一項(xiàng)重要優(yōu)化,它重寫(xiě)了邏輯規(guī)則,以減少產(chǎn)生的無(wú)關(guān)事實(shí)。論文地址:https://dl.acm.org/citation.cfm?id=15399&dl=ACM&coll=DL

LDL 系統(tǒng)是最早的演繹數(shù)據(jù)庫(kù)系統(tǒng)之一,在 Tsur 和 Zaniolo 的論文「LDL: A Logic-Based Data-Language」中介紹了這一系統(tǒng)。其中許多思想直接體現(xiàn)在當(dāng)時(shí)被稱(chēng)為主動(dòng)數(shù)據(jù)庫(kù)的關(guān)系型數(shù)據(jù)庫(kù)中[26]。論文地址:http://www.vldb.org/conf/1986/P033.PDF

在 1990 年代初,事實(shí)證明專(zhuān)家系統(tǒng)成本高昂,難以更新和維護(hù)。演繹推理也很難解釋?zhuān)⑹执嗳酰揖窒抻谔囟I(lǐng)域。

因此,IT 世界改變了發(fā)展策略,將這種經(jīng)驗(yàn)從 IBM、SAP、Oracle 等供應(yīng)商那里轉(zhuǎn)移到主流 IT 工具中。在日本第五代計(jì)算機(jī)項(xiàng)目啟動(dòng)十年之后,它最初令人印象深刻的一系列目標(biāo)還沒(méi)有實(shí)現(xiàn)。資金逐漸枯竭了(除了 Cyc 之外),這些因素導(dǎo)致了人工智能走向「冬天」。

在這十年間,人們意識(shí)到:

  • 邏輯和數(shù)據(jù)的結(jié)合需要緊密耦合(而不僅僅是數(shù)據(jù)庫(kù)基礎(chǔ)上的層 prolog/專(zhuān)家系統(tǒng))。

  • 需要平衡邏輯語(yǔ)言的表達(dá)能力與推理任務(wù)的計(jì)算復(fù)雜度。

當(dāng)時(shí)技術(shù)的局限性包括:

  • 否定邏輯很難處理。那時(shí)人們還沒(méi)有很好地理解它。

  • 大規(guī)模推理很困難,硬件還不能滿(mǎn)足該任務(wù)的需求。

  • 知識(shí)獲取的瓶頸客觀存在。

參考文獻(xiàn)

主要文獻(xiàn):

  • Cruz, I. F., Mendelzon A. O., and Wood, P. T. A graphical query language supporting recursion. In Proc. ACM SIGMOD, pages 323–330, 1987.

  • Mariano P. Consens, Alberto O. Mendelzon. GraphLog: a visual formalism for real life recursion. PODS '90, pp. 404-416.

  • Brachman, R. The Future of Knowledge Representation. Proceedings of AAAI-90.

  • Brachman and Levesque. 1984. The Tractability of Subsumption in Frame-Based Description Languages

  • Salvatore J.Stolfo Daniel P.Miranker. The DADO production system machine. Journal of Parallel and Distributed Computing. Volume 3, Issue 2, June 1986, Pages 269-296.

  • Stokman F.N., de Vries P.H. (1988) Structuring Knowledge in a Graph. In: van der Veer G.C., Mulder G. (eds) Human-Computer Interaction. Springer, Berlin, Heidelberg

  • Won Kim: Object-Oriented Databases: Definition and Research Directions. IEEE Trans. Knowl. Data Eng. 2(3): 327-341 (1990)

  • Shalom Tsur, Carlo Zaniolo: LDL: A Logic-Based Data Language. VLDB 1986: 33-41

  • Fran?ois Bancilhon, David Maier, Yehoshua Sagiv, Jeffrey D. Ullman: Magic Sets and Other Strange Ways to Implement Logic Programs. PODS 1986: 1-15

  • Stefano Ceri, Georg Gottlob, Letizia Tanca: What you Always Wanted to Know About Datalog (And Never Dared to Ask). IEEE Trans. Knowl. Data Eng. 1(1): 146-166 (1989)

· 1988. Readings in Artificial Intelligence and Databases (1st ed.). John Mylopoulos and Michael L. Brodie (Eds.). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

次要文獻(xiàn):

  • Renzo Angles, Claudio Gutierrez. Survey of Graph Database Models. ACM Computing Surveys, Vol. 40, No. 1, Article 1, Publication date: February 2008

四、數(shù)據(jù)、知識(shí)和網(wǎng)絡(luò)(20 世紀(jì) 90 年代)

20世紀(jì)90年代,兩種改變世界的現(xiàn)象級(jí)技術(shù)誕生了。

首先,萬(wàn)維網(wǎng)橫空出世。這種全球信息基礎(chǔ)設(shè)施徹底改變了傳統(tǒng)的數(shù)據(jù)、信息和知識(shí)實(shí)踐。在通用信息空間的概念下,任何人都可以發(fā)布信息和閱讀(從文本和圖像等形式開(kāi)始),它以分布式的方式完全改變了知識(shí)和數(shù)據(jù)管理的哲學(xué)和實(shí)踐。

其次,我們社會(huì)幾乎所有的方面都被數(shù)字化(從紙張到電子,從電子模擬信號(hào)到電子數(shù)字信號(hào))。這些現(xiàn)象為我們今天所知的大數(shù)據(jù)鋪平了道路[27]??茖W(xué)研究和工業(yè)生產(chǎn)都轉(zhuǎn)向了這些新的發(fā)展領(lǐng)域。

1、數(shù)據(jù)

那時(shí),數(shù)據(jù)庫(kù)行業(yè)正忙于開(kāi)發(fā) RDBMS,并對(duì)其進(jìn)行調(diào)優(yōu),以滿(mǎn)足通過(guò) Web 漸漸普及的電子商務(wù)所提出的需求。這導(dǎo)致我們產(chǎn)生了大量需要綜合并分析的數(shù)據(jù),在這一勢(shì)頭之上開(kāi)展的研究重點(diǎn)關(guān)注網(wǎng)絡(luò)數(shù)據(jù)、數(shù)據(jù)集成和數(shù)據(jù)倉(cāng)庫(kù)/OLAP 等領(lǐng)域。

慢慢地,數(shù)據(jù)研究社區(qū)也轉(zhuǎn)而研究網(wǎng)絡(luò)數(shù)據(jù)。許多工作提升了人們對(duì)網(wǎng)絡(luò)上數(shù)據(jù)和計(jì)算的理解,例如 Mendelzon 和 Milo 的論文「Formal Models of the Web」(論文地址:https://dl.acm.org/citation.cfm?id=263677)[18] 以及 Abiteboul 和 Vianu 的論文「Queries and Computation on the Web」(論文地址:http://ilpubs.stanford.edu:8090/146/1/1996-20.pdf)。

此外,網(wǎng)絡(luò)激發(fā)了分發(fā)數(shù)據(jù)和自我描述數(shù)據(jù)的需求。在實(shí)現(xiàn)這些目標(biāo)的過(guò)程中,一個(gè)關(guān)鍵的研究成果是:用于半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型和查詢(xún)語(yǔ)言,如 XML、 OEM、 RDF 和 XQUERY 等。

在此期間,研究和工業(yè)機(jī)構(gòu)需要集成多個(gè)分布式、異構(gòu)的數(shù)據(jù)源,以便進(jìn)行業(yè)務(wù)決策。聯(lián)邦數(shù)據(jù)庫(kù)在 80 年代就開(kāi)始著手解決這個(gè)問(wèn)題(詳見(jiàn) Sheth 和 Larson 的綜述「Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases」,論文地址:http://static.cs.brown.edu/courses/csci2270/papers/federated.pdf)。 

然而,這是一個(gè)數(shù)據(jù)集成達(dá)到巔峰的時(shí)代,許多產(chǎn)學(xué)結(jié)合的項(xiàng)目誕生了,包括 TSIMMIS 和斯坦福/ IBM 的 Lore,南加州大學(xué)的 SIMS,MCC 的 InfoSleuth 等。這些系統(tǒng)引入了介質(zhì)(Mediators)[29]和包裝器的概念,諸如 SIMS 和 InfoSleuth 之類(lèi)的系統(tǒng)也將本體引入到了數(shù)據(jù)集成組合中[30]。

此時(shí),我們也漸漸看到需要使用正在生成和集成的數(shù)據(jù)來(lái)驅(qū)動(dòng)業(yè)務(wù)決策報(bào)告的生成。這就衍生出了數(shù)據(jù)倉(cāng)庫(kù),它可以支持對(duì)多維數(shù)據(jù)立方體的分析,即聯(lián)機(jī)分析處理(OLAP)。與此同時(shí),大部分的研究著眼于提出啟發(fā)式算法來(lái)實(shí)現(xiàn)數(shù)據(jù)立方體的查詢(xún)優(yōu)化[31]。

2、知識(shí)

從知識(shí)的角度來(lái)說(shuō),研究者們意識(shí)到,實(shí)現(xiàn)專(zhuān)家系統(tǒng)主要的瓶頸是從領(lǐng)域?qū)<夷抢铽@取知識(shí)。這催生了一個(gè)被稱(chēng)為「知識(shí)管理和獲取」的研究領(lǐng)域,后來(lái)它發(fā)展為人們熟知的「知識(shí)工程」,最終演變?yōu)椤副倔w工程」(ontology engineering)。

由 Brain Gaines 組織的,在 Banff 舉辦的「知識(shí)獲取研討會(huì)」,就是在此期間發(fā)生的一系列開(kāi)創(chuàng)性事件的代表。在這里,研究者們的目標(biāo)仍然是:將關(guān)于世界的信息編碼為計(jì)算機(jī)可以理解的形式。然而,終端產(chǎn)品的性質(zhì)已經(jīng)在不斷改變和發(fā)展——包括概念數(shù)據(jù)模型、產(chǎn)生式規(guī)則、語(yǔ)義網(wǎng)絡(luò)和邏輯。

網(wǎng)絡(luò)使人們意識(shí)到知識(shí)應(yīng)該被反復(fù)共享和重復(fù)使用。Gruber 在他的論文「A translation approach to portable ontology specifications」中將術(shù)語(yǔ)「本體」在計(jì)算上的意義定義為「概念化的明確說(shuō)明」。知識(shí)獲取的主要焦點(diǎn)是設(shè)計(jì)和維護(hù)本體的方法。論文地址:https://pdfs.semanticscholar.org/5120/f65919f77859a974fcc1ad08f72b2918b8ec.pdf)

Uschold 和 Gruninger 在他們的論文「Ontologies: principles, methods and applications」中開(kāi)創(chuàng)了本體工程的研究領(lǐng)域。 論文地址:http://www.aiai.ed.ac.uk/publications/documents/1996/96-ker-intro-ontologies.pdf

此后,一些衍生的方法論陸續(xù)出現(xiàn),如馬德里大學(xué)人工智能實(shí)驗(yàn)室開(kāi)發(fā)的「Methontology」,知識(shí)獲取和文檔結(jié)構(gòu)化(KADS)方法論,CommonKADS,以及一些專(zhuān)用的方法(例如,OntoClean)。與此同時(shí),我們也開(kāi)始看到第一批本體工程工具(例如 Ontolingua、WebODE、Protege 等)陸續(xù)出現(xiàn)。

3、數(shù)據(jù)+知識(shí)

在此期間,演繹數(shù)據(jù)庫(kù)體現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)上數(shù)據(jù)和知識(shí)的融合達(dá)到了巔峰。

1990 年- 1999 年舉辦的「演繹數(shù)據(jù)庫(kù)研討會(huì)」和1994 年到 2003 年舉辦的「表征與數(shù)據(jù)庫(kù)研討會(huì)」等學(xué)術(shù)活動(dòng)是該領(lǐng)域研究活動(dòng)的中心,這些研究進(jìn)展催生了 Datalog 的一些改進(jìn)版本(例如 Datalog +/-)。      

這些研究的主要挑戰(zhàn)是如何在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行形式化推理。事實(shí)上,將網(wǎng)絡(luò)視為一個(gè)通用的信息空間,引起了開(kāi)發(fā)語(yǔ)言來(lái)描述、查詢(xún)和推理海量數(shù)據(jù)、信息和知識(shí)的需求。在這十年間,最雄心勃勃的計(jì)劃就是將網(wǎng)絡(luò)上的知識(shí)和數(shù)據(jù)結(jié)合起來(lái),這一想法并最終命名為「語(yǔ)義網(wǎng)絡(luò)」。

諸如簡(jiǎn)單 HTML 本體擴(kuò)展(SHOE)、語(yǔ)義 Web 中間件「Ontobroker」[32]、本體推理層(OIL)和 DARPA 智能體標(biāo)記語(yǔ)言(DAML)、知識(shí)查詢(xún)與操作語(yǔ)言(KQML)和歐盟資助的專(zhuān)題網(wǎng)絡(luò)「OntoWeb」[33](用于知識(shí)管理和電子商務(wù)的基于本體的信息交換)等等的研究進(jìn)展對(duì)語(yǔ)義網(wǎng)絡(luò)項(xiàng)目產(chǎn)生了強(qiáng)烈的影響,并為其定下了框架,最終融合在了網(wǎng)絡(luò)本體語(yǔ)言 OWL 的定義中。其目標(biāo)是匯聚網(wǎng)絡(luò)上的諸如知識(shí)表征、本體、邏輯、數(shù)據(jù)庫(kù)、信息檢索等技術(shù)。這些發(fā)展催生了一個(gè)圍繞網(wǎng)絡(luò)及其可能性的研究和實(shí)踐的新領(lǐng)域。            

在這十年間,人們意識(shí)到:

  • 網(wǎng)絡(luò)迅速地改變了數(shù)據(jù)、信息和知識(shí)的世界。

  • 新型的額數(shù)據(jù)正在傳播開(kāi)來(lái)(特別是通過(guò)各種媒體:圖像、視頻、聲音)。

  • 數(shù)據(jù)需要被(而且現(xiàn)在已經(jīng)可以被)連接起來(lái),從而獲取價(jià)值。

當(dāng)時(shí)技術(shù)的局限性包括:

  • 為了處理網(wǎng)絡(luò)產(chǎn)生的新的數(shù)量級(jí)的數(shù)據(jù),需要更大的算力。

  • 單純的邏輯技術(shù)在復(fù)雜度上有限制,這會(huì)使可擴(kuò)展性難以實(shí)現(xiàn)。

參考文獻(xiàn)

主要文獻(xiàn):

  • Tim Berners-Lee. Proposal for CERN

  • Alberto Mendelzon and Tova Milo, Formal Models of the Web, in Proc. PODS'97, Tucson, May 1997. Full version in Information Systems 23(8): 615-637 (1998).

  • Serge Abiteboul,?Victor Vianu: Queries and Computation on the Web.?ICDT 1997: 262-275

  • Mauricio A. Hernández, Salvatore J. Stolfo: The Merge/Purge Problem for Large Databases. SIGMOD Conference 1995: 127-138

  • Sudarshan S. Chawathe, Hector Garcia-Molina, Joachim Hammer, Kelly Ireland, Yannis Papakonstantinou, Jeffrey D. Ullman, Jennifer Widom: The TSIMMIS Project: Integration of Heterogeneous Information Sources. IPSJ 1994: 7-18

  • Yigal Arens, Craig A. Knoblock: SIMS: Retrieving and Integrating Information From Multiple Sources. SIGMOD Conference 1993: 562-563

  • Roberto J. Bayardo Jr., William Bohrer, Richard S. Brice, Andrzej Cichocki, Jerry Fowler, Abdelsalam Helal, Vipul Kashyap, Tomasz Ksiezyk, Gale Martin, Marian H. Nodine, Mosfeq Rashid, Marek Rusinkiewicz, Ray Shea, C. Unnikrishnan, Amy Unruh, Darrell Woelk: InfoSleuth: Semantic Integration of Information in Open and Dynamic Environments (Experience Paper). SIGMOD Conference 1997: 195-206

  • Yannis Papakonstantinou, Hector Garcia-Molina, Jennifer Widom: Object Exchange Across Heterogeneous Information Sources. ICDE 1995: 251-260

  • Jason McHugh, Serge Abiteboul, Roy Goldman, Dallan Quass, Jennifer Widom: Lore: A Database Management System for Semistructured Data. SIGMOD Record 26(3): 54-66 (1997)

  • An overview of data warehousing and OLAP technology

  • Alon Y. Levy, Alberto O. Mendelzon, Yehoshua Sagiv, Divesh Srivastava: Answering Queries Using Views. PODS 1995: 95-104

  • Serge Abiteboul: Querying Semi-Structured Data. ICDT 1997: 1-18

次要文獻(xiàn):

  • Serge Abiteboul, Peter Buneman, Dan Suciu: Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann 1999

  • Dan Suciu. Semistructured data and XML. Kluwer Academic Publishers Norwell, MA, USA, 2000

五、大規(guī)模的數(shù)據(jù)和知識(shí)(21 世紀(jì))

在21世紀(jì)初,我們見(jiàn)證了電子商務(wù)、在線(xiàn)社交網(wǎng)絡(luò)(例如,F(xiàn)acebook、Twitter)的爆炸式增長(zhǎng),并且認(rèn)識(shí)到可用數(shù)據(jù)是海量的(即大數(shù)據(jù))。這導(dǎo)致人們開(kāi)發(fā)了新的系統(tǒng)和方法,以比以前更大的規(guī)模管理和分析數(shù)據(jù)。在 21世紀(jì)第一個(gè)十年末,統(tǒng)計(jì)方法(通過(guò)引入深度學(xué)習(xí))開(kāi)始在各種各樣的應(yīng)用取得了超越邏輯方法的性能表現(xiàn)。

1、數(shù)據(jù)

谷歌和亞馬遜等互聯(lián)網(wǎng)公司開(kāi)始構(gòu)建數(shù)據(jù)管理的壁壘,并驅(qū)使開(kāi)發(fā)人員跳出典型的企業(yè)數(shù)據(jù)環(huán)境的思維。在他們的論文「MapReduce: Simplified Data Processing on Large Clusters」[34]中,谷歌引入了一種使用 MapReduce 處理大量數(shù)據(jù)的基礎(chǔ)設(shè)施 [34],論文地址:https://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf

隨著 CouchDB 等系統(tǒng)的出現(xiàn),非關(guān)系型、分布式數(shù)據(jù)存儲(chǔ)得到了蓬勃發(fā)展,隨后谷歌發(fā)表了論文「Bigtable: A Distributed Storage System for Structured Data」,論文地址:https://static.googleusercontent.com/media/research.google.com/en//archive/bigtable-osdi06.pdf

亞馬遜也緊隨其后,發(fā)表了論文「Dynamo: Amazon’s Highly Available Key-value Store」,論文地址:https://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf

這就催生了 NoSQL 數(shù)據(jù)庫(kù),它再一次普及了針對(duì)列、文檔、鍵值和圖數(shù)據(jù)模型的數(shù)據(jù)庫(kù)管理系統(tǒng)。

數(shù)據(jù)管理研究社區(qū)進(jìn)一步關(guān)注數(shù)據(jù)集成(模式匹配、實(shí)體鏈接等)和 XML 處理問(wèn)題。數(shù)據(jù)庫(kù)理論研究人員從基礎(chǔ)的角度(正如 Lenzerini 在「Data Integration: A Theoretical Perspective」中所展示的那樣)開(kāi)始研究數(shù)據(jù)集成,并催生了針對(duì)數(shù)據(jù)交換的研究工作。論文地址:https://www.cs.ubc.ca/~rap/teaching/534a/readings/Lenzerini-pods02.pdf

2、知識(shí)

此時(shí),描述邏輯的研究社區(qū)為了進(jìn)行知識(shí)表征,繼續(xù)定義新的邏輯描述方法,研究二者之間的平衡,并且在「FACT」、「Hermit」、「Pellet」等系統(tǒng)中實(shí)現(xiàn)算法。目前研究社區(qū)正在尋找這些研究成果落地應(yīng)用的機(jī)會(huì)。一個(gè)可能產(chǎn)生影響的機(jī)會(huì)就是:成為網(wǎng)絡(luò)革命(特別是語(yǔ)義網(wǎng)絡(luò))的一部分。

世界上充斥著大量的數(shù)據(jù),這些數(shù)據(jù)為人工智能的統(tǒng)計(jì)方法(特別是機(jī)器學(xué)習(xí)和后來(lái)的深度學(xué)習(xí))提供了輸入。有人可能會(huì)說(shuō),產(chǎn)生知識(shí)的邏輯方法正在退居幕后。

在知識(shí)領(lǐng)域,統(tǒng)計(jì)技術(shù)被認(rèn)為是從已知的事實(shí)中推導(dǎo)出新的事實(shí),它使實(shí)際應(yīng)用中的邏輯方法不像以往那樣受人關(guān)注。自從論文「Imagenet classification with deep convolutional neural networks」于 2012 年被發(fā)表以來(lái),知識(shí)表征和推理研究領(lǐng)域的重點(diǎn)發(fā)生了改變。隨著算力的提升,當(dāng)初六十年代嘗試直接通過(guò)神經(jīng)網(wǎng)絡(luò)建立知識(shí)模型的做法現(xiàn)在又有效了。論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

如今,這些技術(shù)和系統(tǒng)在許多人類(lèi)才能完成的任務(wù)(例如分類(lèi),以及有大量訓(xùn)練數(shù)據(jù)的應(yīng)用程序)中超過(guò)了人類(lèi)。通常,這篇圖像檢測(cè)論文被認(rèn)為是引發(fā)這場(chǎng)革命的標(biāo)志性論文。當(dāng)然,大多數(shù)傳統(tǒng)的關(guān)于知識(shí)的研究還是在試圖找到一個(gè)與統(tǒng)計(jì)和機(jī)器學(xué)習(xí)相結(jié)合的方法。

3、數(shù)據(jù)+知識(shí)

在這一時(shí)期,連接數(shù)據(jù)和知識(shí)的工作有兩條發(fā)展軌跡:語(yǔ)義網(wǎng)絡(luò)和關(guān)聯(lián)數(shù)據(jù)。

結(jié)合數(shù)據(jù)和知識(shí)的主要工作是在語(yǔ)義網(wǎng)絡(luò)項(xiàng)目中體現(xiàn)出來(lái)的。這建立在本文之前介紹的許多研究成果智商,特別是自描述圖數(shù)據(jù)模型(RDF)、描述邏輯和知識(shí)工程。

Tim Berners-Lee、Jim Hendler 和 Ora Lassila 在「科學(xué)美國(guó)人」雜志上發(fā)表的論文「語(yǔ)義網(wǎng)絡(luò)」最初引起了業(yè)界和學(xué)術(shù)界的興趣。論文地址:https://www-sop.inria.fr/acacia/cours/essi2006/Scientific%20American_%20Feature%20Article_%20The%20Semantic%20Web_%20May%202001.pdf

借助于萬(wàn)維網(wǎng)聯(lián)盟(W3C)的標(biāo)準(zhǔn)化工作,支撐語(yǔ)義網(wǎng)絡(luò)的技術(shù)(例如,數(shù)據(jù)模型、模式、本體語(yǔ)言和查詢(xún)語(yǔ)言等),便正在由學(xué)術(shù)界和工業(yè)界同時(shí)開(kāi)發(fā)。

語(yǔ)義網(wǎng)絡(luò)標(biāo)準(zhǔn)(RDF、OWL、SPARQL)恰好處于「走在時(shí)代前沿」的平衡點(diǎn),既沒(méi)有太晚(世界已經(jīng)由于信息爆炸而碎片化) ,也沒(méi)有太早(沒(méi)有人愿意采用它)。然而也許人們對(duì)學(xué)術(shù)界的偏見(jiàn)過(guò)于嚴(yán)重[35],或者存在一些更為根本的問(wèn)題——即「外部」因素(如對(duì)分布式和民主的數(shù)據(jù)管理方式不感興趣的大公司的壟斷和中心化)??偠灾聦?shí)就是,在這十年中,語(yǔ)義網(wǎng)絡(luò)的大部分活動(dòng)并沒(méi)有像預(yù)期的那樣受到業(yè)界的歡迎。

早期的語(yǔ)義網(wǎng)絡(luò)項(xiàng)目著眼于知識(shí)表征和推理,特別是自上世紀(jì) 90 年代起對(duì)本體的研究工作。描述邏輯的研究社區(qū)產(chǎn)生的研究成果實(shí)現(xiàn)了本體語(yǔ)言的標(biāo)準(zhǔn)化。2004 年確立了第一版網(wǎng)絡(luò)本體語(yǔ)言(OWL)的標(biāo)準(zhǔn),它是歐洲的 OIL 項(xiàng)目和美國(guó)的 DAML 項(xiàng)目結(jié)合的產(chǎn)物。

在這十年的中期,「關(guān)聯(lián)數(shù)據(jù)」這一術(shù)語(yǔ)作為一套聯(lián)通互聯(lián)網(wǎng)上數(shù)據(jù)的最佳實(shí)踐凸顯了出來(lái),旨在增強(qiáng)網(wǎng)絡(luò)上的知識(shí)。這催生了關(guān)聯(lián)開(kāi)放數(shù)據(jù)(LOD)項(xiàng)目和大型的基于 RDF 的知識(shí)庫(kù)(例如,DBPedia、Freebase),并最終催生了 Wikidata。其中,LOD 項(xiàng)目展示了如何在大規(guī)模網(wǎng)絡(luò)上集成數(shù)據(jù)。

這些概念都在2007年的國(guó)際語(yǔ)義網(wǎng)絡(luò)會(huì)議(ISWC 2017)上被引入。在 2000 年代后期,主要的搜索引擎發(fā)布了「schema. org」作為一種提升網(wǎng)站語(yǔ)義標(biāo)注的方法,這個(gè)網(wǎng)站是建立在語(yǔ)義網(wǎng)絡(luò)研究社區(qū)的成果之上的。

另一方面,這十年見(jiàn)證了統(tǒng)計(jì)技術(shù)的繁榮。在這個(gè)層面上,我們可以看到數(shù)據(jù)處理和知識(shí)處理之間極度不平衡。由于知識(shí)處理(從數(shù)據(jù)中提取知識(shí))的驚人進(jìn)步,傳統(tǒng)的數(shù)據(jù)管理技術(shù)顯示出其局限性。這可能是在大數(shù)據(jù)世界中尋找存儲(chǔ)、管理和整合數(shù)據(jù)和知識(shí)的新形式的驅(qū)動(dòng)因素之一。這與知識(shí)圖譜概念的提出有很大關(guān)系。

在這十年間,人們實(shí)現(xiàn)了:

  • 我們學(xué)著從更宏大的視角(大規(guī)模網(wǎng)絡(luò))思考數(shù)據(jù)和知識(shí)的問(wèn)題。

  • 由于新型硬件和智能的學(xué)習(xí)技術(shù)的誕生,我們進(jìn)入了神經(jīng)網(wǎng)絡(luò)的時(shí)代。

當(dāng)時(shí)技術(shù)的局限性包括:

  • 并不知道如何將邏輯和統(tǒng)計(jì)的觀點(diǎn)結(jié)合起來(lái)。

  • (特別是神經(jīng)網(wǎng)絡(luò)中的)統(tǒng)計(jì)方法并不能提供有關(guān)「推理」或「演繹」的信息,這在對(duì)可解釋性有所要求的領(lǐng)域提出了挑戰(zhàn)。

參考文獻(xiàn)

主要文獻(xiàn)(鏈接見(jiàn)上文):

  • MapReduce: Simplified Data Processing on Large Clusters

  • Bigtable: A Distributed Storage System for Structured Data

  • Dynamo: Amazon’s Highly Available Key-value Store

  • Data Integration: A Theoretical Perspective

  • The Semantic Web

  • Imagenet classification with deep convolutional neural networks

六、我們現(xiàn)在處于怎樣的歷史方位?

縱觀這段歷史,我們可以觀察到兩條重要的發(fā)展脈絡(luò):

  • 大規(guī)模表征和管理數(shù)據(jù)。

  • 整合最多樣化、與眾不同且?guī)缀鯚o(wú)限量的數(shù)據(jù)和知識(shí)源(結(jié)構(gòu)化的數(shù)據(jù)文本、規(guī)則、圖像、語(yǔ)音、視頻等)。

此外,所有這些都必須對(duì)于「普通」用戶(hù)是可以獲取和訪(fǎng)問(wèn)的。

2012 年,谷歌發(fā)布了一款名為「知識(shí)圖譜」的產(chǎn)品,它基于將數(shù)據(jù)表征為與知識(shí)相連的圖。知識(shí)圖譜的概念指出了這一需求。 事實(shí)上,我們可以認(rèn)為它是一個(gè)不斷發(fā)展的項(xiàng)目、設(shè)想中的遠(yuǎn)景,而不僅僅是一個(gè)精確的概念或系統(tǒng)。可以說(shuō),這樣的產(chǎn)品是語(yǔ)義網(wǎng)絡(luò)計(jì)劃的具體實(shí)現(xiàn)。

知識(shí)圖譜的誕生使得了其它類(lèi)型的「圖」服務(wù)如雨后春筍般涌現(xiàn)了出來(lái)。例如,2013年 Facebook 發(fā)布了他們的圖搜索服務(wù),該服務(wù)也包含了類(lèi)似的想法,基本上呈現(xiàn)了一個(gè)虛擬圖,它整合了針對(duì)主題和實(shí)體的已經(jīng)編譯的數(shù)據(jù)。此外,我們還看到了來(lái)自微軟、Facebook、亞馬遜、Ebay 等巨頭的「知識(shí)圖譜」類(lèi)服務(wù)[36]。

后來(lái),無(wú)以計(jì)數(shù)的公司和組織開(kāi)始使用知識(shí)圖譜關(guān)鍵詞來(lái)指代由實(shí)體和關(guān)系構(gòu)成的圖的數(shù)據(jù)集成方式 [37]。學(xué)術(shù)界開(kāi)始使用這個(gè)關(guān)鍵詞來(lái)指定一類(lèi)條件較為寬泛的系統(tǒng),這些系統(tǒng)將數(shù)據(jù)與一些圖結(jié)構(gòu)結(jié)合在一起,是語(yǔ)義網(wǎng)絡(luò)和關(guān)聯(lián)數(shù)據(jù)的「涅槃重生」。

與此同時(shí),各種公司和學(xué)術(shù)機(jī)構(gòu)正在開(kāi)發(fā)圖數(shù)據(jù)庫(kù)技術(shù)。 例如,幾乎所有公司基于 RDF 和 SPARQL 建立的數(shù)據(jù)庫(kù),如 Virtuoso、Allegrograph、Ontotext、Stardog、Amazon Neptune 等;Neo4j 及其使用的語(yǔ)言 Cypher;Oracle 及其使用的語(yǔ)言 PGQL;以及像 G-CORE 這樣的研究查詢(xún)語(yǔ)言。

今天,我們有幸見(jiàn)證統(tǒng)計(jì)方法和邏輯方法的融合,前者在公眾眼中勢(shì)不可擋,在某種程度上讓后者顯得黯淡無(wú)光:這就是為什么我們認(rèn)為有必要喚起人們對(duì)這段歷史的關(guān)注。

隨著機(jī)器和深度學(xué)習(xí)如「海嘯」般襲來(lái),重新喚起人們對(duì)數(shù)據(jù)和知識(shí)的意義的認(rèn)識(shí)至關(guān)重要。盡管過(guò)去的這些思想和發(fā)展在當(dāng)時(shí)并不成功,不廣為人知,甚至根本不為人所知,但它們蘊(yùn)含著豐富的思考,可以對(duì)未來(lái)的研究有所啟發(fā),照亮我們前進(jìn)的道路!

參考文獻(xiàn)

[1] Nevertheless, there exist works on related topics  and focused periods, e.g.: F. Gandon (2018) A Survey of the First 20 Years of Research on Semantic Web and Linked Data and L. Poirier (2017) A Turn for the Scruffy: An Ethnographic Study of Semantic Web Architecture (we thank Frank van Harmelen for these references).

[2] Stuart Russel, Peter Norvig. Artificial Intelligence, A Modern Approach. 1995. Chp. 1.2, 1.3.

[3] An example of ancient times data processing are the Quipus, the knot-based devices Inca civilization used to collect and keep track of records of data.

[4] The writer J. L. Borges once pointed out the arbitrariness of what he called the “obsession with the base 10”.

[5] Robinson, J. Alan (1965). "A Machine-Oriented Logic Based on the Resolution Principle". Journal of the ACM. 12 (1): 23–41

[6] Green, C. C., and Raphael, B., The Use of Theorem-Proving Techniques in Question-Answering Systems, in: Proceedings of the 23rd ACM National Conference, Washington, DC, 1968.

[7] Raghu Ramakrishnan, Jeffrey D. Ullman, A survey of deductive database systems,

The Journal of Logic Programming, Volume 23, Issue 2, 1995, Pages 125-149. Historical Overview in Section 5.

[8] Ceruzzi, History of Modern Computing, MIT Press, 1998. p. 89

[9] Charles W. Bachman. The Origin of the Integrated Data Store (IDS): The First Direct-Access DBMS.  IEEE Annals of the History of Computers, 2009, vol. 31, pp. 42-54.

[10] Richens, "Preprogramming for mechanical translation," Mechanical Translation 3 (1), July 1956, 20–25.. See Page 23

[11] Ross Quillian, PhD dissertation, Carnegie Inst. of Technology, now CMU, 1967.

[12] INGRES (INteractive Graphics REtrieval SystemPostgres) led to POSTGRES (POST inGRES) and later evolved into PostgreSQL.

[13] Shapiro, Stuart C. (1971), "A Net Structure for Semantic Information Storage, Deduction, and Retrieval", Proceedings of the 2nd International Joint Conference on Artificial Intelligence (Los Altos, CA: Morgan Kaufmann): 512–523.         

[14] Shortliffe, E. Computer-Based Medical Consultations: MYCIN

[15] S. Heller, U. Daval, J. Orenstein, S. Radke-Sproull. An object-oriented approach to data management: why design databases need it. Proceeding DAC '87 Proceedings of the 24th ACM/IEEE Design Automation Conference Pages 335-340

[16] Harel, D. (1988), On Visual Formalisms, Communications of the ACM, Volume 31, Number 5

[17] (1) Cruz, I. F., Mendelzon A. O., and Wood, P. T. A graphical query language supporting recursion. In Proc. ACM SIGMOD, pages 323–330, 1987. (2) Mariano P. Consens, Alberto O. Mendelzon. GraphLog: a visual formalism for real life recursion. PODS '90, pp. 404-416. (3) See Peter Wood’s PhD Thesis

[18] R. Angles, C. Gutierrez. Survey of Graph Databases Models.

[19] Harold Boley, Operations on Nets. Computers & Mathematics with Applications Volume 23, Issues 6–9. 1992

[20] R. Brachman. The Future of Knowledge Representation. AAAI-90.

[21] Given the popularity of LISP in the United States, the Japanese decided to adopt the European’s Prolog, given that they competed against the Americans. The relationship between US and Japan in the 80s was very tense.

[22] Computer Consortium Lags. NY Times. 1984 and Plugged In: 30 years ago, MCC consortium helped ‘put Austin on the technology map’ Statesman. 2013

[23] Douglas B. Lenat:  CYC: A Large-Scale Investment in Knowledge Infrastructure. Commun. ACM 38(11): 32-38 (1995) , Douglas B. Lenat and R. V. Guha.
Building Large Knowledge-Based Systems; Representation and Inference in the Cyc Project (1st ed.).  Addison-Wesley 1990

[24] This algorithm was developed by Charles Forgy in his PhD  during the late 70s, and it is still the defacto algorithm for rule based systems today.

[25] Edward Feigenbaum was a founder, which commercialized the expert system Knowledge Engineering Environment (KEE) which was influenced by MYCIN

[26] Jennifer Widom claims that Deductive is at a higher level of abstraction while Active is at a lower.

[27] Unthinkable without a universal platform to access data.

[28] See all the work by Alberto Mendelzon on this topic 

[29] G. Wiederhold. Mediators in the architecture of future information systems 

[30] The term “Ontology-based data access” (OBDA) is a reincarnation of much of the data integration work from the 90s but with semantic web and graph clothes and with further understanding of the Description Logic which was not well understood in the 90s.

[31] Surajit Chaudhuri and Umeshwar Dayal. 1997. An overview of data warehousing and OLAP technology. SIGMOD Rec. 26, 1 (March 1997) and “Implementing Data Cubes Efficiently”

[32] Decker S., Erdmann M., Fensel D., Studer R. (1999) Ontobroker: Ontology Based Access to Distributed and Semi-Structured Information. In: Meersman R., Tari Z., Stevens S. (eds) Database Semantics

[33] https://www.ercim.eu/publication/Ercim_News/enw51/EN51.pdf

[34] Mapreduce has received criticism from the database community due to its lack of novelty. Additionally, the map and reduce functions on cluster of machines can be traced back to parallel expert systems such as DADO and Connection Machine covered in the previous chapter.

[35] Researchers studied the semantic web from a foundational point of view. Notably, Alberto Mendelezon, who had already been working on graphs during the previous 20 years, made a point to study the semantic web in “Foundations of Semantic Web Databases”. We see other work such as “Semantics and Complexity of SPARQL”, “The Expressive Power of SPARQL”, among others.

[36] Noy et al. Industry-Scale Knowledge Graphs: Lessons and Challenges. Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43

[37] https://www.slideshare.net/Frank.van.Harmelen/adoption-of-knowledge-graphs-late-2019 

via http://knowledgegraph.today/paper.html   雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

以史為鑒:從數(shù)字計(jì)算機(jī)到知識(shí)圖譜的這 60 多年

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)