0
本文作者: camel | 2019-12-16 20:01 |
“我認(rèn)為,知識(shí)圖譜是企業(yè)下一代管理數(shù)據(jù)的一種新的組織方式,能夠更高效的連接上游的大數(shù)據(jù)和下游的AI建模任務(wù)。
企業(yè)最初數(shù)據(jù)量少、結(jié)構(gòu)單一的時(shí)候,用MySQL這樣的結(jié)構(gòu)化數(shù)據(jù)庫(kù)就夠了;再后來(lái)數(shù)據(jù)量越來(lái)越多、業(yè)務(wù)系統(tǒng)越來(lái)越復(fù)雜,就需要分布式數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市來(lái)管理數(shù)據(jù)資產(chǎn)。這類(lèi)數(shù)據(jù)都需要事先定義好結(jié)構(gòu)。但在大數(shù)據(jù)時(shí)代,你不可能事先將數(shù)據(jù)的結(jié)構(gòu)定義好,于是很多企業(yè)開(kāi)始利用像 Hadoop 等來(lái)搭建大數(shù)據(jù)平臺(tái),以NOSQL的方式存儲(chǔ)那些事先無(wú)法定義的數(shù)據(jù)。但這些數(shù)據(jù)之間如何有效關(guān)聯(lián)?例如,當(dāng)一些查找稍微深度(例如四、五度或出現(xiàn)隱形關(guān)系),這就需要利用知識(shí)圖譜進(jìn)行數(shù)據(jù)組織了。”
在近期雷鋒網(wǎng) AI科技評(píng)論對(duì)張杰博士進(jìn)行的采訪中,張杰如是回答了他對(duì)知識(shí)圖譜未來(lái)發(fā)展的看法。
張杰博士是明略科技資深科學(xué)家,明略科學(xué)院知識(shí)工程實(shí)驗(yàn)室主任,加入明略科技后便一直在負(fù)責(zé)明略科技“行業(yè)知識(shí)圖譜”的研究和搭建工作,在此之前曾在華為中央研究院從事機(jī)器學(xué)習(xí)方面的研究工作。
張杰提到:“在我們內(nèi)部,我們認(rèn)為知識(shí)圖譜是企業(yè)下一代的數(shù)據(jù)倉(cāng)庫(kù)。它的優(yōu)點(diǎn)除了能夠高效地進(jìn)行深度關(guān)系查詢外,還能圖譜基礎(chǔ)之上做一些推廣,通過(guò)引入常識(shí)知識(shí)和領(lǐng)域知識(shí),由已有的知識(shí)產(chǎn)生新的知識(shí)?!?
雷鋒網(wǎng)AI科技評(píng)論認(rèn)為這是一個(gè)有趣的觀點(diǎn)。
數(shù)據(jù)倉(cāng)庫(kù)的概念最早是在1990年由 比爾·恩門(mén)(Bill Inmon)提出。這里需要區(qū)別數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)之間的不同。
數(shù)據(jù)庫(kù)是一種邏輯概念,用來(lái)存放數(shù)據(jù),由多表組成,目前市面上流行的數(shù)據(jù)庫(kù)例如有 Oracle、DB2、MySQL、Sybase、MS SQL Server等。
而數(shù)據(jù)倉(cāng)庫(kù)則是數(shù)據(jù)庫(kù)概念的升級(jí)。從邏輯上理解,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)沒(méi)有區(qū)別,都是通過(guò)數(shù)據(jù)庫(kù)軟件實(shí)現(xiàn)存放數(shù)據(jù)的地方;只不過(guò)從數(shù)據(jù)量來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)要比數(shù)據(jù)庫(kù)更龐大得多。數(shù)據(jù)倉(cāng)庫(kù)主要用于數(shù)據(jù)挖掘和數(shù)據(jù)分析,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
在比爾的著作《Building the Data Warehouse》一書(shū)中,他將數(shù)據(jù)倉(cāng)庫(kù)定義為:
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
這種組織數(shù)據(jù)方式(即面向業(yè)務(wù)過(guò)程的數(shù)據(jù)組織方式),通俗來(lái)說(shuō),就是將數(shù)據(jù)物理集中在一起。從存儲(chǔ)的角度來(lái)看,數(shù)據(jù)就是一張張獨(dú)立的表結(jié)構(gòu),如常用的會(huì)員表、訂單表等,表與表之間無(wú)法在數(shù)據(jù)層面整合到一起,需要通過(guò)外在的輔助工具才能進(jìn)行邏輯與數(shù)據(jù)梳理,因此這種形式又被稱為物理集中,而不是邏輯集中。
這種傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),其優(yōu)勢(shì)在于統(tǒng)計(jì)性報(bào)表,能夠高效地進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。
但其缺點(diǎn)正如前面張杰博士所提到的:
1)對(duì)于這種結(jié)構(gòu)化的數(shù)據(jù),需要提前定義好結(jié)構(gòu)(清楚地知道數(shù)據(jù)的格式和關(guān)系),且在添加數(shù)據(jù)的過(guò)程中很難改變結(jié)構(gòu)。這種結(jié)構(gòu)化的數(shù)據(jù)價(jià)值密度比較高,但在大數(shù)據(jù)時(shí)代我們不可能把所有的數(shù)據(jù)事先定義好,因此也就無(wú)法利用目前互聯(lián)網(wǎng)中出現(xiàn)的大量非結(jié)構(gòu)化的數(shù)據(jù)。
2)針對(duì)1)中的情況,目前也有很多企業(yè)使用像Hadoop這種分布式處理框架來(lái)開(kāi)發(fā)大數(shù)據(jù)平臺(tái),這可以存儲(chǔ)一些事先定義不好的、量特別大的、或結(jié)構(gòu)化數(shù)據(jù)庫(kù)不好索引的數(shù)據(jù)。但這些數(shù)據(jù)之間如何有效關(guān)聯(lián),如何進(jìn)行深度查詢依然存在困難。例如通過(guò)結(jié)構(gòu)化的或大數(shù)據(jù)平臺(tái)的數(shù)倉(cāng),可以勝任一度關(guān)系、二度關(guān)系的查詢,但涉及到四度、五度或者隱形關(guān)系查詢時(shí),就會(huì)非常困難。
知識(shí)圖譜最早是在2012年由谷歌提出的一個(gè)概念,但事實(shí)上在很早就已經(jīng)有了相關(guān)的研究(稱為知識(shí)工程)。
知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。知識(shí)圖譜也是“關(guān)系”的最有效的表示方式。通俗地講,知識(shí)圖譜就是把所有不同種類(lèi)的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。
張杰表示:“在知識(shí)組織層面上,圖譜化將是企業(yè)進(jìn)行數(shù)據(jù)管理的未來(lái)趨勢(shì)?!?/p>
一方面,它便于將客戶已有的結(jié)構(gòu)化知識(shí)做更深的度數(shù)上的關(guān)聯(lián),同時(shí)保證查詢效率,深度關(guān)聯(lián)是傳統(tǒng)數(shù)倉(cāng)的技術(shù)框架下不善于實(shí)現(xiàn)的。另一方面可以幫助客戶從來(lái)自于物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等海量的非結(jié)構(gòu)化數(shù)據(jù)中抽取出知識(shí)片段,從而拓展客戶的數(shù)據(jù)維度,增大知識(shí)儲(chǔ)量,釋放出大數(shù)據(jù)紅利。
而在知識(shí)表示層面上,知識(shí)圖譜則是上游大數(shù)據(jù)和下游AI任務(wù)的有效連接。圖譜化之后的知識(shí)便于進(jìn)一步的語(yǔ)義化,知識(shí)碎片關(guān)聯(lián)起來(lái)形成圖譜之后,更多關(guān)聯(lián)信息意味著更加豐富的語(yǔ)義信息。
經(jīng)過(guò)適當(dāng)?shù)囊氤WR(shí)知識(shí)和領(lǐng)域知識(shí),可以對(duì)圖譜中的節(jié)點(diǎn)和關(guān)系做向量化處理,進(jìn)而突破以往基于字符串匹配的淺層語(yǔ)義,更加便利、有效的幫助客戶組織領(lǐng)域知識(shí),為流程優(yōu)化、輔助決策、預(yù)測(cè)分析等下游應(yīng)用提供基礎(chǔ)服務(wù)。
明略科技在這方面有足夠多的構(gòu)想和實(shí)踐。例如在知識(shí)表示方面,目前明略科技聚焦于如下幾個(gè)研究問(wèn)題:帶有部分屬性和標(biāo)簽的靜態(tài)圖譜如何向量化表示,如何從動(dòng)態(tài)變化且不符合馬爾可夫性的圖譜中挖掘出事件間的因果關(guān)系,常識(shí)知識(shí)、領(lǐng)域知識(shí)、非結(jié)構(gòu)化碎片知識(shí)如何映射到相同的語(yǔ)義空間中,如何用統(tǒng)一的知識(shí)表示框架為下游的分類(lèi)、檢索、推薦、問(wèn)答等任務(wù)提供知識(shí)服務(wù)。
然而目前為止知識(shí)圖譜在成為數(shù)倉(cāng)的過(guò)程中,依然存在著研究上的和產(chǎn)業(yè)上的問(wèn)題。
在研究方面,有人曾對(duì)近幾年國(guó)際頂會(huì)上的相關(guān)工作做了全方位分析,他們發(fā)現(xiàn)在知識(shí)圖譜落地過(guò)程中的每個(gè)環(huán)節(jié)都還存在各自的問(wèn)題:構(gòu)建層面,目前比較關(guān)注的包括弱監(jiān)督、遠(yuǎn)程監(jiān)督、自監(jiān)督、小樣本等抽取方案;推理層面,主要集中在圖神經(jīng)網(wǎng)絡(luò)、基于圖表示學(xué)習(xí)的研究等;知識(shí)建模層面,則有一些事理圖譜(這個(gè)是由哈工大首先提出的一種概念)、動(dòng)態(tài)知識(shí)圖譜、時(shí)序點(diǎn)過(guò)程的探索。
其次在產(chǎn)業(yè)應(yīng)用方面:
首先,對(duì)于構(gòu)建知識(shí)圖譜的“數(shù)倉(cāng)”,眼下最主要的問(wèn)題是大規(guī)模、低時(shí)延下的效率問(wèn)題。目前企業(yè)所能掌握的關(guān)系數(shù)據(jù)一般都在千萬(wàn)到百億節(jié)點(diǎn)的規(guī)模,未來(lái)隨著5G和物聯(lián)網(wǎng)的普及,其規(guī)模會(huì)更大,而且很多場(chǎng)景下要求在秒級(jí)甚至毫秒級(jí)返回查詢結(jié)果。這不光是對(duì)底層圖數(shù)據(jù)庫(kù)的挑戰(zhàn),很多上層AI任務(wù)的算法要配合中層的圖挖掘算法和更底層的圖數(shù)據(jù)庫(kù)操作算子一起做跨層聯(lián)合的并行化優(yōu)化。
另外一個(gè)挑戰(zhàn)是知識(shí)完備性問(wèn)題,使用知識(shí)圖譜的目的,除了讓它做為一種中間態(tài)的數(shù)據(jù)服務(wù)之外,還期待能引入常識(shí)知識(shí)和領(lǐng)域知識(shí),在大規(guī)模數(shù)據(jù)中做自動(dòng)推理和補(bǔ)全,當(dāng)圖譜中的知識(shí)未達(dá)到一定的量級(jí)和豐富度之前,推理的準(zhǔn)確度很難保證甚至難以開(kāi)展,兩者之間不是線性關(guān)系。
此外,也有人提到,現(xiàn)在越來(lái)越多的應(yīng)用,其輸入不僅限于文本,還會(huì)有圖片、音頻、視頻等多模態(tài)的內(nèi)容,如何為多模態(tài)的知識(shí)圖譜構(gòu)建提供一個(gè)比較好的解決方案,在未來(lái)一段時(shí)間里依然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
因此,張杰博士作為補(bǔ)充也指出,“知識(shí)圖譜不是替換數(shù)據(jù)倉(cāng)庫(kù),而是作為數(shù)據(jù)倉(cāng)庫(kù)的有效互補(bǔ)?!?/p>
雷鋒網(wǎng)報(bào)道。
參考文章:
[1] 百度百科, https://baike.baidu.com/item/數(shù)據(jù)倉(cāng)庫(kù)
[2] 數(shù)據(jù)庫(kù) 與 數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)區(qū)別是什么?,知乎問(wèn)答,https://www.zhihu.com/question/20623931
[3] 機(jī)器之心 Pro, https://www.jiqizhixin.com/graph/technologies/6e896233-3f15-47a4-9b2e-479d7cc5478b
[4] 知識(shí)圖譜的下一步:知識(shí)指導(dǎo)的預(yù)訓(xùn)練模型和圖神經(jīng)網(wǎng)絡(luò), 蔡芳芳, https://www.infoq.cn/article/OfDP3jgOaZlg7ogmfEwk
[5] 知識(shí)圖譜 + 數(shù)據(jù)中臺(tái),會(huì)是未來(lái)中臺(tái)戰(zhàn)略的答案嗎?, 佘磊, https://www.infoq.cn/article/DGJb0z4jKw8jzyf90dAE
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。