丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給camel
發(fā)送

0

知識圖譜,能否成為企業(yè)下一代的數(shù)據倉庫?

本文作者: camel 2019-12-16 20:01
導語:不是替換,而是有效互補~

“我認為,知識圖譜是企業(yè)下一代管理數(shù)據的一種新的組織方式,能夠更高效的連接上游的大數(shù)據和下游的AI建模任務。

企業(yè)最初數(shù)據量少、結構單一的時候,用MySQL這樣的結構化數(shù)據庫就夠了;再后來數(shù)據量越來越多、業(yè)務系統(tǒng)越來越復雜,就需要分布式數(shù)據庫、數(shù)據倉庫、數(shù)據集市來管理數(shù)據資產。這類數(shù)據都需要事先定義好結構。但在大數(shù)據時代,你不可能事先將數(shù)據的結構定義好,于是很多企業(yè)開始利用像 Hadoop 等來搭建大數(shù)據平臺,以NOSQL的方式存儲那些事先無法定義的數(shù)據。但這些數(shù)據之間如何有效關聯(lián)?例如,當一些查找稍微深度(例如四、五度或出現(xiàn)隱形關系),這就需要利用知識圖譜進行數(shù)據組織了?!?/p>

在近期雷鋒網 AI科技評論對張杰博士進行的采訪中,張杰如是回答了他對知識圖譜未來發(fā)展的看法。

張杰博士是明略科技資深科學家,明略科學院知識工程實驗室主任,加入明略科技后便一直在負責明略科技“行業(yè)知識圖譜”的研究和搭建工作,在此之前曾在華為中央研究院從事機器學習方面的研究工作。

張杰提到:“在我們內部,我們認為知識圖譜是企業(yè)下一代的數(shù)據倉庫。它的優(yōu)點除了能夠高效地進行深度關系查詢外,還能圖譜基礎之上做一些推廣,通過引入常識知識和領域知識,由已有的知識產生新的知識?!?

雷鋒網AI科技評論認為這是一個有趣的觀點。

 知識圖譜,能否成為企業(yè)下一代的數(shù)據倉庫?


1、數(shù)倉


數(shù)據倉庫的概念最早是在1990年由 比爾·恩門(Bill Inmon)提出。這里需要區(qū)別數(shù)據庫和數(shù)據倉庫之間的不同。

數(shù)據庫是一種邏輯概念,用來存放數(shù)據,由多表組成,目前市面上流行的數(shù)據庫例如有 Oracle、DB2、MySQL、Sybase、MS SQL Server等。

而數(shù)據倉庫則是數(shù)據庫概念的升級。從邏輯上理解,數(shù)據庫和數(shù)據倉庫沒有區(qū)別,都是通過數(shù)據庫軟件實現(xiàn)存放數(shù)據的地方;只不過從數(shù)據量來說,數(shù)據倉庫要比數(shù)據庫更龐大得多。數(shù)據倉庫主要用于數(shù)據挖掘和數(shù)據分析,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。

在比爾的著作《Building the Data Warehouse》一書中,他將數(shù)據倉庫定義為:

數(shù)據倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據集合,用于支持管理決策。

這種組織數(shù)據方式(即面向業(yè)務過程的數(shù)據組織方式),通俗來說,就是將數(shù)據物理集中在一起。從存儲的角度來看,數(shù)據就是一張張獨立的表結構,如常用的會員表、訂單表等,表與表之間無法在數(shù)據層面整合到一起,需要通過外在的輔助工具才能進行邏輯與數(shù)據梳理,因此這種形式又被稱為物理集中,而不是邏輯集中。

這種傳統(tǒng)的數(shù)據倉庫,其優(yōu)勢在于統(tǒng)計性報表,能夠高效地進行數(shù)據統(tǒng)計。

但其缺點正如前面張杰博士所提到的:

1)對于這種結構化的數(shù)據,需要提前定義好結構(清楚地知道數(shù)據的格式和關系),且在添加數(shù)據的過程中很難改變結構。這種結構化的數(shù)據價值密度比較高,但在大數(shù)據時代我們不可能把所有的數(shù)據事先定義好,因此也就無法利用目前互聯(lián)網中出現(xiàn)的大量非結構化的數(shù)據。

2)針對1)中的情況,目前也有很多企業(yè)使用像Hadoop這種分布式處理框架來開發(fā)大數(shù)據平臺,這可以存儲一些事先定義不好的、量特別大的、或結構化數(shù)據庫不好索引的數(shù)據。但這些數(shù)據之間如何有效關聯(lián),如何進行深度查詢依然存在困難。例如通過結構化的或大數(shù)據平臺的數(shù)倉,可以勝任一度關系、二度關系的查詢,但涉及到四度、五度或者隱形關系查詢時,就會非常困難。

知識圖譜,能否成為企業(yè)下一代的數(shù)據倉庫?


2、知識圖譜


知識圖譜最早是在2012年由谷歌提出的一個概念,但事實上在很早就已經有了相關的研究(稱為知識工程)。

知識圖譜本質上是語義網絡,是一種基于圖的數(shù)據結構,由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關系”。知識圖譜也是“關系”的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網絡。

張杰表示:“在知識組織層面上,圖譜化將是企業(yè)進行數(shù)據管理的未來趨勢。”

知識圖譜,能否成為企業(yè)下一代的數(shù)據倉庫? 一方面,它便于將客戶已有的結構化知識做更深的度數(shù)上的關聯(lián),同時保證查詢效率,深度關聯(lián)是傳統(tǒng)數(shù)倉的技術框架下不善于實現(xiàn)的。另一方面可以幫助客戶從來自于物聯(lián)網、互聯(lián)網等海量的非結構化數(shù)據中抽取出知識片段,從而拓展客戶的數(shù)據維度,增大知識儲量,釋放出大數(shù)據紅利。

而在知識表示層面上,知識圖譜則是上游大數(shù)據和下游AI任務的有效連接。圖譜化之后的知識便于進一步的語義化,知識碎片關聯(lián)起來形成圖譜之后,更多關聯(lián)信息意味著更加豐富的語義信息。

經過適當?shù)囊氤WR知識和領域知識,可以對圖譜中的節(jié)點和關系做向量化處理,進而突破以往基于字符串匹配的淺層語義,更加便利、有效的幫助客戶組織領域知識,為流程優(yōu)化、輔助決策、預測分析等下游應用提供基礎服務。

明略科技在這方面有足夠多的構想和實踐。例如在知識表示方面,目前明略科技聚焦于如下幾個研究問題:帶有部分屬性和標簽的靜態(tài)圖譜如何向量化表示,如何從動態(tài)變化且不符合馬爾可夫性的圖譜中挖掘出事件間的因果關系,常識知識、領域知識、非結構化碎片知識如何映射到相同的語義空間中,如何用統(tǒng)一的知識表示框架為下游的分類、檢索、推薦、問答等任務提供知識服務。

知識圖譜,能否成為企業(yè)下一代的數(shù)據倉庫?

3、困難

然而目前為止知識圖譜在成為數(shù)倉的過程中,依然存在著研究上的和產業(yè)上的問題。

在研究方面,有人曾對近幾年國際頂會上的相關工作做了全方位分析,他們發(fā)現(xiàn)在知識圖譜落地過程中的每個環(huán)節(jié)都還存在各自的問題:構建層面,目前比較關注的包括弱監(jiān)督、遠程監(jiān)督、自監(jiān)督、小樣本等抽取方案;推理層面,主要集中在圖神經網絡、基于圖表示學習的研究等;知識建模層面,則有一些事理圖譜(這個是由哈工大首先提出的一種概念)、動態(tài)知識圖譜、時序點過程的探索。

其次在產業(yè)應用方面:

首先,對于構建知識圖譜的“數(shù)倉”,眼下最主要的問題是大規(guī)模、低時延下的效率問題。目前企業(yè)所能掌握的關系數(shù)據一般都在千萬到百億節(jié)點的規(guī)模,未來隨著5G和物聯(lián)網的普及,其規(guī)模會更大,而且很多場景下要求在秒級甚至毫秒級返回查詢結果。這不光是對底層圖數(shù)據庫的挑戰(zhàn),很多上層AI任務的算法要配合中層的圖挖掘算法和更底層的圖數(shù)據庫操作算子一起做跨層聯(lián)合的并行化優(yōu)化。

另外一個挑戰(zhàn)是知識完備性問題,使用知識圖譜的目的,除了讓它做為一種中間態(tài)的數(shù)據服務之外,還期待能引入常識知識和領域知識,在大規(guī)模數(shù)據中做自動推理和補全,當圖譜中的知識未達到一定的量級和豐富度之前,推理的準確度很難保證甚至難以開展,兩者之間不是線性關系。

此外,也有人提到,現(xiàn)在越來越多的應用,其輸入不僅限于文本,還會有圖片、音頻、視頻等多模態(tài)的內容,如何為多模態(tài)的知識圖譜構建提供一個比較好的解決方案,在未來一段時間里依然是一個具有挑戰(zhàn)性的問題。

因此,張杰博士作為補充也指出,“知識圖譜不是替換數(shù)據倉庫,而是作為數(shù)據倉庫的有效互補?!?/p>

雷鋒網報道。

參考文章:

[1] 百度百科, https://baike.baidu.com/item/數(shù)據倉庫

[2] 數(shù)據庫 與 數(shù)據倉庫的本質區(qū)別是什么?,知乎問答,https://www.zhihu.com/question/20623931

[3] 機器之心 Pro, https://www.jiqizhixin.com/graph/technologies/6e896233-3f15-47a4-9b2e-479d7cc5478b

[4] 知識圖譜的下一步:知識指導的預訓練模型和圖神經網絡, 蔡芳芳,  https://www.infoq.cn/article/OfDP3jgOaZlg7ogmfEwk

[5] 知識圖譜 + 數(shù)據中臺,會是未來中臺戰(zhàn)略的答案嗎?, 佘磊, https://www.infoq.cn/article/DGJb0z4jKw8jzyf90dAE

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

知識圖譜,能否成為企業(yè)下一代的數(shù)據倉庫?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說