0
本文作者: 李勤 | 2018-02-10 09:17 |
知識圖譜能夠把復(fù)雜的知識領(lǐng)域通過語義匹配,數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律,為研究和決策提供切實的、有價值的參考。
因此,當(dāng)知識圖譜應(yīng)用于信息資產(chǎn)安全威脅的發(fā)現(xiàn)與分析時,能夠顯著提升發(fā)現(xiàn)資產(chǎn)安全威脅的效率和準(zhǔn)確率,為企業(yè)安全人員的威脅分析提供決策依據(jù)。
本次雷鋒網(wǎng)硬創(chuàng)公開課,北京數(shù)字觀星科技有限公司創(chuàng)始人郭亮分享了如何利用知識圖譜,對企業(yè)信息資產(chǎn)面臨的安全威脅,進(jìn)行構(gòu)建、繪制、挖掘以及分析的實踐經(jīng)驗。
郭亮,北京數(shù)字觀星科技有限公司創(chuàng)始人,超過20年大型業(yè)務(wù)信息系統(tǒng)安全運營管理經(jīng)驗,曾擔(dān)任過國家發(fā)改委多個重大技術(shù)專項課題的技術(shù)負(fù)責(zé)人。
以下為雷鋒網(wǎng)該演講提要,要想獲取完整內(nèi)容,請移步視頻回放區(qū):http://www.mooc.ai/course/443/learn#lesson/2420。
1.知識圖譜
Google于2012年首先提出了知識圖譜(Knowledge Graph)概念,目的在于描述真實世界中存在的各種實體、概念,以及它們之間的關(guān)聯(lián)關(guān)系,大幅改善搜索體驗。
本質(zhì)上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關(guān)系,其構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖,節(jié)點表示實體或概念,邊則由屬性或關(guān)系構(gòu)成。
知識是一個內(nèi)涵非常豐富的概念;知識廣泛存在于社會各個領(lǐng)域??茖W(xué)知識圖譜廣義上包括:生物的基因圖譜、教育教學(xué)中的認(rèn)知地圖、探索太空的天體圖、描繪地形的GIS、模擬人腦的神經(jīng)網(wǎng)絡(luò)圖、各種金屬圖譜等。
知識圖譜是以科學(xué)知識為對象,顯示學(xué)科的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖形,具有“圖”和“譜”的雙重性質(zhì)與特征。
2.知識圖譜的3種節(jié)點:
實體: 指的是具有可區(qū)別性且獨立存在的某種事物。如某一個人、某一個城市、某一種植物等、某一種商品等等。世界萬物有具體事物組成,此指實體。如圖1的“中國”、“美國”、“日本”等。,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關(guān)系。
語義類(概念):具有同種特性的實體構(gòu)成的集合,如國家、民族、書籍、電腦等。 概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。
內(nèi)容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達(dá)。
基于上述定義?;谌M是知識圖譜的一種通用表示方式,即,其中,是知識庫中的實體集合,共包含|E|種不同實體; 是知識庫中的關(guān)系集合,共包含|R|種不同關(guān)系;代表知識庫中的三元組集合。三元組的基本形式主要包括(實體1-關(guān)系-實體2)和(實體-屬性-屬性值)等。
每個實體(概念的外延)可用一個全局唯一確定的ID來標(biāo)識,每個屬性-屬性值對(attribute-value pair,AVP)可用來刻畫實體的內(nèi)在特性,而關(guān)系可用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。如下圖1的知識圖譜例子所示,中國是一個實體,北京是一個實體,中國-首都-北京 是一個(實體-關(guān)系-實體)的三元組樣例北京是一個實體 ,人口是一種屬性2069.3萬是屬性值。北京-人口-2069.3萬構(gòu)成一個(實體-屬性-屬性值)的三元組樣例。
3.知識圖譜的構(gòu)建
包括3個步驟:
信息抽取,即從各種類型的數(shù)據(jù)源中提取出實體(概念)、屬性以及實體撿的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá)
知識融合,在獲得新知識后,需要對其進(jìn)行整合,以消除矛盾和歧義,比如某些實體可能有多種表達(dá),某個特定稱謂也許對應(yīng)于多個不同的實體等
知識加工,對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量,新增數(shù)據(jù)之后,可以進(jìn)行知識推理、拓展現(xiàn)有知識、得到新知識。
4.知識樣本數(shù)據(jù)的獲取
傳統(tǒng)靜態(tài)知識
主要數(shù)據(jù)來源:Web of Science
科學(xué)文獻(xiàn)數(shù)據(jù):(SCI) (SSCI)
專利文獻(xiàn)數(shù)據(jù):德溫特創(chuàng)新索引DII
國際會議文獻(xiàn)數(shù)據(jù):(CPCI)
國內(nèi)數(shù)據(jù)庫:CNKI、CSSCI、CSCD、萬方等
網(wǎng)絡(luò)數(shù)據(jù)源:Google Scholar、arXiv、CiteSeerX
動態(tài)知識
主要數(shù)據(jù)來源:事件數(shù)據(jù)
另外還有Scopus,Science Direct
設(shè)備可讀取以及可輸出的異常數(shù)據(jù)
4.樣本數(shù)據(jù)的梳理
基于數(shù)據(jù)進(jìn)行知識可視化的質(zhì)量、合理性和可靠性很大程度上依賴于所用數(shù)據(jù)的精確性和全面性,不準(zhǔn)確或不全面的數(shù)據(jù)往往造成不精確甚至錯誤的結(jié)果。即使目前最權(quán)威、公認(rèn)質(zhì)量最高的WoS,也存在數(shù)據(jù)著錄格式(如人名和地名的不統(tǒng)一)和遺漏的問題。
5.數(shù)據(jù)標(biāo)準(zhǔn)化
為便于可視化,對簡單地頻次計算的單元數(shù)據(jù),標(biāo)準(zhǔn)化常常通過數(shù)據(jù)間的相似度測量。主要有兩大類:一是集合論方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Inclusion 指數(shù)和Jaccard指數(shù);二是概率論方法(Probabilistic measure),主要有合力指數(shù)(Association Strength)和概率親和力指數(shù)(Probabilistic Af?nity)
6.數(shù)據(jù)分析-簡化分析
因子分析以較少幾個因子描述許多指標(biāo)或因素間關(guān)系,即把較密切的變量歸在同一類,每類變量成為一個因子,以少量的因子反映原資料中大部分信息。
7.在知識圖譜的解讀過程中,常常需要對圖譜進(jìn)行相應(yīng)操作,包括瀏覽、放大、縮小、過濾、查尋、關(guān)聯(lián)和按需移動等。主要從以下幾方面著手:網(wǎng)絡(luò)分析、歷時分析、空間分析、突變檢測
資產(chǎn)數(shù)字化是趨勢,每個資產(chǎn)都有其特征;威脅是數(shù)字的表征,威脅數(shù)據(jù)有其特征
分三步:
第一步,先把企業(yè)開展工作需要哪些關(guān)鍵知識識別出來,找到源頭,不管是企業(yè)內(nèi)部的還是外部的,不管是數(shù)據(jù)庫、文檔庫還是網(wǎng)頁,都匯聚起來;
第二步,是通過知識圖譜,讓系統(tǒng)能“認(rèn)識理解”這些數(shù)字和文字代表的含義,把各個源頭的知識抽取出來,把知識和人都關(guān)聯(lián)起來,形成一張知識網(wǎng);
第三步,讓知識圍繞業(yè)務(wù)轉(zhuǎn)起來,實現(xiàn)智能化應(yīng)用,包括語義搜索、個性化推薦、智能問答、協(xié)同研究、決策支持等等
要想獲取雷鋒網(wǎng)該公開課演講的完整內(nèi)容,請移步視頻回放區(qū):http://www.mooc.ai/course/443/learn#lesson/2420。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。