0
數字化時代,如何賦能數據開放?如何激活數據價值?
近日,在“西湖論劍?網路安全大會”上,安恒信息高級副總裁、首席科學家劉博就數字化轉型的實踐與思考,做了一些分享。
劉博在本次大會談道:安全的使命和價值已經發(fā)生了質的變化。之前大家理解的“安全”單純地指保護和保障,到目前新一代安全概念跟業(yè)務發(fā)展息息相關。在業(yè)務的發(fā)展的第一天企業(yè)就考慮:怎樣利用數據安全的技術更好地開展業(yè)務?
在劉博看來,一方面,網絡安全是一個基礎以保障我們的系統(tǒng),保障我們的應用能穩(wěn)定運行。另一方面,通過數據安全,作為一個助推器來幫助我們數字化改革更大膽地往前邁進,能讓我們更放心地開放數據。
最后,劉博表示期望在“十四五”期間,通過“網絡安全+數據安全”的技術可以賦能數據開放,更好地激活數據的價值。
安恒信息高級副總裁、首席科學家劉博
以下為劉博的演講全文,雷鋒網?鯨犀在不改變愿意的基礎上做出了編輯:
非常榮幸今天能有機會給大家分享我們在數據安全所做的一些工作,主要話題是怎么賦能數據開放,怎樣激活數據的價值。
我這里面主要想討論兩方面問題:(1)第一是網絡安全;(2)第二是數據安全。
網絡安全包括應用與系統(tǒng),傳統(tǒng)更多偏向于攻防的安全,漏洞類的安全。再到數據安全,很多時候是一個工具,不只是一個威脅檢測等,因為我有了相應的數據安全的技術,不管是從最簡單的脫敏也好,還是新一代的技術,剛才馮院士提到的同態(tài)加密或是密文搜索是為了更好地打造數字經濟的生態(tài)和應用。
(一)“網絡安全”保障系統(tǒng)和應用穩(wěn)步前行
我先簡單回顧一下,安恒信息從2016年做網絡安全態(tài)勢感知,或是叫網絡安全大腦。大概五年的時間,我先簡單回顧一下現(xiàn)在在關基保護或關基信息基礎設施保護著方面我們取得的一些進展。
首先,IPDR能力建設。無論是監(jiān)管還是企業(yè),先要具備一些點上的能力,但其實很多信息化發(fā)展比較好的單位或是行業(yè),IPDR的能力在建態(tài)勢感知之前就有了。
企業(yè)已經買了很多設備,企業(yè)的能力挺完善,缺的是一個網絡安全的大腦。在這里大腦分成兩個基礎的核心,一是數據中臺,一個是能力中臺。
數據中臺是指有很多的第三方的設備。無論是基于流量還是終端的,還是應用日志,怎樣將這些日至很好地整理起來,為建模服務?什么叫安全能力中臺?因為我們要開展安全運營,包括響應、處置等,上百臺到的安全設備操作,效率非常低,無法聯(lián)動,所以安全能力中臺非常關鍵,有了數據中臺,有了能力中臺,那我們就可以在這上面開發(fā),不僅僅是一家廠商,多家廠商可以開發(fā)各種各樣的我們稱之為智能應用,無論是分析研判還是通報預警還是指揮調度,從不同的維度可以感知到網絡安全的這樣一個風險,無論是內網、外網、賬號、漏洞等。
我們到目前為止應該服務于大概200多家的省市級監(jiān)管單位以及2500家的重大型的政企單位,這里簡單通過數字體現(xiàn)出我們現(xiàn)在建設的一些情況以及我們針對于關保所取得的目前已開發(fā)的模塊。
進入到我們“十四五”期間,還是有很多,并不是說網絡安全已經非常成熟了,所以從實戰(zhàn)的角度來講,從成熟度來講,打10分的話,很多處于3分4分,好一點到6分,這是與好一點的美國企業(yè)相比。
“十四五”期間,我們的目的是實現(xiàn)智能化,更重要的是實戰(zhàn)化,這里就包含了我們指揮協(xié)調系統(tǒng)以及全息檔案,全息檔案就是數據中臺很核心的一部分,包括資產的核心檔案以及系統(tǒng)的全息檔案等,包括新業(yè)態(tài)的安全,因為現(xiàn)在各行各業(yè)都在擁抱我們的云、大數據、物聯(lián)網、移動互聯(lián)網、工控等新業(yè)態(tài)的安全,再到掛圖作戰(zhàn),包括服務于我們的重大安保。
剛才講的是監(jiān)管,針對于企業(yè),我們怎么來開展的情況,企業(yè)的系統(tǒng)越來越復雜,特別針對中大型企業(yè),還有分支,現(xiàn)在簡單的一張圖來表示對于一個中大型的企業(yè),首先我們是有監(jiān)管單位的態(tài)勢感知,無論是行業(yè)的,還是我們省級監(jiān)管單位。再到行業(yè)的集團,我集團要有一個統(tǒng)一的安全中心,再到每個單位,也可以是一個區(qū)域性,也可以是一個單位的,某一個業(yè)務支撐部門要有自己的企業(yè)安全的大腦,所以我們往往會形成三級聯(lián)動,縱深防御,協(xié)同聯(lián)動的系統(tǒng)。
構建了這個系統(tǒng),它能體現(xiàn)什么樣的價值?如果我們有一個單位的企業(yè)大腦,再到行業(yè)或是集團,再到我們監(jiān)管的單位,我們能體現(xiàn)什么樣的價值?
我們來看一個具體的例子,這具體的例子就是我們在前天剛剛結束的在攻防演練過程當中所發(fā)現(xiàn)的一個實際例子。首先通過企業(yè)的,因為我們收集了全流量數據,我們發(fā)現(xiàn)0 Day攻擊,怎么那么容易逮到?作為一個0 Day攻擊,如果大家知道攻擊鏈或ATT&CK或是攻擊框架,0 Day,不可能每一步驟都利用0 Day,無論是攻擊的三步、五步、十步不可能都是0 Day,總有一些步驟是常規(guī)性的步驟。
因為我們有了全流量的流量或日志類數據,這絕不是系統(tǒng)自動發(fā)現(xiàn)的,人與工具結合起來可以及時地發(fā)現(xiàn)其中的一個線索,然后通過我們右邊大家看到的圖譜分析,通過圖譜分析關聯(lián)到它利用0 Day的邏輯,因為我們有全流量的Payload,所以我們可以通過人工分析的方式來看0 Day的攻擊邏輯,從而將IOC提煉這些,這是這一張圖索要表達的含義,這是一個企業(yè)或單位的中心,如果有了0 Day的IOC之后,如果沒有的話,這是縱深防御系統(tǒng),IOC加到我這里就好了,如果我們有上下級的關系,我就可以將下級單位的威脅給會聚到上面這一層,將一些IP信息脫敏掉,上傳到我們的威脅情報的中心,同時也可以從我們企業(yè)的云端威脅中心結合起來,形成一個商業(yè)的威脅知識庫,這就相當于兩級的情況。
有了行業(yè)的威脅知識庫就可以做到知識共享,也就是第三步,就可以實現(xiàn)協(xié)同防御,其實整個過程,我們在前面15天的攻防演練過程當中發(fā)現(xiàn)了好幾個案例,響應的時間在3小時之內可以提煉IOC,再上報,上報驗證完再下發(fā),策略同步下發(fā)到每一個下級單位,即使他沒有發(fā)現(xiàn)0 Day,但提前具備了預防能力,這是構建一個無論是二級還是三級的縱深防御的企業(yè)的安全大腦。
同時,剛才提到了服務于目前全球2500家中大型客戶,也取得了不錯的成果?;氐綌祿踩@一塊,網絡安全更多的是在保護Protect,數據安全是為了賦能,為了讓一些業(yè)務場景從之前的不敢做到現(xiàn)在的敢做,之前網絡安全是我有一個業(yè)務系統(tǒng),我來挑毛病,大家一直在講,網絡安全的工作者,網絡安全部門很多時候別人業(yè)務部門會稱我們?yōu)樘裘〉牟块T,但數據安全是完全不同的。
因為數據安全的事件產生的風險太多了,我就不一一詳細介紹了,無論是經濟利益的損失還是對于個人的損失,還是對于一個行業(yè)或國家的損失都是巨大的。
全國也非常重視,包括我國在內,現(xiàn)在已經全球107個國家和地區(qū)已制定了數據安全及隱私保護的相應的法律法規(guī)。
數據安全包含三方面:一是數據安全保護,首先我們內部在使用數據過程當中要保護好它。
第二是數據安全的開放,能否開放給我們的第三方,我們的合作伙伴,甚至開放給不認識的第三方,就像現(xiàn)在的支付系統(tǒng)一樣,我轉錢,交易給完全不認識的人,但還是可信的。
第三是數據安全的監(jiān)管,首先我們來看一下數據安全保護,我們結合著技術,現(xiàn)在也服務于多個省級及市級的大數據局,包括一些金融和教育,還有醫(yī)療的一些政企單位,首先要確立一個頂層設計,因為數據安全不能像網絡安全一樣添加很多,因為很多數據安全是一個串聯(lián)的設備,不論是脫敏還是加密還是剛才提到的溯源產品,這都是一些串聯(lián)產品。
第一,我們要確立一個頂層設計規(guī)劃,第二,梳理安全風險,從而根據頂層規(guī)劃來完善能力框。這里有很多簡單的問題:包括組織有多少個數據?數據是如何分布的?什么是敏感數據?首先定義什么是重要數據,很多知識產權的數據不是敏感數據,但是是重要數據,誰有權訪問這些數據,是否采用防護、監(jiān)控以及告警措施等,我們采用CAEP框架來幫助我們梳理數據安全的能力,應覆蓋到哪些方面。
系統(tǒng)化的東西非常多,我們簡單地通過幾個例子介紹一下我們認為數據安全的工作要怎樣開展,這一張圖看上去非常復雜,剛才馮院士也提到了,從數據的生產再到交換再到挖掘與銷毀,這里邊簡單列了一個非常簡化的數據庫系統(tǒng),或是數據應用系統(tǒng),包含了有應用區(qū),外部的應用,APP應用,再到數據共享、開放區(qū),有些數據共享開放區(qū)與生產區(qū)是放在一起的。在生產區(qū)中還包含了我們的生產型數據庫以及分析型數據庫,也就是大數據數據庫,非交易型,非關系型的數據庫,再到數據共享開放區(qū)包含了測試,測試人員,第三方的開發(fā)人員,包含開放給我們第三方的單位或開發(fā)商,這里邊針對于場景,我們提煉了一個不完全的數據安全的十大風險。
我們來看一下其中幾個風險是怎樣的情況以及怎樣解決。
第一,大部分的數據共享不是通過數據庫直接開放出來的,我覺得這至少是一個進步。隨著我們業(yè)務應用越來越多,隨著我們數據的交換越來越多,大部分的數據開放是通過API實現(xiàn)的,包括大數據局,基本上都有自己的API的目錄系統(tǒng),在這里邊就會產生兩個風險,第一,從數據到應用,中間會經歷好多層,我們稱之為縱向,比如我們外部的業(yè)務系統(tǒng),它的數據中間已經經過了好幾層的API或提煉。其實每一份數據不僅僅支撐一個應用,它要支持多個應用,所以同一份數據會有很多個API,所以我們現(xiàn)在往往發(fā)現(xiàn)的情況是API縱向的也很多,橫向的也很多,導致這里邊產生了很大的風險,我們授權,有些有授權,有些甚至沒有授權,有授權的,要么是0,你沒有這個權限,要么是1,你擁有API的所有權限,所以這里邊就會產生很多風險,我們建議首先是要統(tǒng)一我們的身份安全防線,我們講到了零信任,很關鍵的一部分,從最終的用戶訪問開始構建一個全局可信的數字身份體系。
第二是感知到他們訪問的邏輯,因為我們知道他是誰了,我們就可以實時地發(fā)現(xiàn)他的訪問行為,訪問了哪些敏感數據等。
第三是數據安全能力的加持,我們需要具備脫敏、加密等水印技術來幫助我們預防數據的泄露情況。
再看第二個例子,關于脫敏的事情,脫敏我相信大家都非常熟悉,因為數據要開放出來,要給運維人員,要給業(yè)務人員,要給第三方公司,它的暴露面非常巨大,而且是不可控的。這里面我們就拿一個簡單的例子,一個醫(yī)療單位的腫瘤樣本信息交給第三方訓練一個機器模型幫助他們診斷腫瘤的樣本,輔助醫(yī)療人員來做。
我們怎樣保證分析結果,相當于個人隱私的數據不暴露給大家,同時可以進行訓練。等下我會提到新一代的技術,包括同態(tài)或是一些隱私保護的計算,來看一下用數據脫敏怎么來解決這個問題,所以這里面我們就做了特別針對于機器學習任務的脫敏算法,因為想到脫敏,大家肯定會想到我打一些叉,或是變成完全去標準化的過程,脫敏還有一些智能算法。
首先是使用一致性的關聯(lián)算法,將來機器學習,發(fā)現(xiàn)了一個有問題之后,你還可以回溯到最原始的病例信息當中,但你在訓練的過程當中不知道是誰,只有最終最原始的數據的業(yè)務人員才具備這樣的信息,這是第一步,等下會有三步,我們適配了多個大數據的數據庫,以及多種敏感數據的識別算法、脫敏算法,以及跟我們行業(yè)法規(guī)所結合起來的脫敏算法。
剛才提到了保持一致性關聯(lián),我們并不想去完全的標準化,我們還是想去回溯,只不過在訓練的過程當中給第三方時,他不知道,他給你之后,我還是知道能追溯到他是誰。
第二步,我脫敏了之后并不是說想測試,測試只是很簡單的一個場景,我還要利用它的價值,所以這里邊我怎么來訓練我的機器訓練模型,首先我要保證其很多特征是保持不變的,比如最大值、最小值、均值、標準差、中位數等,當然這個脫敏的算法肯定不是一個通用性算法,我們要結合著相應的機器學習的算法選用一種脫敏算法,在這里邊我們簡單地描述一下其原始數據的分布,與我們脫敏之后的數據分布是一樣的,包括一些分數字化的特征,比如診斷的一些結論,我們也會采用一些混淆性的脫敏算法,但保持著原來的特征分布方法來允許我們的機器學習訓練,允許機器學習預測,同時能回溯到它原始的樣本信息是誰,但第三方人不知道原始信息代表的含義及對應的病例是誰,這是我們第二個脫敏的案例。
第三,水印溯源,我們剛才提到了,還是有可能,無論是人為操作還是各種各樣的原因,還是產生數據給出去之后泄露了。就像之前有報道,我A數據是脫敏的,B數據是脫敏的,A、B數據二者結合起來可能會產生敏感數據,有原來的數據重構出來。
在這里,我們做了大量的智能水印溯源的算法,我們通過植入一些不影響我們分析的方式,在數據泄露了之后,這里邊包含了尾行、尾列,或是對于一些數據不影響使用的情況下做一些干擾,我們叫加一些“鹽”(音)以保證智能水印的溯源,我們加入了一些算法,這在實戰(zhàn)當中效果非常好,你的數據一旦被泄露,泄露不知道你在哪兒加鹽,不知道哪個行,哪個列加鹽,他知道的話就會提出掉,不知道的情況下,一旦提出就會干擾原始數據的價值,就無法在黑市上售賣數據,所以我們是通過智能水印的算法來幫助我們很快地回溯到數據的泄露源頭,這是關于數據泄露的情況。
(二)“數據安全”助推企業(yè)加快數字化轉型
我們再看一下數據安全,剛才講有這么多數據如何保護好它,更多的是讓上一代數據安全的技術更智能一些,怎么利用新一代的技術來實現(xiàn)我們國家所講到的數據要素的市場,這里邊我相信各位專家和領導非常熟悉,一個是政策面,已經有各種各樣出彩的政策、行業(yè)及國家,再到實踐面,有一些走得比較靠前的國家,省市或區(qū)縣的一些單位都已在探索新一代的數據交易及數據價值的數據對外開放。
我們來看一下數據共享的難點與技術。剛才我們提到了,包括脫敏、溯源等,其本質還是要將數據給出去,我還是要將數據傳輸給你,無論是通過FTP的方式,數據庫權限方式還是API方式,無論是不是脫敏,你還是要將數據給出去,它有一定的局限性。但它對于現(xiàn)有的系統(tǒng)是無干擾的,你還是可以利用現(xiàn)有的數據庫及數據分析技術。
我們怎么在新一代的技術,新一代的技術怎么能更好地來服務于我們的數據共享或數據要素市場的戰(zhàn)略,我們想實現(xiàn)的是數據不給出去,最終實現(xiàn)數據可用不可見,至少是數據可用不可拿走,可能他可以看到部分脫敏數據,但至少是不可拿走的,這是我們想要實現(xiàn)的目的。
首先我們看一下技術的方案,剛才與馮院士列到了新一代的技術有很多共通之處,但目前我們從技術上來講,主要使用了一個技術是可信執(zhí)行環(huán)境,可信執(zhí)行環(huán)境,數據只有在最終的可信執(zhí)行的過程當中是一個明文的狀態(tài),但你通過攻擊的方法是無法獲取的,全流程加密,全生命周期的加密,這個平臺目前也支持隱私計算,包括聯(lián)邦協(xié)定在內的一些算法,同時我們對于數據全生命周期的安全進行全流程的審計、審批及保護。
我們來看一個其中的技術點,可信大數據的執(zhí)行環(huán)境,目前還沒有一個絕對的行業(yè)標準,但這里邊有一些公認的要實現(xiàn)的點,第一是執(zhí)行環(huán)境的隔離,我們在調試環(huán)境和真正的環(huán)境中隔離,你在調試數據時看到的是脫敏數據或是一些測試類數據,只有在執(zhí)行當中是真實數據。第二是身份驗證,第三是數據加密,目前我們也是使用國密認證的算法在數據存儲過程當中進行全流程的加密,第四是溯源,第五是可驗證,所有的操作必須是驗證過的,這里邊我們也使用區(qū)塊鏈的技術對所有的操作進行上鏈,避免風險的一些操作進行一個篡改的行為。
這里邊主要應用場景是四個,第一是我們證書局賦能我們,除了我們賦能各個委辦局之外還要賦能到各行各業(yè),第二是公安數據,無論是對外開放,還是開放給委辦局或政府其他單位,第三是大數據交易中心,作為一個中立性的平臺來服務于社會上數據的流轉,還有最后一個是數據服務公司,很多擁有大量數據的數據服務公司,可以利用數據安全島的技術在保證安全的情況下賦能到更多的社會上的企業(yè),這里邊有一個簡單的例子,這是我們在一個政務場景下做的例子,怎么在保護我們學生隱私的情況下規(guī)劃學區(qū)和師資配備力量。在杭州是一個相對還是比較迫切的問題,外來人口特別多,人員流動特別大,我們怎么保證師資資源,我覺得是相互匹配的,其學區(qū)規(guī)劃是合理的。這里邊就需要教育局的數據、公安的數據、房管數據,多方數據計算起來。
我們可以通過一個安全島的技術將各方數據匯聚起來放在島內進行計算,計算的過程中其實都是密文存儲的,每一方的數據在使用過程當中必須經過審批才能使用,通過這種方式,我們來保證各方的數據不被對方看到的情況下進行一個聯(lián)合計算,計算完之后再及時地銷毀,相當于一次性的任務,因為正好這個場景是無需實時計算的,所以通過在保護隱私的情況下實現(xiàn)安全的多方計算,最終的結果可以給到教育局,但原始的數據是完全看不到的。
最后講一下數據安全監(jiān)督。其實,數據安全監(jiān)管非常簡單,監(jiān)管的任務現(xiàn)在責任很重大,我們有了相應的法律法規(guī),或是我們有了相應的政策,無論是處罰的,還是同胞預警的,那我們從技術上要有一定的系統(tǒng)與抓手,怎樣做數據安全的監(jiān)管,其實我也沒有想好,我也希望監(jiān)管單位和我們一起帶領下,我們能將數據安全監(jiān)管這件事,就像美國在落實GDPR和CCPA時,近兩年數據安全的公司雨后春筍,很多新一代的技術幫助監(jiān)管機構實施數據安全監(jiān)管戰(zhàn)略,這里邊有很多的細節(jié),包括違規(guī)數據的收集,敏感數據的處理,你在生產庫里的敏感數據是怎樣進行保護與權限分配的,包括特權賬號的監(jiān)控,是否采取了必要的加密措施等。
我們怎樣通過技術化的手段幫助監(jiān)管機構實現(xiàn)對于數據安全的保護、開放及合規(guī),我覺得是一個非常有挑戰(zhàn)性的問題,也是一個必須要解決的問題。今天就分享到這里,謝謝大家!
雷鋒網雷鋒網雷鋒網
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。