0
這是一個真實(shí)的故事。前幾天,我和一群小伙伴在新加坡參加了一場神秘的黑客大會,具體是什么大會,以后再說。我先說說你們感興趣的“尋找紅燈區(qū)事件”。
我們本來純潔地打算尋找吃榴蓮的圣地,不料女導(dǎo)游神秘兮兮地介紹,新加坡有個地區(qū)叫芽籠,是個開展合法羞羞服務(wù)的區(qū)域,就在你們吃榴蓮的地方附近哦。
蛤?貴坡還有這么不符合我們社會主義核心價值觀的地方?
車上的小伙伴頓時來了興致,強(qiáng)烈要求司機(jī)載著我們在芽籠區(qū)域晃蕩一圈。而且,一位男同學(xué)提出了一個相當(dāng)正經(jīng)的問題:聽說提供這些服務(wù)的場所就隱藏在大街小巷里,我們怎么區(qū)別什么樣的場所是紅燈區(qū)?迷路怎么辦?
女導(dǎo)游羞澀地朝著一個方向指過去:你們看,新加坡的這些街巷分成了單雙號,在這個區(qū)域,單號街道都是正經(jīng)吃喝的地方,一般紅燈區(qū)隱藏在雙號街道里哦。
【 圖片來源:新加坡眼 所有者:新加坡眼 】
為了再一次教我們辨別什么是提供特殊服務(wù)的小店,導(dǎo)游指出,一般在這些場所外面,會掛上兩個紅燈籠,這些燈籠會在夜晚點(diǎn)亮。
可是,這輛大巴轉(zhuǎn)了許久,我們還是沒有看到紅燈籠,不禁失望至極,導(dǎo)游安慰我們:對了,有些場所不掛燈籠,但有 bling bling 的霓虹燈,你們?nèi)绻谶@個區(qū)域的雙號街巷看到閃爍的五顏六色,那就八九不離十了!
我之所以想起尋找紅燈區(qū)事件,是因?yàn)?月16日,我參加了阿里安全部的一次年度媒體溝通會,AI 鑒黃被作為一個典型的安全 AI 應(yīng)用案例推出。我才發(fā)現(xiàn),相較于肉身尋找紅燈區(qū),AI 早就在鑒定黃賭毒上一路狂奔了。
但是,厲害如 AI 唐馬儒,竟然也面臨著安全風(fēng)險。
本文作者:雷鋒網(wǎng)網(wǎng)絡(luò)安全專欄作者,李勤,微信:qinqin0511
我們來看看,發(fā)生了什么。
阿里目前有三大戰(zhàn)略領(lǐng)域:傳統(tǒng)電商、數(shù)字化娛樂和新零售,這三個領(lǐng)域都涉及到網(wǎng)絡(luò)安全,比如,原創(chuàng)內(nèi)容保護(hù)、內(nèi)容治理和網(wǎng)絡(luò)黑灰產(chǎn)對抗。
以內(nèi)容治理為例,由于淘寶體量巨大以及內(nèi)容生態(tài)越來越繁榮,淘寶的短視頻每天的觀看量差不多能達(dá)到 20 億次,這就衍生了一個問題:如何讓內(nèi)容合法合規(guī)?
阿里安全部圖靈實(shí)驗(yàn)室高級算法專家威視(花名)告訴我,在過去一年網(wǎng)信辦接到的各種違規(guī)信息舉報中,超過 70% 的舉報涉及色情低俗,這意味著,色情低俗風(fēng)險確實(shí)是各種內(nèi)容面臨的合規(guī)風(fēng)險中占比最大的一種,所以,在巨大的信息中,運(yùn)用 AI 尋找黃色內(nèi)容,規(guī)避內(nèi)容風(fēng)險成了一個強(qiáng)需求。
現(xiàn)在出現(xiàn)了一類不正經(jīng)的算法工程師,他們被稱為“調(diào)包俠”,雖然他們可能并不理解 AI 技術(shù)底層如何實(shí)現(xiàn),但特別擅長調(diào)包——調(diào)用別人的開源代碼,將一些非法信息灌進(jìn)去,訓(xùn)練出一個特殊模型。這導(dǎo)致了另一個問題——安全研究員辛辛苦苦訓(xùn)練出的 AI 唐馬儒竟然可能叛變,就像被人塞了小紅包,對黃色內(nèi)容睜一眼閉一眼。
【 圖片來源:pconline 所有者:pconline 】
更讓人擔(dān)憂的是,還有更多安全對抗在發(fā)生。
以商品信息為例,一開始,色情低俗信息,直接寫在商品標(biāo)題里面,比如:“看爽片XXX”,立馬能找到不可描述的東東。
安全技術(shù)專家像打地鼠一樣,敲掉了標(biāo)題里的色情低俗?,F(xiàn)在一搜“看爽片”“爽片”,出來的分別是這樣的商品:
【 雷鋒網(wǎng)注:僅為搜索結(jié)果示例】
攻擊者馬上把違規(guī)信息轉(zhuǎn)移到了商品的主圖、副圖中。由于色情圖片具有較強(qiáng)的視覺可分性,圖片的鑒黃比較容易開展,攻擊者發(fā)現(xiàn)自己被攔住之后,開始做拼接圖,把違規(guī)信息拼在一個正常背景中,或者通過翻拍逃避檢測。
甚至,當(dāng)他們發(fā)現(xiàn),算法對彩色圖片的識別效果好,攻擊者就用黑白圖片,后來,整張圖片容易被識別,就變成局部暴露,比如,衣服裹得嚴(yán)嚴(yán)實(shí)實(shí)的,只漏出關(guān)鍵的一點(diǎn)點(diǎn)。
或者,用美圖工具把常規(guī)照片轉(zhuǎn)換成鉛筆畫、蠟筆風(fēng)格,甚至素描,當(dāng)安全技術(shù)專家把這些問題解決了,攻擊者又想了一個新辦法——在圖片里寫字,開始時,違規(guī)文字是正常的印刷體,被識別后,壞人開始用斜體、花體字;又被識別出來后,攻擊者干脆用手寫,還故意寫得很潦草,不斷考驗(yàn)識別算法和人類的想象力。
當(dāng)圖片的鑒黃做得差不多時,違規(guī)信息轉(zhuǎn)戰(zhàn)到了視頻、直播里,用音頻來做。當(dāng)違規(guī)音頻也被干掉時,攻擊者更狡猾了,他們把信息拆解開,在圖片、文本、語音中分散放置,變成一個典型的多模態(tài)問題,這時需要綜合各方信息進(jìn)行判斷。
這種攻擊者不僅是調(diào)包俠,還懂得了AI技術(shù)底層的一些特點(diǎn)。他能進(jìn)行什么騷操作?
曾有一篇經(jīng)典論文指出,本來模型識別一張圖片,正常的輸出結(jié)果是一只大熊貓,但是壞人經(jīng)過一些簡單運(yùn)算,比如像素級別的操作,得到一張新圖片,人眼看上去還是一只大熊貓,但是欺騙了識別模型,被模型判斷為一只長臂猿。
壞人是如何做到的?
第一種情況,攻擊者知道鑒黃的算法、模型和網(wǎng)絡(luò)結(jié)構(gòu)。
威視將這種情況稱為“白盒攻擊”,這種攻擊并不復(fù)雜和困難,只要花的時間足夠長,耐心嘗試密碼,攻擊者總可以打開盒子。
第二種情況,算法使用的模型是不公開的。
在這種黑盒攻擊下,攻擊者不斷用不同圖片調(diào)用公開的算法接口,分析返回的結(jié)果,不斷嘗試驗(yàn)證哪些方法可以讓AI唐馬儒輸出的結(jié)果含糊不清,直到嘗試出來某一種修改能夠攻破威視等人建立的模型。
威視說,黑盒攻擊比白盒攻擊成本高很多,這就是閉源模型好處。事實(shí)上,沒有什么模型是不可被攻破的,只是攻擊成本的高低。安全技術(shù)專家要做的,就是不斷提高攻擊門檻。
除了面對攻擊者的威脅,AI 鑒定內(nèi)容風(fēng)險時還面臨天然阻礙:
一是大海撈針,違規(guī)信息可能占比不到千分之一,違規(guī)樣本和正常樣本數(shù)量呈現(xiàn)出極度的不均衡的態(tài)勢。
一是新增風(fēng)險,安全場景面臨的新風(fēng)險往往“臨時爆發(fā)”,誰能想到,直播主進(jìn)行吃播時也可能涉黃。。。emmm,比如吃香蕉、喝酸奶等。
對AI 唐馬儒而言,深度學(xué)習(xí)算法強(qiáng)依賴高質(zhì)量的樣本,樣本的質(zhì)量越高,數(shù)量越多,鑒定效果就越好。
威視介紹,為此,他們提出了“小樣本學(xué)習(xí)(few-shot learning)”這樣的技術(shù)。這個方法主要解決兩個問題:第一,訓(xùn)練中出現(xiàn)從來沒有見過的新類別,每個類別又只有很少的樣本;第二,訓(xùn)練新樣本后,不能遺忘以前的知識,不能改變已有的模型。
針對上述問題,很多人想到用finetune(微調(diào))的方式解決,也就是在已有模型基礎(chǔ)上,用新類別的樣本做微調(diào)訓(xùn)練。但是,已有的模型依賴很大的樣本量訓(xùn)練,比如,需要1000萬個訓(xùn)練樣本。這時用幾十個、一百個樣本訓(xùn)練新類別,基本改變不了網(wǎng)絡(luò)。而且,這種訓(xùn)練還會遺忘以前的知識。
威視告訴我:“發(fā)現(xiàn)這條走不通后,我們考察了很多新方法,比如,度量學(xué)習(xí)(metric learning),學(xué)習(xí)類和類之間的度量,把不同的類間的距離盡可能地拉大,縮小同類之間的距離,用模式識別的話,就是增大了類間的方差,減少了類內(nèi)的方差?!?/p>
基于度量學(xué)習(xí)的思路,他們嘗試了很多方法,比如,孿生網(wǎng)絡(luò) (Siamese Neural Networks)、匹配網(wǎng)絡(luò) (matching networks)、原型網(wǎng)絡(luò) (Prototypical Networks)等。
這些方法的核心思想是,把樣本看作一個點(diǎn),再來度量不同樣本在空間中的分布,利用算法合適地調(diào)整分布,讓新的類別在原來的樣本空間里找到合適的位置,區(qū)別原有的類別。
后來,他們還發(fā)現(xiàn)了基于圖網(wǎng)絡(luò)(graph neural network)的方法,這種放在在度量學(xué)習(xí)的基礎(chǔ)上展開,圖網(wǎng)絡(luò)把樣本不僅看成一個點(diǎn),它認(rèn)為,樣本和樣本之間是有關(guān)系的,用點(diǎn)和點(diǎn)之間的邊來表達(dá),有點(diǎn)有邊就構(gòu)成一張圖。度量學(xué)習(xí)只學(xué)習(xí)了點(diǎn)的信息,圖網(wǎng)絡(luò)既學(xué)習(xí)了點(diǎn)的信息,也學(xué)習(xí)了邊的信息,這樣就構(gòu)成了網(wǎng)絡(luò)的學(xué)習(xí),實(shí)際效果優(yōu)于度量學(xué)習(xí)。
還有一種“元學(xué)習(xí)meta learning”方法,利用以往的知識經(jīng)驗(yàn)指導(dǎo)新任務(wù)的學(xué)習(xí)。AI算法不是從0開始構(gòu)建自己的知識體系,而是在已有的知識體系之上,快速學(xué)習(xí)新技能。
威視等人設(shè)計(jì)了一種新方法,元學(xué)習(xí)中融合了度量學(xué)習(xí)的方法,用構(gòu)成每個類的標(biāo)簽樣本的的原型來表征類,進(jìn)而通過相似度分類(KNN Classification)進(jìn)行識別。他們在多個數(shù)據(jù)集上做了驗(yàn)證,結(jié)果表明,該方法比基線有不錯的提升。
這種新方法被應(yīng)用在阿里云內(nèi)容安全的產(chǎn)品中,阿里安全部提供了一個已有模型及訓(xùn)練方法,第一線的運(yùn)營人員發(fā)現(xiàn)可定義的新風(fēng)險時,他們用幾十個或者上百個樣本,在頁面上點(diǎn)鼠標(biāo),上傳并標(biāo)注樣本,這個模型就可以進(jìn)行一次學(xué)習(xí)。學(xué)習(xí)之后,模型對沒有學(xué)習(xí)過樣本提出結(jié)論,這時運(yùn)營人員需要標(biāo)注算法的結(jié)果,判斷哪個做對了,哪個做錯了。大概重復(fù)兩到三輪,模型基本可用了。
這種方法可以讓AI應(yīng)對大部分新增的風(fēng)險,而且降低了對樣本的依賴性,縮短了響應(yīng)的時間 。以前,安全人員需要收集信息,打標(biāo),訓(xùn)練模型進(jìn)行測試,周期比較長的。現(xiàn)在,這些事情都交給了第一線的業(yè)務(wù)人員,他們可以自主進(jìn)行幾輪迭代和部署,模型可能在幾個小時內(nèi)就能上線,防范新增的風(fēng)險。
AI 唐馬儒要想比真的唐馬儒更厲害,還需要發(fā)揮一些想象力。
在阿里安全圖靈實(shí)驗(yàn)室的實(shí)踐中,安全人員發(fā)現(xiàn),AI 模型擅長在一些“老司機(jī)心知肚明的情況下”處理視覺可分性的任務(wù),比如出現(xiàn)某種明顯標(biāo)志,或者出現(xiàn)了某種動作和場景,但在業(yè)務(wù)的審核標(biāo)準(zhǔn)里,很多時候連人都需要“腦補(bǔ)”,AI 就面臨更艱巨的任務(wù)了,比如,在色情低俗的場景下,照片里并沒有呈現(xiàn)完整的違規(guī)場景,AI表示無能為力,但人卻可以想象畫面之外發(fā)生了什么。
【 滑雪勝地,圖片來源:百家號 所有者:Strange咖 】
即使 AI 唐馬儒成了業(yè)務(wù)相當(dāng)熟練的老司機(jī),他可能也會忙到吐血,因?yàn)樾嘛L(fēng)險實(shí)在太多了!
面對不同風(fēng)險點(diǎn),難道要每一種都做出來一個模型嗎?威視希望,設(shè)計(jì)多任務(wù)網(wǎng)絡(luò),模型不僅可以判斷色情低俗風(fēng)險,同時可以判斷廣告,還可以找人臉,多任務(wù)合并到一個網(wǎng)絡(luò)中。對于計(jì)算成本,現(xiàn)在有一種趨勢是,業(yè)界開始做專門的AI芯片,大幅度提升計(jì)算效率,降低成本。
當(dāng)然,這些僅僅只是一類案例。說了這么多,到底什么是“安全AI”?為什么在大家都提AI、AI安全時,阿里安全要“別出心裁”地來這么一出,并告訴大家,阿里安全要“ALL IN 安全AI”?
阿里安全研究員陸全稱:“我們阿里安全有這樣一個場景,把 AI 在安全場合進(jìn)行打磨。其實(shí)我們通過 AI 應(yīng)用在安全去保護(hù)AI,通過這樣一個不斷迭代的過程,把這兩個東西形成一個整體。這個整體叫做‘安全AI’,它可以自我進(jìn)化?!?/p>
進(jìn)化的結(jié)果是,他們想培養(yǎng)出一種“人”,“他”是天生就是很好的拳擊手,具備高靈活性,非常強(qiáng)壯,還要有高對抗性,最后反哺通用的AI,對整個AI領(lǐng)域提供幫助,促進(jìn)人工智能的發(fā)展。
雖然結(jié)尾如此有雄心壯志 ,機(jī)智如你,可能想知道一個問題:你們到底有沒有找到紅燈區(qū)?
A.找什么找,吃貓山王才是正經(jīng)事。
B.晚上一波人在一個地方偶遇,啊呸,你們在想什么?
C.人不如 AI 老司機(jī),唐馬儒別哭,起來再戰(zhàn)。
【 圖片來源:haoqilu 所有者:haoqilu 】
致謝:該文得到了阿里安全圖靈實(shí)驗(yàn)室高級算法專家華棠、覺奧以及阿里安全資深技術(shù)專家鐵花的幫助。
本文作者:雷鋒網(wǎng)網(wǎng)絡(luò)安全專欄作者,李勤,微信:qinqin0511
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。