丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給sanman
發(fā)送

0

圖像識別攻擊還沒完全解決,語音識別攻擊又來了!

本文作者: sanman 編輯:楊曉凡 2018-05-21 10:26
導(dǎo)語:桌上的智能音箱已經(jīng)瑟瑟發(fā)抖

雷鋒網(wǎng) AI 科技評論按:當前的語音識別技術(shù)發(fā)展良好,各大公司的語音識別率也到了非常高的水平。語音識別技術(shù)落地場景也很多,比如智能音箱,還有近期的谷歌 IO 大會上爆紅的會打電話的 Google 助手等。本文章的重點是如何使用對抗性攻擊來攻擊語音識別系統(tǒng)。本文發(fā)表在 The Gradient 上,雷鋒網(wǎng)將全文翻譯如下。

圖像識別攻擊還沒完全解決,語音識別攻擊又來了!

假設(shè)你在房間的角落放一臺低聲嗡嗡作響的設(shè)備就能阻礙 NSA 竊聽你的私人談話。你會覺得這是從來自科幻小說嗎?其實這項技術(shù)不久就會實現(xiàn)。

今年 1 月,伯克利人工智能研究人員 Nicholas Carlini 和 David Wagner 發(fā)明了一種針對語音識別 AI 的新型攻擊方法。只需增加一些細微的噪音,這項攻擊就可以欺騙語音識別系統(tǒng)使它產(chǎn)生任何攻擊者想要的輸出。論文已經(jīng)發(fā)表在 https://arxiv.org/pdf/1801.01944.pdf 。

雖然本文是首次提出針對語音識別系統(tǒng)的攻擊,但也有其他例如針對圖像識別模型系統(tǒng)的攻擊(這個問題已經(jīng)得到了不少研究,具體技術(shù)手段可以參考 NIPS 2017 圖像識別攻防對抗總結(jié)),這些都表明深度學(xué)習(xí)算法存在嚴重的安全漏洞。

深度學(xué)習(xí)為什么不安全?

2013 年,Szegedy 等人引入了第一個對抗性樣本,即對人類來說看似正常的輸入,但卻可以欺騙系統(tǒng)從而使它輸出錯誤預(yù)測。Szegedy 的論文介紹了一種針對圖像識別系統(tǒng)的攻擊方法,該系統(tǒng)通過在圖片(蝸牛圖片)中添加少量專門設(shè)計的噪聲,添加完的新圖像對于人來說并未改變,但增加的噪聲可能會誘使圖像識別模型將蝸牛分類為完全不同的對象(比如手套)。進一步的研究發(fā)現(xiàn),對抗性攻擊的威脅普遍存在:對抗性樣本在現(xiàn)實世界中也能奏效,涉及的改動大小最小可以只有 1 個像素;而且各種各樣內(nèi)容的圖像都可以施加對抗性攻擊。

圖像識別攻擊還沒完全解決,語音識別攻擊又來了!

這些攻擊的例子就是深度學(xué)習(xí)的阿基里斯之踵。試想如果僅僅通過在停車標志上貼上貼紙就可能破壞自動駕駛車輛的安全行駛,那我們還怎么相信自動駕駛技術(shù)?因此,如果我們想要在一些關(guān)鍵任務(wù)中安全使用深度學(xué)習(xí)技術(shù),那么我們就需要提前了解這些弱點還要知道如何防范這些弱點。

對抗攻擊的兩種形式

對抗攻擊分為針對性攻擊和非針對性攻擊兩種形式。

非針對性對抗攻擊僅僅是讓模型做出錯誤的預(yù)測,對于錯誤類型卻不做干預(yù)。以語音識別為例,通常攻擊完產(chǎn)生的錯誤結(jié)果都是無害的,比如把「I'm taking a walk in Central Park」轉(zhuǎn)變?yōu)椤窱 am taking a walk in Central Park」。

針對性對抗攻擊則危險的多,因為這種攻擊通常會誘導(dǎo)模型產(chǎn)生攻擊者想要的錯誤。例如黑客只需在「我去中央公園散步」的音頻中加入一些難以察覺的噪音,模型就會將該音頻轉(zhuǎn)換為隨機亂碼,靜音,甚至像「立即打 911!」這樣的句子。

圖像識別攻擊還沒完全解決,語音識別攻擊又來了!

花的愛擁還是死亡之萼?蘭花螳螂是自然界中眾多針對性欺騙的例子之一

對抗攻擊算法

Carlini 和 Wagner 的算法針對語音識別模型的進行了第一次針對性對抗攻擊。它通過生成原始音頻的「基線」失真噪音來欺騙模型,然后使用定制的損失函數(shù)來縮小失真直到無法聽到。

基線失真是通過標準對抗攻擊生成的,可以將其視為監(jiān)督學(xué)習(xí)任務(wù)的變體。在監(jiān)督學(xué)習(xí)中,輸入數(shù)據(jù)保持不變,而模型通過更新使做出正確預(yù)測的可能性最大化。然而,在針對性對抗攻擊中,模型保持不變,通過更新輸入數(shù)據(jù)使出現(xiàn)特定錯誤預(yù)測的概率最大化。因此,監(jiān)督學(xué)習(xí)可以生成一個高效轉(zhuǎn)錄音頻的模型,而對抗性攻擊則高效的生成可以欺騙模型的輸入音頻樣本。

但是,我們?nèi)绾斡嬎隳P洼敵瞿撤N分類的概率呢?

圖像識別攻擊還沒完全解決,語音識別攻擊又來了!

通過算法推導(dǎo)出此音頻片段中所說的詞語并不容易。難點有如每個單詞從哪里開始和哪里結(jié)束?

在語音識別中,正確分類的概率是使用連接主義時空分類(CTC)損失函數(shù)計算的。設(shè)計 CTC 損失函數(shù)的關(guān)鍵出發(fā)點是界定音頻邊界很困難:與通常由空格分隔的書面語言不同,音頻數(shù)據(jù)以連續(xù)波形的形式存在。因為詞匯波形之間可能存在許多「特征」,所以某個句子的正確識別率很難最大化。CTC 通過計算所有可能的輸出中「期望輸出」的總概率來解決這個問題。

Carlini 和Wagner 做出的改進

盡管這種初始基線攻擊能夠成功的欺騙目標模型,但人們也容易發(fā)覺音頻被改動過。這是因為 CTC 損耗優(yōu)化器傾向于在已經(jīng)騙過模型的音頻片段中添加不必要的失真,而不是專注于目標模型更難欺騙的部分。

圖像識別攻擊還沒完全解決,語音識別攻擊又來了!


Carlini&Wagner 的自定義損失函數(shù)。π 是已計算特征,δ 是已學(xué)習(xí)對抗失真,τ 是最大可接受音量,ci 是一個用于最小化失真并進一步欺騙模型的參數(shù),Li 是第 i 個輸出令牌的損失。

由于針對性攻擊的最薄弱環(huán)節(jié)直接決定了攻擊的強力與否,Carlini 和 Wagner 引入了一個定制的損失函數(shù),該函數(shù)會懲罰最強攻擊部分的不必要的失真。以基線失真為始,該算法會迭代地最小化該函數(shù),在保持失真的對抗性的同時逐漸降低其音量,直到人聽不到為止。最終的結(jié)果是音頻樣本聽起來與原始樣本完全相同,但攻擊者可以使目標語音識別模型產(chǎn)生任意他想要的結(jié)果。

現(xiàn)實世界中的對抗攻擊

盡管語音攻擊令人擔憂,但相比其它應(yīng)用類型中的攻擊,語音識別攻擊可能并不那么危險。例如,不像自動駕駛中的計算機視覺技術(shù),語音識別很少成為關(guān)鍵應(yīng)用的核心控制點。并且語音激活控件可以有 10 秒左右的時間冗余,這段時間完全可以用來正確理解命令然后再去執(zhí)行。

另外,對抗性攻擊理論上可以用于確保隱私。比如制造一個設(shè)備,這個設(shè)備通過發(fā)出柔和的背景噪音使監(jiān)控系統(tǒng)系將周圍的對話誤認為完全沉默。即使竊聽者設(shè)法記錄您的對話,但要從 PB 級的非結(jié)構(gòu)化原始音頻搜索出有用信息,還需要將音頻自動轉(zhuǎn)換為書面文字,這些對抗性攻擊旨在破壞這一轉(zhuǎn)化過程。

不過目前還并沒有大功告成。Carlini & Wagner 的攻擊在使用揚聲器播放時會失效,因為揚聲器會扭曲攻擊噪音的模式。另外,針對語音轉(zhuǎn)文本模型的攻擊必須根據(jù)每段音頻進行定制,這個過程還不能實時完成?;仡欉^去,研究者們只花費了幾年的時間就將 Szegedy 的初始圖像攻擊發(fā)展的如此強大,試想如果針對語音的對抗性攻擊的發(fā)展速度也這么快,那么 Carlini 和 Wagner 的研究成果著實值得關(guān)注。

雷鋒網(wǎng) AI 科技評論認為對抗性攻擊可能會利用深度學(xué)習(xí)的算法漏洞進行破壞,引發(fā)諸如自動駕駛等應(yīng)用的安全問題,但如上文所述,針對音頻的對抗性攻擊對于隱私保護也有積極意義。

via thegradient.pub,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

圖像識別攻擊還沒完全解決,語音識別攻擊又來了!

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說