1
本文作者: 夏睿 | 2016-10-26 13:13 |
跟所有軟件一樣,人工智能也避免不了遭受黑客入侵的命運。近幾個月,安全研究員已經(jīng)向人們表明,機器學習算法可以被逆向工程化,而且會像個人照片和健康數(shù)據(jù)一樣暴露用戶數(shù)據(jù)。
所以,為了保護這些信息,我們該怎么做呢?
近日,一份來自 OpenAI 和谷歌的調(diào)查結果顯示,他們可以讓人工智能在不利用個人數(shù)據(jù)的前提下正常工作。
OpenAI 的研究人員 Ian Goodfellow 拿這種系統(tǒng)與醫(yī)學院的學校教育系統(tǒng)做對比。
“醫(yī)生這個行當干了幾十年之后,能積累到非常有用的醫(yī)學案例,但同時也會知道一些比較私密的個人病史,” Goodfellow 說,“這些醫(yī)生來到醫(yī)學院教書時,無需把那些私密的個人病史透露給學生,就能讓他們的醫(yī)術有所長進?!?/p>
這個即將推出的學生算法能通過學習上百萬次仿真決策,不借教師算法賴以形成的基礎性信息而模仿老師們做決策的過程。學生算法還通過非敏感的公共數(shù)據(jù)進行學習以調(diào)和結果,并進一步使教師的數(shù)據(jù)集變得更大眾化。OpenAI 和谷歌這次的成果以先前的研究為基礎:教會一個學生算法同時使用多個教師算法,結果是,學生算法能運行得更快,結果也更準確。同時,這兩家公司也向其他人公開了學生算法的編碼程序以讓其適應各自系統(tǒng)。
但讓算法進行反向工程更困難的一點是,學生算法的老師可不止一個。在測試中,研究員用 250 個教師來訓練一個學生算法,這意味著學生不會依賴任何特殊敏感數(shù)據(jù),而是會綜合所有的數(shù)據(jù)信息。甚至當該人工智能被進行反向工程操作時,黑客也無法從中得到任何信息。
Goodfellow 拿醫(yī)學院來解釋這個新型算法非常恰當。因為醫(yī)學院有大量的信息可以使用,所以在研發(fā)醫(yī)療人工智能的時候,這種系統(tǒng)會相當受益,同時,它又能保護個人醫(yī)療信息不外泄。一個算法能夠從每一家醫(yī)院的數(shù)據(jù)(像放射性掃描結果或病人信息)中進行學習,而一個學生人工智能系統(tǒng)可以自動從醫(yī)院網(wǎng)絡中進行學習。
像谷歌等公司也能用這種技術從用戶照片中進行學習,當然,也不用看用戶的照片。但是這種人工智能僅限于從用戶賬號中的圖片進行學習。這種技術可以把每個用戶的人工智能當做老師,為谷歌照片軟件訓練更精準的,能自動識別人臉和物體的學生。
這種方法能使大數(shù)據(jù)中的個體信息受到保護,它屬于差別隱私的一種。比如,在醫(yī)院中一名的患者數(shù)據(jù)就是差別隱私較弱的一種形式。
另外,蘋果 iOS 10 也使用了差別隱私技術,使系統(tǒng)在不影響個人隱私的前提下,幫助發(fā)現(xiàn)大批量用戶的使用模式。為了掩蓋個人身份,差別隱私會像個人使用模式的小樣本中加入數(shù)學噪音。隨著更多的用戶呈現(xiàn)出相同的模式,總體模式就會開始顯現(xiàn),這可以用來增強用戶體驗。
“差別隱私引起了一個悖論,即算法不會從個體中直接學習,但是卻能從一大批人群當中學到最有用的信息,”微軟研究院 Cynthia Dwork 和賓夕法尼亞大學 Aaron Roth 在書中寫道。
一個算法越是會模仿它的老師,作出的決策就越有可能和老師的數(shù)據(jù)集不相符。這是差別隱私的運行準則。
“該領域內(nèi)的所有研究都在探索隱私和實用性這兩者之間的平衡點。因為獲取更多隱私代表著使的人就會減少,” 機器學習安全研究員 Thomas Ristenpart 在一封給 Quartz 的電子郵件中說道。
via:qz.com
延伸閱讀:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。