丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給馬蕊蕾
發(fā)送

0

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊

本文作者: 馬蕊蕾 2024-07-31 18:20 專題:ICML 2019
導(dǎo)語(yǔ):導(dǎo)語(yǔ):純靠Transformer的架構(gòu)或數(shù)據(jù)驅(qū)動(dòng)模型,解決不了推理問(wèn)題。


作者:馬蕊蕾

編輯:陳彩嫻

大模型的安全研究,沒(méi)有趕上 AI 的發(fā)展速度。

7 月微軟藍(lán)屏事件,像是新老交替之際的一記警鐘。每一項(xiàng)新技術(shù)的發(fā)明,都伴隨著一種新責(zé)任的出現(xiàn)。假使 AI 集成到每個(gè)應(yīng)用,那么發(fā)生在微軟的藍(lán)屏事件,同樣也會(huì)成為 AI 潛在的危險(xiǎn)。

“大模型能力的提升并不能代表它的安全也能得到改進(jìn),大家還是要有意識(shí)的發(fā)現(xiàn)模型潛在的風(fēng)險(xiǎn)和漏洞?!?ICML 2024 大會(huì)期間,AI 科技評(píng)論訪談 ICML Tutorial Chair 李博時(shí),她如是說(shuō)道。

李博現(xiàn)任伊利諾伊大學(xué)香檳分校(UIUC)和芝加哥大學(xué)教授,目前處于學(xué)術(shù)休假期間在工業(yè)界訪問(wèn)。她重點(diǎn)研究機(jī)器學(xué)習(xí)、計(jì)算機(jī)安全、隱私和博弈論,大部分工作都在探索機(jī)器學(xué)習(xí)系統(tǒng)對(duì)各種對(duì)抗性攻擊的漏洞,并致力于開(kāi)發(fā)現(xiàn)實(shí)世界的可信機(jī)器學(xué)習(xí)系統(tǒng)。

她曾榮獲 IJCAI 2022 計(jì)算機(jī)與思想獎(jiǎng)、麻省理工學(xué)院技術(shù)評(píng)論 MIT TR-35 、Alfred P. Sloan 斯隆研究獎(jiǎng)、NSF CAREER 獎(jiǎng)、AI’s 10 to Watch、C.W. Gear Outstanding Faculty Award,英特爾新星獎(jiǎng)等,并獲得來(lái)自 Amazon、Facebook、谷歌、英特爾和 IBM 等科技公司的學(xué)術(shù)研究獎(jiǎng)。她的論文曾獲多個(gè)頂級(jí)機(jī)器學(xué)習(xí)和安全會(huì)議的最佳論文獎(jiǎng),研究成果還被永久收藏于英國(guó)科技博物館。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊

在去年 12 月份,她在模型安全領(lǐng)域創(chuàng)業(yè),創(chuàng)立了新公司——Virtue AI。

李博告訴 AI 科技評(píng)論,在此之前,她一直沒(méi)有找到合適的契機(jī)去創(chuàng)立一家公司,直到 2023 年初的 ChatGPT 開(kāi)始,大模型的安全問(wèn)題逐漸顯現(xiàn),成立一家公司來(lái)解決眼前的問(wèn)題擁有了最佳時(shí)機(jī)。

隨即,李博與被稱為“AI 安全教母”的伯克利大學(xué)教授宋曉冬(Dawn Song)等人一起成立了安全公司 Virtue AI。據(jù)悉,目前 Virtue AI 團(tuán)隊(duì)不過(guò) 20 人,但已獲得上千萬(wàn)美元的融資。

大模型在處理復(fù)雜任務(wù)時(shí),沒(méi)法繞開(kāi)的挑戰(zhàn)之一就是幻覺(jué)問(wèn)題。在她看來(lái),推理能力純靠 Transformer 的架構(gòu)或者數(shù)據(jù)驅(qū)動(dòng)模型,是解決不了問(wèn)題的,因?yàn)楣矓?shù)據(jù)模型不能真正的學(xué)習(xí)符號(hào)推理的任務(wù)。

她嘗試過(guò)數(shù)據(jù)驅(qū)動(dòng)模型和符號(hào)邏輯推理的架構(gòu)組合,并提出一個(gè)觀點(diǎn):她認(rèn)為當(dāng)模型同時(shí)具備數(shù)據(jù)驅(qū)動(dòng)的泛化能力和邏輯的推理能力,才能從根本上解決幻覺(jué)問(wèn)題。

在 ICML 2024 大會(huì)期間,AI 科技評(píng)論聯(lián)系到李博教授,與她就 ICML 2024、大模型安全以及新公司 Virtue AI 等話題進(jìn)行了對(duì)話,以下作者進(jìn)行了不改原意的編輯與整理:

大模型能力的提升≠安全能力的改進(jìn)

AI科技評(píng)論:今年 ICML 的熱門方向有哪些?

李博:首先,大模型依舊是非常熱的方向;其次,agent也是一個(gè)重要方向;還有,今年多模態(tài)的發(fā)展明顯有了更快的進(jìn)展,像最佳論文獎(jiǎng)也涉及到了圖像和視頻生成的領(lǐng)域;深度學(xué)習(xí)也是熱門方向,包括人工智能價(jià)值對(duì)齊(AI Alignment)和具身智能。

另外,由于大模型越來(lái)越熱門,相應(yīng)地,有關(guān)安全的研究以及政策也越來(lái)越多,這個(gè)也是比較重要的話題。

AI科技評(píng)論:今年ICML新增了"Position Papers"板塊,這是不是意味著對(duì)學(xué)界的前瞻性觀點(diǎn)越來(lái)越重視了?

李博:對(duì)的,因?yàn)榇竽P捅旧頃?huì)在很多新領(lǐng)域,引發(fā)新的討論話題。所以“Position Papers”板塊,可以讓大家在一些新興領(lǐng)域,提出他們認(rèn)為應(yīng)該去研究但目前還不清楚怎么去研究的話題。

我認(rèn)為這是非常重要的,比如當(dāng)一個(gè)新興話題還沒(méi)有基礎(chǔ)和具體的方法時(shí),很難寫出一篇方法論(methodology)。但有了這個(gè)"Position Papers"板塊,就可以讓更多學(xué)界的人提出一些話題,讓更多的人認(rèn)識(shí)到這個(gè)話題很重要并能參與討論,相當(dāng)于一個(gè)引導(dǎo)信息的區(qū)域。

AI科技評(píng)論:今年您在ICML上參與了哪些活動(dòng)?

李博:我們組里有 13 篇論文,所以有很多學(xué)生參加。

例如像《C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models》,理論分析了LLm的生成風(fēng)險(xiǎn),并證明RAG比Vanilla LLm生成風(fēng)險(xiǎn)低;還有《RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content》,已經(jīng)被Llamaguarc V2引用,還表示我們的模型型號(hào)更具備彈性。

這次我也在 Alignment Workshop、AI Safety Workshop和 AI Safety Panel and Social有一些討論,但重點(diǎn)主要在AI安全方面。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊被Llamaguarc V2引用的論文,論文鏈接:http://arxiv.org/pdf/2403.13031

AI科技評(píng)論:今年哪些論文或研究可能對(duì)未來(lái)機(jī)器學(xué)習(xí)領(lǐng)域有重大影響?

李博:研究模型的體系架構(gòu)領(lǐng)域肯定會(huì)有較大的影響,會(huì)運(yùn)用在不同的領(lǐng)域或者完善模型上,像 AI 安全如何應(yīng)對(duì)在文本、視頻等領(lǐng)域的內(nèi)容風(fēng)險(xiǎn)問(wèn)題。

未來(lái)我們可以預(yù)料到,大家會(huì)將大模型運(yùn)用在不同的產(chǎn)品上,如果永遠(yuǎn)需要去微調(diào)模型,既對(duì)效用有影響,也會(huì)產(chǎn)生更高的成本。所以內(nèi)部的 Guardrail 模型是一個(gè)輕量和靈活的解決辦法,我們做了很多關(guān)于安全風(fēng)險(xiǎn)、Guardrail 模型的一些工作。

AI科技評(píng)論:您怎么看 Meta Llama 3.1 模型?

李博:我們發(fā)布了一個(gè)針對(duì)Llama 3.1 405B 型號(hào)的安全風(fēng)險(xiǎn)評(píng)估報(bào)告,Llama 3.1 模型對(duì)于開(kāi)源社區(qū)確實(shí)是一件非常好的事情,對(duì)大家做大模型的微調(diào)很有益處。

但我們從安全的角度去做評(píng)估,還是會(huì)有很多安全問(wèn)題。所以,我們可以看到大模型能力的提升并不能代表它的安全也能得到改進(jìn),大家還是要有意識(shí)的發(fā)現(xiàn)模型潛在的風(fēng)險(xiǎn)和漏洞。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊Llama 3.1 405B型號(hào)整體安全性評(píng)估,照片來(lái)源:https://www.virtueai.com/research/

大模型幻覺(jué)問(wèn)題的解法

AI科技評(píng)論:目前大模型在處理復(fù)雜任務(wù)時(shí)面臨的重要挑戰(zhàn)有哪些?

李博:第一方面,業(yè)界有很多人討論過(guò)大模型,認(rèn)為它還是在做數(shù)據(jù)分配,還不具備真正的推理能力。如何提高模型的推理能力以及能讓模型真正的理解詞匯和遵循知識(shí)規(guī)則,一直是比較重要的挑戰(zhàn)。

第二方面,如何整合知識(shí)來(lái)解釋它到底能有什么用處。

第三方面,從模型微調(diào)和訓(xùn)練角度來(lái)看,效率還是一個(gè)挑戰(zhàn)。目前小的模型,也是一種趨勢(shì),例如 OpenAI 的GPT-4o mini,雖然很小但很有能力。

AI科技評(píng)論:未來(lái)模型能否解決幻覺(jué)的問(wèn)題?

李博:我認(rèn)為,推理能力純靠Transformer的架構(gòu)或者數(shù)據(jù)驅(qū)動(dòng)模型,是解決不了問(wèn)題的。因?yàn)楣矓?shù)據(jù)模型本質(zhì)就是學(xué)習(xí)數(shù)據(jù)的分配,它并不能真正的學(xué)習(xí)符號(hào)推理的任務(wù),所以需要對(duì)模型的架構(gòu)上做改變。

我之前有做過(guò)數(shù)據(jù)驅(qū)動(dòng)模型和象征性邏輯推理的架構(gòu)組合,使得模型不僅有數(shù)據(jù)驅(qū)動(dòng)的泛化能力,還有邏輯推理的能力,我覺(jué)得這才能在根本上解決幻覺(jué)問(wèn)題。

AI科技評(píng)論:國(guó)內(nèi)在大模型安全領(lǐng)域感覺(jué)提的相對(duì)很少。

李博:其實(shí)國(guó)內(nèi)提的也不少,國(guó)內(nèi)有可信安全實(shí)驗(yàn)室以及各類可信機(jī)構(gòu),還提了很多法案。

其實(shí)我們有一篇Paper《AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies》,提到歐盟、美國(guó)和中國(guó)有關(guān)模型安全的政府政策涵蓋的風(fēng)險(xiǎn)類別,當(dāng)中有一個(gè)非常有意思的發(fā)現(xiàn),中國(guó)在內(nèi)容安全風(fēng)險(xiǎn)、社會(huì)風(fēng)險(xiǎn)以及法律和權(quán)利風(fēng)險(xiǎn)上覆蓋的都很多。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊AI Risk Categorization Decoded (AIR 2024),圖片來(lái)源:https://arxiv.org/html/2406.17864v1

AI科技評(píng)論:目前有哪些研究在探索如何安全地訓(xùn)練大模型?

李博:我們有不同的一些方向。第一步,從數(shù)據(jù)的角度,如何讓模型生成更高質(zhì)量的數(shù)據(jù),從而不被噪音數(shù)據(jù)所誤導(dǎo)。

第二步,從模型的角度,預(yù)訓(xùn)練包括模型微調(diào)之后,如何讓模型在學(xué)習(xí)的過(guò)程中過(guò)濾噪音數(shù)據(jù),捕捉到更本質(zhì)的信號(hào)。

第三步,從模型的外部如何加一層,即使受到了噪音數(shù)據(jù)的影響,也不會(huì)輸出這種內(nèi)容,能及時(shí)被處理。第四步,如何將知識(shí)清晰的整合到大模型當(dāng)中,繼而去加推理組件,這是我們一直在做的,使得它更好的推理、緩解幻覺(jué)或者應(yīng)對(duì)一些風(fēng)險(xiǎn)內(nèi)容。

AI科技評(píng)論:對(duì)抗性訓(xùn)練在提高大模型魯棒性方面扮演了什么角色?

李博:對(duì)抗性訓(xùn)練的方法很多,尤其在大模型上做人工智能價(jià)值對(duì)齊(AI Alignment),包括一站式開(kāi)發(fā)平臺(tái)(LAF)、可信賴的模型微調(diào)指令、學(xué)習(xí)私密或有害信息等,這些在大模型魯棒性方面都能提高性能。

反而相對(duì)于對(duì)抗性訓(xùn)練的幫助很小,我個(gè)人認(rèn)為在圖像方面,對(duì)抗訓(xùn)練的方向非常明確。但是在大模型上,對(duì)抗性訓(xùn)練受很多方面的影響,例如網(wǎng)絡(luò)安全、有害信息等等,在對(duì)抗訓(xùn)練的時(shí)候,你可能把每一類都要考慮周全,這幾乎是不可能做到的。所以,其實(shí)會(huì)有更適合大模型的方法來(lái)提高人工智能價(jià)值對(duì)齊,而不是單純依賴于對(duì)抗性訓(xùn)練。

AI科技評(píng)論:您認(rèn)為可信AI的未來(lái)將如何發(fā)展?

李博:可信AI非常重要,現(xiàn)在大家基本上都能夠做模型的微調(diào),但是如何把完善好的大模型真正的運(yùn)用到實(shí)際解決問(wèn)題的場(chǎng)景中?大家目前不敢部署,因?yàn)橐坏┎渴?,就?huì)有一些安全爭(zhēng)議。

所以,我個(gè)人覺(jué)得,大模型可信AI的瓶頸會(huì)是把基礎(chǔ)模型部署到真正可使用到場(chǎng)景中的能力。

從基礎(chǔ)混合模型來(lái)看,需要解決如何對(duì)齊和微調(diào)的問(wèn)題。針對(duì)添加了額外的模型,需要考慮如何輔助它變得更安全;針對(duì)新添的知識(shí),能有一些額外的推理組件,真正做到可推理。這些是比較重要的手段來(lái)提高模型,包括最后的認(rèn)證,由于我們都不能保證模型什么時(shí)候還會(huì)變得易攻擊,所以需要一些認(rèn)證。

創(chuàng)立Virtue AI的動(dòng)機(jī)

AI科技評(píng)論:您為什么在去年年底成立Virtue AI公司?當(dāng)時(shí)有什么契機(jī)嗎?

李博:其實(shí)很早就想做一個(gè)有關(guān)模型層安全的公司,因?yàn)槲覀冎暗暮芏嗨惴ㄒ呀?jīng)被其他大公司用了,也想讓更多的人進(jìn)行更有效的使用。

之前確實(shí)沒(méi)有找到合適的契機(jī),因?yàn)楫?dāng)時(shí)模型還有發(fā)展起來(lái),還不能找到適合應(yīng)用它的場(chǎng)景。我們不知道模型中最重要的安全問(wèn)題到底是什么。從2023年初的ChatGPT一直到年底,基本上能部署到一些地方,比如Copilot都用起來(lái)了,所以這個(gè)時(shí)候安全的問(wèn)題就逐漸開(kāi)始顯現(xiàn),當(dāng)問(wèn)題出現(xiàn)的時(shí)候,公司成立正好可以去解決當(dāng)下的問(wèn)題,相當(dāng)于和問(wèn)題一起成長(zhǎng)。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊Virtue AI,照片來(lái)源:https://www.virtueai.com/research/

AI科技評(píng)論:做模型層的安全,您是基于什么考慮決定先做面向B端的?

李博:目前大模型好的應(yīng)用有很多都集中在B端,安全對(duì)于B端來(lái)說(shuō)更為嚴(yán)重,無(wú)論是巨大的經(jīng)濟(jì)損失還是人身安全的問(wèn)題,所以想要先去幫助B端解決問(wèn)題。

AI科技評(píng)論:目前團(tuán)隊(duì)的情況。

李博:我們目前團(tuán)隊(duì)成員15-20人,主要都是對(duì)AI安全領(lǐng)域非常感興趣的研究者,一群有夢(mèng)想的人聚集在一起,希望實(shí)現(xiàn)AI安全真正能夠部署在真實(shí)的場(chǎng)景中。

AI科技評(píng)論:你們的愿景目標(biāo)是什么?

李博近期目標(biāo),我們還是希望縮小大模型的發(fā)展和部署在實(shí)際場(chǎng)景之間的鴻溝,讓安全真正能運(yùn)用到場(chǎng)景中,確?,F(xiàn)有的AI模型能夠被保護(hù)起來(lái)。

長(zhǎng)期目標(biāo),我們也希望像Ilya的SSI公司擁有一個(gè)安全模型,不一定是超級(jí)安全智能,安全智能也可以。但是近期,我們不會(huì)聚焦在安全模型,眼前還有很多的問(wèn)題沒(méi)有解決,先讓AI能安全的用起來(lái),再去聚焦在新的安全模型的發(fā)展上。

AI科技評(píng)論:那目前主要的難點(diǎn)問(wèn)題什么?

李博:比如風(fēng)險(xiǎn)評(píng)估問(wèn)題,對(duì)于大模型我們會(huì)有一個(gè)理論認(rèn)證,但現(xiàn)在的認(rèn)證還不是非常令我們滿意,所以我們還在努力完善。另外大模型很大,我們本身有一些算法,但目前都比較貴,這也是一個(gè)問(wèn)題。

AI科技評(píng)論:公司在大模型安全這塊的技術(shù)是什么?

李博:目前在做風(fēng)險(xiǎn)評(píng)估,主要是攻擊技術(shù),幫助大家理解模型到底是否安全。其次,我們有一系列多模態(tài)的Guardrail模型,比如在文字,圖像,和視頻等領(lǐng)域去幫助大家保護(hù)現(xiàn)有的AI產(chǎn)品或者模型。

我們也有Safe Agent、Guardrail Agent和Virtue Agent。這些Agent可以吸收外部真實(shí)的信息,做一些決策和推理,然后確保安全。

AI科技評(píng)論:目前公司核心的競(jìng)爭(zhēng)力是什么?

李博:AI安全本身是一個(gè)很難的問(wèn)題,我們做了很久也還沒(méi)有徹底解決這個(gè)問(wèn)題。所以只做工程師是不夠的,還是需要一些核心的算法,根本上去識(shí)別和解決安全問(wèn)題。我們有十幾年的關(guān)于AI安全知識(shí)的積累,也有自己算法的積累。

AI科技評(píng)論:你之前一直在學(xué)術(shù)界,創(chuàng)立新公司對(duì)你來(lái)說(shuō)有哪些挑戰(zhàn)?

李博:挑戰(zhàn)有很多,商業(yè)模式和產(chǎn)品都是一些很新的領(lǐng)域,有很多的東西需要學(xué)習(xí)。但非常有意思的點(diǎn)是,我能夠近距離接觸工業(yè)界,從中了解到他們真正關(guān)心、擔(dān)心的AI安全問(wèn)題是什么以及希望得到什么樣的方式去解決問(wèn)題。

從之前研究角度,可能做出的總結(jié)不是工業(yè)界真正需要的。通過(guò)現(xiàn)在的公司,其實(shí)是能夠了解一些真正的需求和場(chǎng)景,所以這兩者之間對(duì)我來(lái)說(shuō)是相輔相成的。

AI科技評(píng)論:目前公司的產(chǎn)品有哪些?

李博:我們最近已經(jīng)發(fā)布了新產(chǎn)品,第一個(gè)產(chǎn)品線是面向AI模型、系統(tǒng)和代理的綜合風(fēng)險(xiǎn)評(píng)估平臺(tái),無(wú)論是哪種模型,我們都可以為大家提供風(fēng)險(xiǎn)評(píng)估;第二個(gè)產(chǎn)品線是Guardrail模型,這個(gè)模型會(huì)優(yōu)先給大家使用,做出一些輸入輸出的模型;第三個(gè)產(chǎn)品線是Safe Agent,用Agent去解決有關(guān)安全的問(wèn)題。

AI科技評(píng)論:目前主要在和哪些公司有合作,重點(diǎn)在做些什么?

李博:我們正在和斯坦福大學(xué)的HELM合作開(kāi)發(fā)AIR-BENCH 2024,這是一項(xiàng)綜合基準(zhǔn),為了評(píng)估遵循新興監(jiān)管框架的 AI 模型的安全性和合規(guī)性。

也和Huggingface 共同托管標(biāo)準(zhǔn)LLM安全排行榜,從公平性、穩(wěn)健性、隱私性和毒性等不同的安全性和可信度角度為基礎(chǔ)模型提供統(tǒng)一的評(píng)估。

AI科技評(píng)論:公司接下來(lái)重點(diǎn)要做的是什么?

李博:我們現(xiàn)在還是會(huì)積極招聘在AI和AI安全方面感興趣的人,雖然公司有產(chǎn)品也有客戶,但我們更注重研究,還是會(huì)發(fā)論文。接下來(lái)也想處理一些有挑戰(zhàn)的研究問(wèn)題,將其轉(zhuǎn)化為產(chǎn)品。

(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

(雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

UIUC 李博:如何探索大模型背后的安全隱憂?|ICML2024直擊

分享:
相關(guān)文章

主筆

有關(guān)智能硬件行業(yè)里扣人心弦的人與故事,歡迎添加微信rl0209-,期待和你交流。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)