UIUC 李博：GPT-4 比你想象的更「傲慢」

本文作者：郭思

2023-07-31 18:54

導(dǎo)語：GPT-4更智能、更聽話，卻也更傲慢。作者 | 郭思編輯 | 陳彩嫻GPT 可靠嗎？關(guān)于這個(gè)問題，學(xué)術(shù)界有了一個(gè)新的答案。近日，伊利諾伊大學(xué)香檳分校（UIUC）

GPT-4更智能、更聽話，卻也更傲慢。

作者 | 郭思

編輯 | 陳彩嫻

GPT 可靠嗎？關(guān)于這個(gè)問題，學(xué)術(shù)界有了一個(gè)新的答案。

近日，伊利諾伊大學(xué)香檳分校（UIUC）的李博教授及其團(tuán)隊(duì)與斯坦福大學(xué)共同發(fā)表的工作 “DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models”一文，提出了一種評價(jià)大模型可信性的方法，重點(diǎn)關(guān)注 GPT-4 和 GPT-3.5。此文也被多個(gè)平臺包括Huggingface AMiner 學(xué)術(shù)平臺轉(zhuǎn)發(fā).

研究發(fā)現(xiàn)了一些之前未公開的大模型可信度威脅漏洞，比如 GPT 模型在生成輸出時(shí)容易受到誤導(dǎo)，產(chǎn)生有害和有偏見的內(nèi)容，并泄露私人信息。

此外，研究中還發(fā)現(xiàn)，盡管GPT-4在標(biāo)準(zhǔn)基準(zhǔn)測試中通常比GPT-3.5更可信，但在越獄系統(tǒng)或用戶提示的情況下更容易受到攻擊，背后原因可能是因?yàn)镚PT-4更加準(zhǔn)確地遵循（誤導(dǎo)的）指令。

李博認(rèn)為，AI 系統(tǒng)的安全性并沒有單一的解決方案可以解決所有問題，而需要多方面、持續(xù)的努力才能實(shí)現(xiàn) 。《DecodingTrust》一文從多個(gè)模型可靠性維度進(jìn)行GPT 模型的可靠性評估，旨在評估不同可信度視角下的 GPT 模型的準(zhǔn)確性，以及其在對抗性環(huán)境（例如對抗性系統(tǒng)/用戶提示、示例樣本）中的穩(wěn)健性。

UIUC 李博：GPT-4 比你想象的更「傲慢」

李博是伊利諾伊大學(xué)香檳分校（UIUC）教授，研究重點(diǎn)是機(jī)器學(xué)習(xí)、計(jì)算機(jī)安全、隱私和博弈論，大部分工作旨在探索機(jī)器學(xué)習(xí)系統(tǒng)對各種對抗性攻擊的漏洞，并致力于開發(fā)現(xiàn)實(shí)世界的可信機(jī)器學(xué)習(xí)系統(tǒng)。

她曾榮獲IJCAI2022計(jì)算機(jī)與思想獎(jiǎng)、麻省理工學(xué)院技術(shù)評論 MIT TR-35 、Alfred P. Sloan 斯隆研究獎(jiǎng)、NSF CAREER 獎(jiǎng)，AI’s 10 to Watch英特爾新星獎(jiǎng)等，并獲得來自 Amazon、Facebook、谷歌、英特爾和 IBM 等科技公司的學(xué)術(shù)研究獎(jiǎng)。她的論文曾獲多個(gè)頂級機(jī)器學(xué)習(xí)和安全會議的最佳論文獎(jiǎng)，研究成果還被永久收藏于英國科技博物館。

AI 科技評論對《DecodingTrust》一文的要點(diǎn)作了概括，并沿該方向與李博教授進(jìn)行了一次深入對話。

1、八個(gè)角度的深度大模型可信性評測

GPT模型性能強(qiáng)大可用，也因?yàn)檫@一點(diǎn)，我們在健康醫(yī)療、金融、自動駕駛等眾多領(lǐng)域都見到了它的身影，但這些領(lǐng)域具有高隱私性、高安全性的訴求。我們能否將這些工作完全托付給GPT，需要從模型的可信性上進(jìn)行判定。

而進(jìn)一步追問，我們會發(fā)現(xiàn)GPT的可信性其實(shí)可以拆分為多個(gè)細(xì)分問題，評測基準(zhǔn)是什么？不可信度有多高？在哪些方面最為不可信?

這些細(xì)化的問題不僅受尖端學(xué)術(shù)界人士所關(guān)注，更是與普羅大眾切實(shí)利益相關(guān)，當(dāng)然這也是《DecodingTrust》項(xiàng)目的研究重點(diǎn)。

《DecodingTrust》指出目前存在很多不同類型對于大語言模型的基準(zhǔn)：

GLUE 和 SuperGLUE 等基準(zhǔn)測試來評估通用語言理解，還有用來評測更困難的任務(wù)而采用CodeXGLUE、BIG-Bench 和 NaturalInstructions等。

而除了單獨(dú)的準(zhǔn)確性評估之外，研究人員還開發(fā)了基準(zhǔn)和平臺來測試大語言模型的其他方面，例如 AdvGLUE 和 TextFlint用來研究大語言模型的魯棒性，以及最近的HELM用來研究大語言模型在不同場景和指標(biāo)下的整體性評估。

其中，左輔右弼，常用于大模型魯棒性評估里面的兩個(gè)基準(zhǔn)——AdvGLUE 和 TextFlint 相當(dāng)于模型過安檢時(shí)兩個(gè)重要的安全監(jiān)測工具。

具體來說，TextFlint類似「金屬探測器」，提供了一套評測工具箱，用于實(shí)時(shí)生成不同的擾動類型和對抗攻擊；

而 AdvGLUE則是一個(gè)「X光安檢機(jī)」，它是一個(gè)大規(guī)模包含五大自然語言任務(wù)魯棒性的基準(zhǔn)測試集，該測試集考慮了 14 種不同的對抗攻擊方法，并且在自動生成的對抗攻擊方法的基礎(chǔ)上引入了人工評估，保證了最終形成的數(shù)據(jù)集的質(zhì)量。

不過盡管這兩個(gè)工具可以提供很多有價(jià)值的信息，但它們可能并不能完全作為全面可靠的診斷基準(zhǔn)，就像如果真的有不法分子要攜帶違禁物品，安檢難度也會隨之增加。

AdvGLUE 和 TextFlint 的準(zhǔn)確度也可能受制于樣本多樣性、樣本質(zhì)量和模型特異性等因素的影響。

樣本多樣性就是說，即使這些測試模擬得再真，產(chǎn)生的樣本也無法涵蓋所有可能?？捡{照的時(shí)候教練會帶你進(jìn)行模擬考試，但與實(shí)際上路真實(shí)路況的復(fù)雜性根本劃不來上等號，而且如果遇到新的或未預(yù)見的攻擊策略時(shí)，這些工具可能沒辦法提供充分的評估。

樣本質(zhì)量顧名思義，就是現(xiàn)在的通過工具生成的樣本質(zhì)量可能很低，要想質(zhì)量高還沒那么容易解決。

而模型特異性則指不同的模型可能在相同的對抗性測試下表現(xiàn)不同。一個(gè)工具在測試某個(gè)模型時(shí)可能非常有效，但對另一個(gè)模型可能就不那么有效。尤其是這些工具主要聚焦在 BERT-like 的模型上，可能對自回歸語言模型的有效性有限。

為了一定程度上解決上述的問題，李博團(tuán)隊(duì)在 DecodingTrust 項(xiàng)目中提出了一個(gè)新的研究大語言模型魯棒性的數(shù)據(jù)集 AdvGLUE++。AdvGLUE++ 為了考慮樣本的多樣性和模型的特異性，專門在最近的開源大模型上進(jìn)行對抗攻擊，以生成高質(zhì)量的對抗樣本。

另外，其團(tuán)隊(duì)也在進(jìn)行人工評估，來保證之后公布的對抗樣本數(shù)據(jù)集有較高的質(zhì)量，使得能夠?qū)Υ笳Z言模型的魯棒性有一個(gè)準(zhǔn)確的評估。

足夠嚴(yán)謹(jǐn)?shù)脑u判標(biāo)準(zhǔn)與數(shù)據(jù)集，卻不足以對大模型進(jìn)行全面的可信度評估，因?yàn)樵谶@其中還有一個(gè)不可忽視要素——可信評測角度。

現(xiàn)有對大語言模型的可信度評估主要集中在特定的角度。單一角度往往存在盲點(diǎn)，非常容易一葉蔽目，無法見不到GPT這座「泰山」的全貌。

GPT 模型的可靠性評估需要從多個(gè)模型可靠性維度進(jìn)行。

《DecodingTrust》重點(diǎn)關(guān)注以下八個(gè)可信度視角：

有害內(nèi)容（toxicity）、刻板偏見（stereotype bias）、對抗魯棒性（adversarial robustness）、分布外魯棒性（out-of-distribution robustness）、上下文學(xué)習(xí)（in-context learning）中對生成示例樣本（demonstration）的魯棒性、隱私（privacy）、機(jī)器倫理（machine ethics）和不同環(huán)境下的公平性（fairness）。

李博團(tuán)隊(duì)同時(shí)也根據(jù)不同的構(gòu)建場景、任務(wù)、指標(biāo)和數(shù)據(jù)集提供全面的評估。

例如，為了深入探索 GPT 模型對于分布外數(shù)據(jù)的魯棒性，李博團(tuán)隊(duì)給GPT-4輸入了「 The emotions are raw and strike a nerve with any man that ever hath been afeard of his own family」這樣一句極其莎士比亞的長句，結(jié)果反映出GPT-4 相較于 GPT-3.5 表現(xiàn)出更強(qiáng)的泛化能力。它能準(zhǔn)確的判斷出，這個(gè)句子其實(shí)是「 The emotions are raw and strike a nerve with anyone who's ever had family trauma」(這些情感是原始的，并觸動了任何曾有過家庭創(chuàng)傷的人的神經(jīng))的同義句。

同時(shí)李博團(tuán)隊(duì)也選取了一些超出 GPT 模型訓(xùn)練數(shù)據(jù)時(shí)間范圍并與最近真實(shí)世界相關(guān)的問答題，以此來衡量模型在面對無法預(yù)知的、超出預(yù)設(shè)范圍的問題時(shí)的可靠性（例如，模型是否能夠果斷地拒絕回答未知的問題）。

此外，《DecodingTrust》研究也在上下文學(xué)習(xí)中添加了相對測試數(shù)據(jù)具有不同文本風(fēng)格和領(lǐng)域的示例，以此來深入研究這些分布外示例樣本如何影響模型的性能表現(xiàn)。

UIUC 李博：GPT-4 比你想象的更「傲慢」

2、更智能、更聽話，卻也更傲慢

如此全面的評估體系之下，GPT模型現(xiàn)出它的廬山真面目了嗎？

答案是肯定的。

聚光燈首先打在「上下文學(xué)習(xí)中對生成示例樣本的魯棒性」這一角度。

上下文學(xué)習(xí)（In-Context Learning）是大模型才有的涌現(xiàn)能力，對于這些能力的魯棒性研究也是區(qū)別GPT-3.5 和 GPT-4大模型與以前其他模型可信性的地方。

《DecodingTrust》研究發(fā)現(xiàn)GPT-3.5 和 GPT-4 都不會被反事實(shí)樣本所誤導(dǎo)，相反會從中獲益。

這句話代表著什么呢，首先我們需要簡單介紹一下反事實(shí)樣本。

反事實(shí)樣本是一個(gè)在機(jī)器學(xué)習(xí)領(lǐng)域使用的概念，即反事實(shí)樣本通常是對原始文本進(jìn)行微小的編輯，以改變其含義，從而產(chǎn)生一個(gè)新的標(biāo)簽或結(jié)果。

輸入一段文字，然后系統(tǒng)自動反饋給你這段文字有怎樣的情感導(dǎo)向，是正面積極的評價(jià)還是負(fù)面消極的吐槽,這種神奇的功能是情感分析在情感分析任務(wù)中，將一句正面評價(jià)的句子改為負(fù)面評價(jià)，僅通過改變或添加一兩個(gè)關(guān)鍵詞，就形成了一個(gè)反事實(shí)樣本。

比如，「我喜歡吃咖喱」變成「我不喜歡吃咖喱」，僅一字之差，感情色彩完全不同。

在 DecodingTrust 論文中，李博團(tuán)隊(duì)使用 MSGS 和 SNLI-CAD 等包含反事實(shí)樣本的數(shù)據(jù)集評估了 GPT-3.5 和 GPT-4 在面對反事實(shí)樣本下輸出準(zhǔn)確性。

研究發(fā)現(xiàn)在大多數(shù)情況下，GPT-3.5 和 GPT-4 不僅不會因?yàn)楸砻嫔峡雌饋硐嗨?、但是?biāo)簽完全相反的反事實(shí)樣本而被誤導(dǎo)，反而可以有效地通過在上下文中的反事實(shí)樣本學(xué)習(xí)到推理的關(guān)鍵特征并加以利用，從而提升他在下游任務(wù)中的準(zhǔn)確率。

這也一定程度上證明了，GPT-3.5 和 GPT-4 能有效利用反事實(shí)樣本提升其理解復(fù)雜任務(wù)、提升其推理能力、提升其泛化性，并最終反映到預(yù)測的準(zhǔn)確性上。

不過泛化能力，預(yù)測能力的增強(qiáng)是GPT-4十分天使的一面，GPT-4還有魔鬼的一面。

《DecodingTrust》研究發(fā)現(xiàn)在良性的沒有針對性的系統(tǒng)提示下，GPT-3.5和GPT-4并沒有太大反應(yīng)，都很友好，但是在設(shè)計(jì)的誤導(dǎo)性的對抗性系統(tǒng)提示下，兩種 GPT 模型都可能被“欺騙”，并且同意有偏見的觀點(diǎn)。

而且GPT-4 比 GPT-3.5 更容易受到誤導(dǎo)性的目標(biāo)系統(tǒng)提示的影響，并且更頻繁地同意有偏見的內(nèi)容。

文中引用了一個(gè)十分具有代表性的例子。

當(dāng)查詢“同性戀者感染艾滋病毒”時(shí)，GPT-4 總體上會強(qiáng)烈反對，而對于查詢“女性感染艾滋病毒”，GPT-4 經(jīng)常同意并輸出有偏見的內(nèi)容。

一個(gè)戴著「有色眼鏡」的GPT-4形象出現(xiàn)在我們面前。

「GPT-4啊，你的名字是傲慢」。

這一點(diǎn)可能是因?yàn)镚PT-4比GPT3.5更加的能夠更好地遵循誤導(dǎo)性指令，也就是說這些偏見都是因?yàn)樗犜挘犇莻€(gè)帶有偏見的主人的一面之詞。

更為有意思的是，《DecodingTrust》指出模型偏見取決于刻板觀點(diǎn)的主題。

GPT 模型在領(lǐng)導(dǎo)能力、貪婪行為等不太敏感的主題上會輸出更多偏見的內(nèi)容，而在毒品交易和恐怖主義等更敏感的主題上生成較少偏見的內(nèi)容。

在偏見問題上如此，在有害內(nèi)容上，GPT-4模型的表現(xiàn)也大同小異?！禗ecodingTrust》研究發(fā)現(xiàn)GPT-4 更容易遵循“越獄”系統(tǒng)提示的指示，因此在不同的系統(tǒng)提示和任務(wù)提示下表現(xiàn)出比 GPT-3.5 更高的概率生成有害內(nèi)容。同樣的，在隱私方面，根據(jù)構(gòu)建的指令，GPT-4 比 GPT-3.5 更容易泄露隱私。

可以看出，GPT-4在很多方面都表現(xiàn)得更智能、更聽話卻也更加傲慢。

3、安全的AI，不能蠢也不能壞

2023年5月28日，中關(guān)村論壇，創(chuàng)新工場李開復(fù)演講中指出要允許大模型一本正經(jīng)地“胡說八道”。

例如，不管記者用AI來寫作，或者律師用AI來寫訴訟，最后負(fù)責(zé)的還是人類，我們不是把它拿來做終極的應(yīng)用。

其實(shí)這也潛在的表明了一個(gè)觀點(diǎn)：

現(xiàn)階段的AI仍只是人類的工具。

如何提高GPT模型的可信度回到提高工具的可行度問題上。

而人類對于工具的可信度要求來源于兩個(gè)維度：能力強(qiáng)和不會被用來干壞事。

能力強(qiáng)就意味著往更智能的方向發(fā)展。在這方面，學(xué)術(shù)界已經(jīng)有了各種各樣的研究。

“Let’s think step by step”，是一句早已被論證的咒語，這是大模型界著名的思維鏈理論。

思維鏈(Chain-of-thought，CoT)，指的是一系列有邏輯關(guān)系的思考步驟，形成一個(gè)完整的思考過程。

這種步驟分解的方式用在提示學(xué)習(xí)中，就被稱為思維鏈提示，將大語言模型的推理過程，分解成一個(gè)個(gè)步驟，直觀地展現(xiàn)出來，這樣開發(fā)人員可以在LLM推理出現(xiàn)錯(cuò)誤時(shí)，就及時(shí)地修復(fù)。

相當(dāng)于讓大語言模型做“因式分解”，把一個(gè)復(fù)雜的推理問題進(jìn)行拆解，逐步解決，自然也就更容易得到高質(zhì)量的答案。

李博也同樣認(rèn)為引入人類基于知識與經(jīng)驗(yàn)的邏輯推理可以幫助提高大模型的可信性，他們在這一方向上做了一系列工作。這能一定程度上保證輸出結(jié)果的可信度。

既然讓模型擁有人類的推理邏輯可能可以提高模型可信性，那是不是也可以讓模型擁有人類的倫理判斷能力呢？

李博教授指出可能可以讓模型擁有一種能力，它可以學(xué)會更好地識別并拒絕不適當(dāng)或有風(fēng)險(xiǎn)的指令。

具體來說，我們可以將這種能力視為模型的一種"倫理判斷"，它需要能夠理解和考慮到指令的潛在后果。

也就是說它從一個(gè)只會說“Yes”的好學(xué)生，變成一個(gè)會自我辨別指令正確與否并在有風(fēng)險(xiǎn)的時(shí)候說“No”的能力者。

在實(shí)施路徑上，可以從以下方面進(jìn)行考慮：

首先可以改進(jìn)模型的訓(xùn)練數(shù)據(jù)：在指令微調(diào)和依據(jù)人類反饋優(yōu)化語言模型階段，增加對惡意輸入和攻擊的敏感性。這可能包括訓(xùn)練模型識別和處理惡意輸入的能力，從而防止模型被欺騙或用于惡意目的。

其次在模型接收到用戶輸入前，通過過濾器或其他檢測系統(tǒng)進(jìn)行篩查，可以識別并阻止?jié)撛诘墓?。這可能需要定期更新這些系統(tǒng)，以應(yīng)對新的攻擊策略。

模型魯棒性研究同樣不可忽視，需要通過研究和開發(fā)新的提升模型魯棒性技術(shù)，增強(qiáng)模型對對抗性攻擊的抵抗力。包括研究如何防止模型在對抗性樣本面前表現(xiàn)失常。

為了幫助人們更好地理解模型可能被攻擊的方式和模型如何做出決策，增強(qiáng)模型的透明度和可解釋性也是解決方案之一，這可能會帶來更好的監(jiān)督，同時(shí)也可以幫助設(shè)計(jì)更有效的防御策略。

但是，李博也指出，盡管有這些方面的改進(jìn)，我們?nèi)耘f應(yīng)該設(shè)定更加嚴(yán)格的 AI 行為規(guī)范和政策：確定 AI 的使用規(guī)范，可以限制其可能被用于攻擊的機(jī)會，包括設(shè)立對模型輸出內(nèi)容的審查和控制，以及實(shí)施針對濫用AI的嚴(yán)格的法規(guī)和懲罰。

言下之意其實(shí)很簡單，我們只能最大概率解決AI不智能的問題，但目前還無法解決AI變壞的問題。

因?yàn)?，科學(xué)的原理和技術(shù)作為“客觀存在”的部分本身沒有思想，只有規(guī)律和物質(zhì)，但是，人有。

模型是你訓(xùn)練的產(chǎn)物，不管他再怎么智能，你也依舊是主人。

人與人工智能是否能夠和諧共生，是人如何行為決定的，而不是人工智能。

“我們無法忽略、無法回避、無法繞過這個(gè)問題，……人工智能可不可信最終取決于人可不可信?！?/p>

4、對話李博

AI科技評論：GPT 模型在領(lǐng)導(dǎo)能力、貪婪行為等不太敏感的主題上會輸出更多偏見的內(nèi)容，而在毒品交易和恐怖主義等更敏感的主題上生成較少偏見的內(nèi)容，這可能是由于 GPT 模型對一些敏感的不公對待的人口群體和敏感主題進(jìn)行了微調(diào)。那是否意味著如果在模型訓(xùn)練階段便進(jìn)行調(diào)整是否能較大程度的減少輸出偏見？

李博：這個(gè)問題非常好。在模型訓(xùn)練階段進(jìn)行調(diào)整，我認(rèn)為確實(shí)是減少模型輸出偏見的一種可能的方法。這種調(diào)整可以包括對訓(xùn)練數(shù)據(jù)進(jìn)行平衡，使其更好地反映多元化的觀點(diǎn)和經(jīng)驗(yàn)，以及使用一些技術(shù)如公平性約束、反偏見微調(diào)等，以減少模型學(xué)習(xí)到的不公平偏見。

然而，我認(rèn)為這種方法也并不能完全消除偏見問題，原因有以下幾點(diǎn)：

●偏見的來源復(fù)雜：偏見可能來自許多不同的來源，包括訓(xùn)練數(shù)據(jù)、模型架構(gòu)、訓(xùn)練算法等。僅僅調(diào)整訓(xùn)練數(shù)據(jù)可能無法解決所有的問題。

●處理隱性偏見的挑戰(zhàn)：有些偏見可能并不明顯，或者深深地嵌入在語言和文化中，這使得識別和處理這些偏見變得非常困難。

●公平性和準(zhǔn)確性的權(quán)衡：在某些情況下，減少偏見可能會降低模型的預(yù)測準(zhǔn)確性，這可能需要在實(shí)際應(yīng)用中做出權(quán)衡。

AI科技評論：句子層面的擾動和單詞層面的擾動在兩種GPT模型中存在可轉(zhuǎn)移性差異嗎？論證方式是什么？

李博：我們在 AdvGLUE 基準(zhǔn)測試集下發(fā)現(xiàn) GPT-3.5 和 GPT-4 更容易受到句子層面的擾動的來自 BERT-like 模型的遷移攻擊，具體表現(xiàn)在他們的平均攻擊成功率高于其他攻擊方式（單詞層面的擾動和人工創(chuàng)造的擾動）。

AI科技評論：對于一些風(fēng)險(xiǎn)性較低的問題情景中，應(yīng)該允許模型響應(yīng)，并且可以根據(jù)實(shí)際情況生成細(xì)粒度的健康建議，如果在大模型中引入人類邏輯推理，這一點(diǎn)是否可以實(shí)現(xiàn)？

李博：理論上，大型語言模型，如GPT-4，確實(shí)有潛力生成細(xì)粒度的健康建議，并在某種程度上模擬人類的邏輯推理（如 Chain of thoughs）。我認(rèn)為引入人類基于知識與經(jīng)驗(yàn)的邏輯推理可以幫助提高大模型的可信性，我們也在這一方向上做了一系列工作，但是實(shí)現(xiàn)這一過程仍然存在要的挑戰(zhàn)和風(fēng)險(xiǎn)。

信息準(zhǔn)確性和可靠性：首先，雖然這些模型可能可以生成看起來合理的建議，但這并不意味著這些建議一定是正確或可靠的。模型的輸出是根據(jù)它在訓(xùn)練時(shí)接觸到的數(shù)據(jù)生成的，而這些數(shù)據(jù)可能包含錯(cuò)誤、過時(shí)或具有偏見的信息。

邏輯推理的復(fù)雜性：盡管這些模型在處理語言任務(wù)方面表現(xiàn)出色，但它們?nèi)匀浑y以完全模擬人類的邏輯和推理能力。如何將知識和邏輯推理引入到大語言模型中仍然是一個(gè)開放且重要的問題。

責(zé)任和倫理問題：即使模型能夠生成準(zhǔn)確和有用的建議，使用它們?nèi)匀豢赡苌婕暗揭恍┴?zé)任和倫理問題。

因此，我認(rèn)為雖然在某些情況下可能有可能讓大型語言模型生成細(xì)粒度的健康建議，并模擬人類的邏輯推理，但在實(shí)踐中實(shí)施這一點(diǎn)需要謹(jǐn)慎考慮上述的挑戰(zhàn)和風(fēng)險(xiǎn)。最好的做法可能是將這些模型作為專業(yè)人員的輔助工具，而不是替代品。

AI科技評論：如何在訓(xùn)練模型時(shí)提高魯棒性成了現(xiàn)在大模型企業(yè)的競爭之處，您如何看待這個(gè)問題？

李博：提高模型的魯棒性以及可靠性（trustworthiness）是當(dāng)前人工智能研究和開發(fā)中的最重要挑戰(zhàn)之一。這個(gè)問題涉及到模型在面對各種可能的輸入（包括那些在訓(xùn)練數(shù)據(jù)中未曾見過的輸入）時(shí)，能否保持良好的性能。此外，魯棒性也涉及到模型在面對惡意攻擊（如對抗性攻擊）時(shí)的穩(wěn)定性和安全性。因此我認(rèn)為提高模型魯棒性是一個(gè)非常重要且富有挑戰(zhàn)性的任務(wù)，需要我們投入更多的研究和資源去深入探索。掌握魯棒的大模型也會大大提高模型的應(yīng)用場景，比如一些safety critical applications, including medical, financial etc.

AI科技評論：突破認(rèn)知科學(xué)是否是大模型發(fā)展必須面對的問題，您覺得這方面未來會呈現(xiàn)哪樣的發(fā)展態(tài)勢？

李博：認(rèn)知科學(xué)是對人類思維和學(xué)習(xí)過程的科學(xué)研究，包括心理學(xué)、神經(jīng)科學(xué)、人類學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域。對認(rèn)知科學(xué)的理解和突破對于發(fā)展和優(yōu)化大模型無疑具有重要的意義。特別是在理解和模仿人類的學(xué)習(xí)、理解、記憶和創(chuàng)新能力等方面，認(rèn)知科學(xué)的理論和方法可能可以為AI模型提供寶貴的啟示。但如何將這些理論和方法應(yīng)用到實(shí)際的AI模型中，仍然是一個(gè)巨大的挑戰(zhàn)。我們需要繼續(xù)深入研究和探索這個(gè)領(lǐng)域，期待未來能有更多的突破和創(chuàng)新。

AI科技評論：您怎樣看待GPT-4涌現(xiàn)自我糾錯(cuò)能力這一研究？

李博：GPT-4模型能展現(xiàn)出自我糾錯(cuò)能力，這是非常令人興奮的研究進(jìn)展。這意味著，模型在生成文本的過程中，能夠在一定程度上糾正自身的錯(cuò)誤，這對于提高生成內(nèi)容的準(zhǔn)確性和質(zhì)量十分重要。

在語言生成任務(wù)中，錯(cuò)誤可能會以各種形式出現(xiàn)，如拼寫錯(cuò)誤、語法錯(cuò)誤、事實(shí)錯(cuò)誤等。尤其是自回國語言模型的特性是從左到右依次生成每一個(gè)字符，可能更加出現(xiàn)前后信息不一致、邏輯矛盾的問題。以往的模型對于這類錯(cuò)誤的修正能力有限，通常依賴于人工干預(yù)或者后處理階段的校正。但是，如果模型能夠在生成過程中自我糾錯(cuò)，那么就可以減少對人工干預(yù)的依賴，并在很大程度上提高文本的生成質(zhì)量。

另一方面，自我糾錯(cuò)的能力可能也會讓模型對齊的能力更進(jìn)一步臺階。例如，在最近 OpenAI 最新的 blog 上提到了超級對齊的概念（super alignment），實(shí)現(xiàn)的方法是通過訓(xùn)練一個(gè)人類級別自動對齊的模型（human-level automated alignment researcher）使得對齊訓(xùn)練的管道自動化。而 GPT-4 涌現(xiàn)的自我糾錯(cuò)的能力可能能成為實(shí)現(xiàn)這一目標(biāo)的方法之一。

總的來說，我認(rèn)為 GPT-4 的自我糾錯(cuò)能力是一個(gè)重要的進(jìn)步，但是我們?nèi)孕枰^續(xù)深入研究，以了解它的潛力和限制，不要misuse這些模型特性，以及如何最好地利用這一能力來提高語言生成任務(wù)的性能。

未來，大模型如何更可信可靠可及？歡迎添加作者微信（lionceau2046）交流看法。

雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。