0
本文作者: 我在思考中 | 2022-08-25 10:40 |
前段時(shí)間,谷歌工程師聲稱自家的 AI 聊天機(jī)器人 LaMDA 具有了意識(shí),引發(fā)了一片混亂。
LaMDA 是一種大型語(yǔ)言模型(LLM),能夠基于任何給定文本預(yù)測(cè)出可能出現(xiàn)的下一個(gè)單詞。許多對(duì)話在某種程度上都很容易預(yù)測(cè),所以這種系統(tǒng)可以推動(dòng)并保持對(duì)話流暢地進(jìn)行。LaMDA 在這一點(diǎn)上表現(xiàn)非常出色,以至于這位叫 Blake Lemoine 的工程師開(kāi)始懷疑它產(chǎn)生了類人的知覺(jué)。
隨著 LLM 越來(lái)越普遍,變得越來(lái)越強(qiáng)大,人類對(duì) LLM 的看法也越發(fā)不同。的確,如今的系統(tǒng)已經(jīng)超越了許多“常識(shí)”語(yǔ)言推理的基準(zhǔn),但很多系統(tǒng)仍然缺乏常識(shí),很容易出現(xiàn)胡說(shuō)八道、不合邏輯和危險(xiǎn)的建議。所以這就引出了一個(gè)很矛盾的問(wèn)題:為什么這些系統(tǒng)如此地智能,同時(shí)又如此地具有局限性?
最近,圖靈獎(jiǎng)得主 Yann LeCun 與紐約大學(xué)的博士后研究員 Jacob Browning 在 Noema 雜志上共同發(fā)表了一篇文章,對(duì)這個(gè)問(wèn)題給出了回答:
根本問(wèn)題不在于 AI 本身,而是在于語(yǔ)言的有限性。
他給出了這樣的論證:
2.大部分人類知識(shí)和所有動(dòng)物的知識(shí)都是非語(yǔ)言的(非象征性的)。
3.因此大型語(yǔ)言模型無(wú)法接近人類水平的智能。
顯然,LeCun 認(rèn)為我們應(yīng)當(dāng)摒棄關(guān)于語(yǔ)言與思維之間關(guān)系的舊假設(shè),即語(yǔ)言與思維具有同一性。在他看來(lái),這些語(yǔ)言系統(tǒng)天生就是「膚淺」的,即使是地球上最先進(jìn)的 AI,也永遠(yuǎn)不可能獲得人類所具有的全部思維。
這種觀點(diǎn)實(shí)際上否認(rèn)了圖靈測(cè)試的有效性。圖靈測(cè)試的基礎(chǔ)是,如果一臺(tái)機(jī)器說(shuō)出它要說(shuō)的一切,就意味著它知道自己在說(shuō)什么,因?yàn)橹勒_的句子以及何時(shí)使用這些句子會(huì)耗盡它們的知識(shí)。
LeCun 首先從語(yǔ)言哲學(xué)的角度談起,來(lái)闡釋圖靈測(cè)試的思想基礎(chǔ)及其不合理之處。
19 世紀(jì)和 20 世紀(jì)的語(yǔ)言哲學(xué)認(rèn)為,“知道某事”就意味著能夠想出一個(gè)正確的句子,并知道在我們所知的真理大網(wǎng)絡(luò)中,它是如何與其他句子聯(lián)系起來(lái)的。按照這種邏輯,理想的的語(yǔ)言形式便是一種數(shù)理邏輯的純形式化語(yǔ)言,它由嚴(yán)格的推理規(guī)則連接的任意符號(hào)組成。但如果你愿意花點(diǎn)力氣去消除歧義和不精確性,那使用自然語(yǔ)言也可以。
語(yǔ)言哲學(xué)家維特根斯坦曾說(shuō):“真命題的總和就構(gòu)成了自然科學(xué)的整體?!遍L(zhǎng)期以來(lái),人們都深信,邏輯數(shù)學(xué)、形式化是語(yǔ)言的必要基礎(chǔ)。在 AI 領(lǐng)域,這種立場(chǎng)的體現(xiàn)便是符號(hào)主義:我們所能知曉的一切都可以寫在百科全書中,所以只要閱讀所有內(nèi)容就能讓我們對(duì)所有事物都有全面的了解。在早期,這種根據(jù)邏輯規(guī)則以不同的方式將任意符號(hào)綁定在一起的操作成了人工智能的默認(rèn)范式。
在這種范式下,AI 的知識(shí)就是由大量的真實(shí)語(yǔ)句數(shù)據(jù)庫(kù)組成,這些句子通過(guò)人工邏輯相互連接起來(lái)。判斷 AI 是否具有智能的標(biāo)準(zhǔn),就是看它是否能在正確的時(shí)間“吐”出正確的句子,也就是看它能否以恰當(dāng)?shù)姆绞絹?lái)操縱符號(hào)。這便是圖靈測(cè)試的基礎(chǔ)。
但 LeCun 認(rèn)為,將人類專業(yè)知識(shí)提煉成一套規(guī)則和事實(shí)證明是非常困難、耗時(shí)且昂貴的。雖然為數(shù)學(xué)或邏輯編寫規(guī)則很簡(jiǎn)單,但世界本身卻是非常模棱兩可的。
所以在 LLM 問(wèn)題上,LeCun 并不認(rèn)同圖靈測(cè)試所基于的思想,他認(rèn)為:機(jī)器可以談?wù)撊魏问虑?,這并不意味著它理解自己在說(shuō)什么。因?yàn)檎Z(yǔ)言并不會(huì)窮盡知識(shí),相反,語(yǔ)言只是一種高度具體且非常有限的知識(shí)表征。無(wú)論是編程語(yǔ)言、符號(hào)邏輯還是自然語(yǔ)言,它們都具有特定類型的表征模式,都擅長(zhǎng)在極高的抽象層次上表達(dá)離散的對(duì)象和屬性以及它們之間的關(guān)系。
所有的表征模式都涉及對(duì)關(guān)于某事信息的壓縮,但壓縮所留下和遺漏的內(nèi)容各不相同。語(yǔ)言的表征模式處理的是更具體的信息,例如描述不規(guī)則的形狀、物體的運(yùn)動(dòng)、復(fù)雜機(jī)制的功能或繪畫時(shí)細(xì)致入微的筆觸,如果要描述一個(gè)沖浪事件時(shí),還要考慮特定語(yǔ)境中的動(dòng)作。
另外還有一些非語(yǔ)言的表征方式,它們可以用一種更易于理解的方式來(lái)傳達(dá)信息,比如象征性的知識(shí),包括圖像、錄音、圖表和地圖等等。在經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中發(fā)現(xiàn)的分布式知識(shí)也是如此。
LeCun 認(rèn)為,語(yǔ)言表征圖式的特點(diǎn)是它傳遞的信息非常少,這也是它具有局限性的原因。
從信息傳輸?shù)慕嵌瓤?,語(yǔ)言傳輸信息的帶寬非常低:孤立的單詞或句子,沒(méi)有上下文,傳達(dá)的內(nèi)容很少。在語(yǔ)言學(xué)家看來(lái),自然語(yǔ)言也從來(lái)不是一種清晰明確的交流工具,由于同音異義詞和代詞的數(shù)量眾多,很多句子都非常有歧義。
那么,自然語(yǔ)言是不是就非常妨礙我們表達(dá)自己的思想呢?顯然不是。LeCun 指出,人類并不需要完美的交流工具,因?yàn)槲覀儗?duì)許多非語(yǔ)言有共同的理解。我們對(duì)一個(gè)句子的理解通常取決于我們其上下文的更深入理解,從而推斷出這個(gè)句子所要表達(dá)的含義。
在談話中,對(duì)話者通常有相同的知識(shí)背景。比如你和朋友談?wù)撗矍罢诓シ诺淖闱虮荣?,或者一個(gè)人在其扮演的特定社會(huì)角色下進(jìn)行某種目標(biāo)明確的交流,如消費(fèi)者從服務(wù)員那里點(diǎn)菜。
在閱讀情境中也是如此,研究表明,兒童對(duì)當(dāng)前話題的背景知識(shí)的多少是理解一個(gè)句子或段落的關(guān)鍵因素。而 AI 在這種常識(shí)性語(yǔ)言測(cè)試中的表現(xiàn)并不好。
LeCun 由此指出,單詞和句子的所在語(yǔ)境是 LLM 的核心。神經(jīng)網(wǎng)絡(luò)通常將知識(shí)表示為一種叫做「know-how」的能力,即掌握高度上下文敏感的模式并找到規(guī)律(具體的和抽象的)的熟練能力。在特定任務(wù)中,以不同的方式處理輸入,需要應(yīng)用這些規(guī)律。
具體到 LLM 中,這涉及系統(tǒng)在現(xiàn)有文本的多個(gè)層次上的識(shí)別模式,既可以看到單個(gè)單詞在段落中是如何連接的,也可以看到句子之間如何連接在一起以構(gòu)成更大的段落。所以,LLM 對(duì)語(yǔ)言的掌握一定是上下文相關(guān)的。它對(duì)每個(gè)單詞的理解不是根據(jù)其字典含義,而是根據(jù)它在各種句子中的作用來(lái)理解。
所以,LLM 應(yīng)當(dāng)是什么樣?LeCun 的觀點(diǎn)是,LLM 的訓(xùn)練目標(biāo)應(yīng)當(dāng)是讓它可以了解每個(gè)句子的背景知識(shí),觀察周圍的單詞和句子來(lái)拼湊出正在發(fā)生的事情。這樣它就可以無(wú)限可能地使用不同的句子或短語(yǔ)作為輸入,并以合理的方式來(lái)繼續(xù)對(duì)話或續(xù)寫文章。在人類寫下的文字段落上進(jìn)行訓(xùn)練的系統(tǒng),會(huì)經(jīng)常相互交談,所以它們應(yīng)當(dāng)具備展開(kāi)一段有趣對(duì)話所需的一般性理解。
不少人不愿說(shuō) LLM 的行為是「理解」,也不愿意認(rèn)為L(zhǎng)LM是「有智能的」,批評(píng)者們認(rèn)為 LLM 只是在進(jìn)行某種模仿,這樣想的確有道理。因?yàn)?LLM 對(duì)語(yǔ)言的理解雖然乍一看很厲害,但實(shí)際卻很膚淺。這種粗淺的理解似曾相識(shí):教室里的學(xué)生個(gè)個(gè)都在高談闊論,卻都不知道自己在說(shuō)什么——他們只是在模仿教授或自己閱讀的文本說(shuō)話,模仿得很像而已。
這恰恰體現(xiàn)了真實(shí)世界的屬性:我們常常不知道自己其實(shí)所知甚少,尤其是基本沒(méi)從語(yǔ)言里獲得什么知識(shí)。
LLM 對(duì)一切事物都抱有這種膚淺的認(rèn)識(shí)。像 GPT-3 這樣的系統(tǒng)通過(guò)屏蔽句子/文章中可能出現(xiàn)的單詞,讓機(jī)器猜測(cè)最有可能出現(xiàn)的單詞,最后再糾正錯(cuò)誤的猜測(cè)。這個(gè)系統(tǒng)最終會(huì)被訓(xùn)練得能夠熟練猜測(cè)最有可能出現(xiàn)的單詞,于是乎便成為了一個(gè)有效的預(yù)測(cè)系統(tǒng)。
但是,從語(yǔ)言上解釋一個(gè)概念的能力不同于實(shí)際使用該概念的能力。系統(tǒng)可以解釋如何進(jìn)行長(zhǎng)除法運(yùn)算,但卻無(wú)法完成長(zhǎng)除法運(yùn)算;系統(tǒng)也能夠解釋哪些詞是不應(yīng)該說(shuō)出口的冒犯詞匯,然后毫無(wú)壓力地說(shuō)出口。語(yǔ)境知識(shí)體現(xiàn)在背誦語(yǔ)言知識(shí)的能力上,卻沒(méi)有體現(xiàn)在處理問(wèn)題的能力上。
而對(duì)語(yǔ)言使用者來(lái)說(shuō),處理問(wèn)題的能力才是必不可少的,但是能夠處理問(wèn)題并不意味著他們具備相關(guān)的語(yǔ)言技能。這個(gè)情況在很多地方都有體現(xiàn),比如科學(xué)課會(huì)要求學(xué)生演講,但學(xué)生得到的分?jǐn)?shù)主要還是基于他們的實(shí)驗(yàn)效果。尤其是在人文學(xué)科之外,能夠談?wù)撃呈峦煌A粼诒砻妫€是讓事情順利運(yùn)轉(zhuǎn)起來(lái)的技能更有用、更重要。
一旦我們深入到表面以下,就更容易看到系統(tǒng)的局限性:它們的注意力持續(xù)時(shí)間和記憶大致只夠一段文字。如果我們是在跟 LLM 對(duì)話,那這一點(diǎn)很容易被忽略,因?yàn)樵趯?duì)話中人傾向于只關(guān)注最后一兩個(gè)回復(fù)和即將獲得的回復(fù)。
但是,處理更復(fù)雜的對(duì)話的技能,比如積極傾聽(tīng)、回憶之前的對(duì)話、堅(jiān)持談?wù)撘粋€(gè)話題來(lái)表明某個(gè)特定觀點(diǎn),同時(shí)避開(kāi)干擾等等,這些技能都需要系統(tǒng)有更強(qiáng)的注意力和更大的記憶容量。這便進(jìn)一步削弱了系統(tǒng)的理解能力:我們可以輕易采用每隔幾分鐘換種觀點(diǎn)、換說(shuō)另一種語(yǔ)言等方式去欺騙系統(tǒng)。如果回答你必須得回溯太多步驟的話,系統(tǒng)就會(huì)從頭開(kāi)始,接受和舊評(píng)論一致的新觀點(diǎn),跟著你換一種語(yǔ)言或者承認(rèn)自己相信你說(shuō)的任何話。要形成一種連貫的世界觀所必需的理解遠(yuǎn)遠(yuǎn)超出了系統(tǒng)的能力范圍。
放棄「所有知識(shí)都是語(yǔ)言知識(shí)」的錯(cuò)誤觀點(diǎn),可以讓我們意識(shí)到有多少知識(shí)是非語(yǔ)言知識(shí)。書籍中記載了許多我們可以使用的信息,說(shuō)明書、論文圖表、城市地圖也有同樣的用處。除了文字體現(xiàn)出的信息,自然特征、人造產(chǎn)品、動(dòng)物和人類的心理、生理特點(diǎn)都充滿了可以被人類利用的信息。
這說(shuō)明在語(yǔ)言之外,這個(gè)世界本身就向人類展示了大量的信息,可供人類探索并使用。同樣的,社會(huì)習(xí)俗和割裂儀式可以僅僅通過(guò)模仿向下一代傳遞。人類的很多文化知識(shí)都是標(biāo)志性的,只是看著就可以傳遞下去。這些微妙的信息模式很難用語(yǔ)言表達(dá),但收到信息的人仍然可以理解。就此可以看出,非語(yǔ)言理解對(duì)于人類的發(fā)展來(lái)說(shuō)十分重要。
LeCun 指出,被記錄在文字中的人類知識(shí)并沒(méi)有很多,在靈長(zhǎng)類動(dòng)物的交流中也幾乎捕捉不到非人類靈長(zhǎng)類動(dòng)物的知識(shí)。
我們之所以認(rèn)為語(yǔ)言重要,是因?yàn)檎Z(yǔ)言可以用小格式傳達(dá)很多信息,尤其是在印刷術(shù)和互聯(lián)網(wǎng)出現(xiàn)之后,語(yǔ)言可以復(fù)制信息并廣泛傳播。但是壓縮語(yǔ)言中的信息并不是沒(méi)有代價(jià)的,這需要我們花費(fèi)大量的精力來(lái)解碼信息密集的段落。比如,人文學(xué)科的課程可能需要學(xué)生做大量的課外閱讀,或者大量的課堂時(shí)間都得花在復(fù)習(xí)困難的文章上等等。雖然信息提供到手上了,但是要想對(duì)信息進(jìn)行深入的理解仍然是很耗時(shí)的。
這也就解釋了為什么經(jīng)過(guò)語(yǔ)言訓(xùn)練的機(jī)器能知道的這么多卻又懂得這么少。機(jī)器獲得了人類知識(shí)的一小部分,但這一小部分人類知識(shí)可以是關(guān)于任何事情的。這就有點(diǎn)像鏡子了,系統(tǒng)給人一種很深的錯(cuò)覺(jué),又可以反射幾乎任何東西。但問(wèn)題是,鏡子只有一厘米厚, 如果我們?cè)噲D進(jìn)去探索,就會(huì)撞到腦袋 。
可以看出,人類有了深刻的非語(yǔ)言理解,才使得語(yǔ)言有用武之地。正是因?yàn)槲覀儗?duì)世界有深刻的理解,所以我們可以很快地理解別人在談?wù)撌裁?。這種更廣泛的、情境敏感的技能是人類自古就有的基本知識(shí)。
非語(yǔ)言理解讓感知得以出現(xiàn),并使得感知能夠得以留存和繁榮。所以對(duì)于 AI 研究人員來(lái)說(shuō),尋找人工智能中的常識(shí)(common sense)是比關(guān)注 AI 語(yǔ)言更重要的任務(wù)。
最后,LeCun 總結(jié), LMM 沒(méi)有穩(wěn)定的身體,也不能持久地感知世界,所以它們只能更多地關(guān)注語(yǔ)言,因此 LLM 的常識(shí)總是膚淺的。我們的目標(biāo)是讓人工智能系統(tǒng)關(guān)注所談?wù)摰氖澜?,而不是語(yǔ)言本身——雖然 LLM 并不理解這兩者的區(qū)別。我們無(wú)法僅僅通過(guò)語(yǔ)言來(lái)達(dá)到深刻的理解,經(jīng)過(guò)對(duì) LLM 的研究,我們可以看明白,僅僅從語(yǔ)言本身能了解的東西是多么少。
參考鏈接:
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。