0
人工智能越來(lái)越像人,但“像人”到底意味著什么?
除了會(huì)解題、寫(xiě)文,它是否也能理解人類那種充滿個(gè)性的推理方式?比如在一場(chǎng)狼人殺游戲中,有人邏輯縝密、有人直覺(jué)敏銳、有人擅長(zhǎng)偽裝。那么 AI 能跟上這種風(fēng)格差異嗎?
最近,南開(kāi)大學(xué)、上海 AI lab 等國(guó)內(nèi)外機(jī)構(gòu)就針對(duì)這個(gè)問(wèn)題做了一個(gè)有趣的實(shí)驗(yàn),把大模型拉進(jìn)了“狼人殺的考場(chǎng)”。他們?cè)O(shè)計(jì)了一個(gè)名為 InMind 的全新評(píng)測(cè)框架,并將其落地到社交推理游戲 Avalon 上,對(duì) 11 個(gè)前沿大模型展開(kāi)測(cè)試。
結(jié)果令人警醒:多數(shù)模型依然停留在表層模仿,只有少數(shù)推理增強(qiáng)模型展現(xiàn)出初步的“風(fēng)格敏感性”。
論文鏈接:https://arxiv.org/pdf/2508.16072
在構(gòu)建“推理風(fēng)格畫(huà)像”的環(huán)節(jié),模型之間的差異幾乎是一眼可見(jiàn)。
通用型模型的輸出往往停留在表層,比如 GLM4-9B 經(jīng)常給出一些模糊的性格標(biāo)簽:“邏輯性強(qiáng)”“關(guān)注人際互動(dòng)”,這些描述看似準(zhǔn)確,卻和具體的局勢(shì)關(guān)聯(lián)不大,更像是在描繪一個(gè)籠統(tǒng)的人設(shè),而不是在捕捉某個(gè)玩家在游戲中的真實(shí)思維方式。Qwen2.5 系列的表現(xiàn)也類似,尤其是中等規(guī)模版本(如 Qwen2.5-7B),往往傾向于生成通用化的心理特征描述,缺乏和具體行動(dòng)的呼應(yīng)。
相比之下,DeepSeek-R1 的畫(huà)像則顯得更有“血肉”。它能結(jié)合上下文細(xì)節(jié),將玩家刻畫(huà)為“分析型刺客”:表面上刻意掩飾自己的邏輯優(yōu)勢(shì),實(shí)則通過(guò)提問(wèn)不斷套取信息,甚至?xí)鲃?dòng)代入對(duì)立角色的視角來(lái)推演局勢(shì)走向。這樣的畫(huà)像不止于表面標(biāo)簽,而是深入到了推理風(fēng)格的動(dòng)機(jī)層面。
后續(xù)的玩家識(shí)別環(huán)節(jié),模型要做的事情聽(tīng)上去并不復(fù)雜:給定一份“推理畫(huà)像”,在匿名化的對(duì)局中找到最符合這一風(fēng)格的玩家。
然而結(jié)果卻并不樂(lè)觀。大多數(shù)模型幾乎和“蒙”差不多,Top-1 準(zhǔn)確率普遍不到 20%,而 Top-3 也只是徘徊在五成左右。GPT-4o 的表現(xiàn)就是一個(gè)典型例子:Top-1 只有 0.160,雖然在 Top-3 上能爬到 0.672,但這更多意味著它在做模糊匹配,而非真正理解風(fēng)格。Qwen2.5-72B 的成績(jī)略好一些,Top-1 達(dá)到 0.198,但依然沒(méi)有突破“隨機(jī)猜測(cè) + 關(guān)鍵詞匹配”的層面。
在一眾表現(xiàn)平平的模型中,DeepSeek-R1 顯得格外突出。它的 Top-1 準(zhǔn)確率達(dá)到 0.240,是所有模型里的最高值,說(shuō)明它并不是靠簡(jiǎn)單的詞匯匹配來(lái)湊答案,而是真正在嘗試?yán)斫獠?duì)比不同的推理風(fēng)格。更有意思的是,在 BERT Match 指標(biāo)上,它的得分只有 0.144,遠(yuǎn)低于大多數(shù)模型。多數(shù)模型的表現(xiàn)都集中在對(duì)角線附近,意味著只是停留在“表層模仿”,而 DeepSeek-R1 卻明顯跳脫出這一帶,呈現(xiàn)出了一種更接近“戰(zhàn)略對(duì)齊”的推理傾向。
在“反思對(duì)齊”任務(wù)中,研究人員要求模型根據(jù)賽后的反思總結(jié)來(lái)推斷玩家身份。最后的結(jié)果顯示,當(dāng)有完整的策略軌跡時(shí),模型的表現(xiàn)會(huì)顯著提升,因?yàn)檐壽E能為它們提供清晰的錨點(diǎn),把反思對(duì)應(yīng)到具體的回合。但一旦失去這些軌跡,準(zhǔn)確率就會(huì)大幅下滑,大多數(shù)模型都陷入混亂,立刻失去方向。
Qwen2.5 系列在這一任務(wù)中表現(xiàn)出強(qiáng)烈的依賴性:有軌跡時(shí)還能維持中等水平,但一旦撤掉,準(zhǔn)確率驟降,甚至比 GPT-4o 的下滑更明顯。
相比之下,人類專家即便沒(méi)有軌跡,也能維持較高的判斷力。這也充分說(shuō)明,大模型在處理抽象推理總結(jié)時(shí)缺乏內(nèi)在的“錨定機(jī)制”,過(guò)度依賴外部線索,而不能像人一樣把抽象總結(jié)自然地落到具體事件上。
如果說(shuō)“反思對(duì)齊”考察的是賽后總結(jié)的理解,那么“軌跡歸因”就像是把模型直接丟進(jìn)棋局中,讓它一回合一回合地補(bǔ)全缺失的推理。換句話說(shuō),就是要求模型逐步填上被遮蔽的信息。
最終的結(jié)果卻有點(diǎn)出人意料,大多數(shù)模型非但沒(méi)能借助前一輪信息,反而在上下文越多時(shí)表現(xiàn)越差,說(shuō)明它們并不會(huì)真正的動(dòng)態(tài)推理,而是把每個(gè)回合都當(dāng)作孤立問(wèn)題。但 DeepSeek-R1 是為數(shù)不多的例外,準(zhǔn)確率從 0.503 提升到 0.517,哪怕進(jìn)步有限,也證明它確實(shí)在利用歷史信息。反觀 GPT-4o,成績(jī)幾乎停滯,僅從 0.440 微升到 0.448,幾乎沒(méi)有適應(yīng)性可言。
最后一個(gè)任務(wù)是角色推斷,研究人員要求模型逐步推理出每個(gè)玩家的隱藏身份。他們?cè)O(shè)置了四種模式,難度從寬松到嚴(yán)格逐級(jí)提升。
最終的結(jié)果顯示,在最寬松的條件下(第一人稱敘述、提供策略軌跡并已知部分身份),模型的準(zhǔn)確率最高,但一旦去掉軌跡或身份信息,表現(xiàn)就會(huì)迅速下滑。尤其是在需要逐一推斷身份的嚴(yán)格模式中,大多數(shù)模型仍然力不從心。
不過(guò),當(dāng)任務(wù)僅要求區(qū)分“好人”和“壞人”時(shí),它們展現(xiàn)出了一定潛力。整體來(lái)看,大模型在應(yīng)對(duì)復(fù)雜的社交推理時(shí),依然嚴(yán)重依賴外部支撐,缺乏人類那種靈活的情境建模能力。
要理解這些結(jié)果,還需要回到實(shí)驗(yàn)的整體設(shè)計(jì)。
研究團(tuán)隊(duì)選用 Avalon 作為載體,是因?yàn)檫@類社交推理游戲天生會(huì)放大個(gè)體差異。同樣的局勢(shì)下,有人會(huì)邏輯縝密地逐條分析,有人則完全依賴直覺(jué),還有人喜歡通過(guò)偽裝和試探來(lái)誤導(dǎo)他人。這種風(fēng)格差異,正好是檢驗(yàn)大模型能否“因人而異”的最好場(chǎng)景。
為了把這種差異轉(zhuǎn)化成可量化的測(cè)試,團(tuán)隊(duì)搭建了 InMind 框架。他們?cè)O(shè)計(jì)了兩種模式:在“觀察者模式”下,模型需要旁觀玩家的對(duì)話,總結(jié)每個(gè)人的推理習(xí)慣;在“參與者模式”下,它必須像真實(shí)玩家一樣,把學(xué)到的習(xí)慣運(yùn)用到實(shí)際局勢(shì)中。除此之外,每局對(duì)局都額外生成了策略軌跡(逐回合推理鏈)和反思總結(jié)(賽后復(fù)盤(pán)),讓實(shí)驗(yàn)既能考察靜態(tài)判斷,也能檢驗(yàn)動(dòng)態(tài)推理。雷峰網(wǎng)
整個(gè) InMind-Avalon 數(shù)據(jù)集共包含 30 局完整對(duì)局,884 個(gè)回合、160 條軌跡和 30 篇反思總結(jié),覆蓋 Merlin、Percival、忠臣、Morgana、刺客等角色,并保留了中文實(shí)戰(zhàn)中的口語(yǔ)化術(shù)語(yǔ)。這樣的數(shù)據(jù)不僅復(fù)雜,而且貼近真實(shí)互動(dòng)。
在模型選擇上,研究團(tuán)隊(duì)既考慮了主流的通用型模型,如 Qwen2.5 系列、Yi1.5、GLM4、InternLM、GPT-4o,也納入了專門(mén)強(qiáng)化推理能力的增強(qiáng)型模型,包括 DeepSeek-R1、QwQ、O3-mini。此外,還用 BERT 作為基線參照。所有模型一律在零樣本條件下測(cè)試,不額外訓(xùn)練,也不給提示工程上的特殊照顧,以保證結(jié)果的可比性。
InMind 的實(shí)驗(yàn)結(jié)果揭示了一個(gè)事實(shí):大多數(shù)大模型還不能真正做到“因人而異”的推理。
在靜態(tài)任務(wù)中,它們往往依賴表層詞匯,無(wú)法捕捉個(gè)體風(fēng)格;在動(dòng)態(tài)任務(wù)中,它們?nèi)狈﹂L(zhǎng)時(shí)序推理的連貫性。少數(shù)模型(如 DeepSeek-R1)展現(xiàn)出了“風(fēng)格敏感性”,能在一定程度上維持個(gè)體一致性,但整體仍遠(yuǎn)不及人類。
研究團(tuán)隊(duì)指出,InMind 的意義并不只是新增了一個(gè) benchmark,而是打開(kāi)了一條新路徑:未來(lái)的人機(jī)交互,不能只看“對(duì)不對(duì)”,更要看“像不像”。只有當(dāng)模型能夠理解人與人之間的差異,并在推理過(guò)程中保持一致性,它們才可能成為可信賴的合作者。
換句話說(shuō),InMind 把 AI 拉進(jìn)了一個(gè)更接近人類的考場(chǎng)。這場(chǎng)考試的分?jǐn)?shù)目前并不好看,但它提醒我們,真正有用的 AI,必須學(xué)會(huì)和人類的多樣性共舞。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。