丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評測新范式 一秒偵破大模型“高分低能”

本文作者: nebula 2024-07-19 18:12
導(dǎo)語:賈佳亞團(tuán)隊(duì)全新評測基準(zhǔn)MR-Ben發(fā)布,拒絕大模型“高分低能”。

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評測新范式 一秒偵破大模型“高分低能”

賈佳亞團(tuán)隊(duì)全新評測基準(zhǔn)MR-Ben發(fā)布,拒絕大模型“高分低能”

隨著人工智能領(lǐng)域經(jīng)歷GPT時(shí)刻,學(xué)術(shù)界和產(chǎn)業(yè)界共同發(fā)力,每月甚至每周都有新的模型問世,大模型產(chǎn)品之多可以說是讓人眼花繚亂。為了篩選出真正業(yè)界領(lǐng)先的大模型產(chǎn)品,業(yè)內(nèi)衍生出了錯(cuò)綜復(fù)雜的各類大模型評測方式,大家都希望為大模型做出客觀公正的評測,看看究竟哪家產(chǎn)品能力更強(qiáng)。

但為了在行業(yè)中“脫穎而出”,業(yè)內(nèi)也不斷出現(xiàn)類似“刷榜”的做法,通過專項(xiàng)針對評測題庫進(jìn)行“預(yù)訓(xùn)練”從而獲取高評分,導(dǎo)致部分大模型出現(xiàn)“高分低能”的現(xiàn)象,在實(shí)際場景當(dāng)中表現(xiàn)不佳。

為此,賈佳亞團(tuán)隊(duì)聯(lián)合MIT、清華、劍橋等多家知名高校,與國內(nèi)頭部標(biāo)注公司合作,標(biāo)注了一個(gè)針對復(fù)雜問題推理過程的評測數(shù)據(jù)集MR-Ben,基于GSM8K、MMLU、LogiQA、MHPP等大模型預(yù)訓(xùn)練必測數(shù)據(jù)集的題目,進(jìn)行“閱卷式”的范式改造,生成更難、更有區(qū)分度的新數(shù)據(jù)集,從而真實(shí)地反映模型推理能力。

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評測新范式 一秒偵破大模型“高分低能”

從“刷題考生”變“閱卷老師”,閱卷式考察反映大模型真實(shí)水平

目前主流大模型評測是使用人類的標(biāo)準(zhǔn)化考試——選擇題和填空題的方式去進(jìn)行大模型評測。使用這套測試方式的好處有很多, 標(biāo)準(zhǔn)明確、指標(biāo)直觀,且量化結(jié)果天然具有話題性。

但作者認(rèn)為這種逐步作答的思維鏈方式生成最終答案,并不“靠譜”。

結(jié)合大模型的訓(xùn)練方式來看,預(yù)訓(xùn)練模型在預(yù)訓(xùn)練時(shí)早已見過數(shù)以萬億級別的詞元,很難說被評測的模型是否早已見過相應(yīng)的數(shù)據(jù),從而通過“背題”的方式回答正確。而在分步作答的時(shí)候,模型是否是基于正確的理解推理選出正確的選項(xiàng),我們不得而知,因?yàn)樵u測的方式主要靠檢查最終的答案。

盡管學(xué)術(shù)界不斷地對諸如GSM8K、MMLU等數(shù)據(jù)集進(jìn)行升級改造,如在GSM8K上引入多語言版本的MGSM數(shù)據(jù)集,在MMLU的基礎(chǔ)上引入更難的題目等,依然無法擺脫選擇或填空的窠臼。并且,這些數(shù)據(jù)集都已面臨著嚴(yán)重的飽和問題,大語言模型在這些指標(biāo)上的數(shù)值已經(jīng)見頂,并逐漸喪失了區(qū)分度。

而賈佳亞團(tuán)隊(duì)的選擇是從評測模式的底層進(jìn)行改革,從而真實(shí)反映模型推理能力。

害怕數(shù)據(jù)泄露導(dǎo)致的大模型背題導(dǎo)致分?jǐn)?shù)虛高嗎?賈佳亞團(tuán)隊(duì)打造的MR-Ben不用重新找題出卷,也不用把題目變形來測試模型的穩(wěn)健性,MR-Ben直接讓模型從答題者的學(xué)生身份,轉(zhuǎn)變?yōu)閷Υ痤}過程的“閱卷”模式,讓大模型當(dāng)老師來測試它對知識點(diǎn)的掌握情況!

不是擔(dān)心模型對解題過程毫無知覺,有可能出現(xiàn)“幻覺”或錯(cuò)誤的理解,蒙對答案嗎?MR-Ben直接招聘一批高水平的碩博標(biāo)注者,對大量題目的解題過程進(jìn)行精心標(biāo)注。把解題過程是否正確,出錯(cuò)的位置,出錯(cuò)的原因都細(xì)致指出,比對大模型的閱卷結(jié)果和人類專家的閱卷結(jié)果來測試模型的知識點(diǎn)掌握情況。

具體來說,賈佳亞團(tuán)隊(duì)針對市面上主流的評測數(shù)據(jù)集GSM8K、MMLU、LogiQA、MHPP等數(shù)據(jù)集進(jìn)行整理,并分成了數(shù)理化生、代碼、邏輯、醫(yī)藥等多個(gè)類別,同時(shí)區(qū)分了不同的難度等級。針對每個(gè)類別、收集到的每個(gè)問題,團(tuán)隊(duì)精心收集了對應(yīng)的分步解題過程,并經(jīng)由專業(yè)的碩博標(biāo)注者進(jìn)行培訓(xùn)和標(biāo)注。

從評測方式來看,MR-Ben所提出的方法需要模型對于解題過程的每一個(gè)步驟的前提、假設(shè)、邏輯都進(jìn)行細(xì)致分析,并對推理過程進(jìn)行預(yù)演來判斷當(dāng)前步驟是否能導(dǎo)向正確答案。

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評測新范式 一秒偵破大模型“高分低能”

這種“閱卷”式的評測方式從難度上遠(yuǎn)超于僅答題的評測方式,但可有效避免模型背題所導(dǎo)致的分?jǐn)?shù)虛高問題。而只會(huì)背題的學(xué)生很難成為一名合格的閱卷老師。

其次,MR-Ben通過使用了人力精細(xì)的標(biāo)注流程控制,取得了大量的高質(zhì)量標(biāo)注,而巧妙的流程設(shè)計(jì)又使得評測方式能夠直觀地量化。

知名大模型公開評測,GPT4-Turbo表現(xiàn)最佳

賈佳亞團(tuán)隊(duì)針對性測試了時(shí)下最具代表性的十大大語言模型和不同版本??梢钥吹?,閉源大語言模型里,GPT4-Turbo的表現(xiàn)最佳(雖然在“閱卷”時(shí)未能發(fā)現(xiàn)計(jì)算錯(cuò)誤),在絕大部分的科目里,有demo(k=1)和無demo(k=0)的設(shè)置下都領(lǐng)先于其他模型。

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評測新范式 一秒偵破大模型“高分低能”

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評測新范式 一秒偵破大模型“高分低能”

部分開源大語言模型在MR-Ben數(shù)據(jù)集上的測評結(jié)果 

可以看到,最強(qiáng)的部分開源大語言模型效果已經(jīng)趕上了部分商用模型,并且哪怕最強(qiáng)的閉源模型在MR-Ben數(shù)據(jù)集上表現(xiàn)也仍未飽和,不同模型間的區(qū)分度較大。

除此之外,MR-Ben的原論文里還有更多有意思的解析和發(fā)現(xiàn),例如:

? Qwen和Deepseek發(fā)布的開源模型哪怕在全球梯隊(duì)里,PK閉源模型效果也不遜色。

? 不同的閉源模型定價(jià)策略和實(shí)際表現(xiàn)耐人尋味。在使用場景里關(guān)注推理能力的小伙伴,可以對照價(jià)格和能力找到自己心儀的模型去使用。

? 低資源場景下,小模型也有不少亮點(diǎn),MR-Ben評測中Phi-3-mini在一眾小模型里脫穎而出,甚至高于或持平幾百億參數(shù)的大模型,展現(xiàn)出了微調(diào)數(shù)據(jù)的重要性。

? MR-Ben場景包含復(fù)雜的邏輯解析和逐步推斷,F(xiàn)ew-shot模式下過長的上下文反而會(huì)使得模型困惑,造成水平下降的后果。

? MR-Ben評測了不少生成-反思-重生成的消融實(shí)驗(yàn),查看不同提示策略的差異,發(fā)現(xiàn)對低水平的模型沒有效果,對高水平的模型如GPT4-Turbo效果也不明顯。反而對中間水平的模型因?yàn)榭偘彦e(cuò)的改對,對的改錯(cuò),效果反而略有提升。

? 將MR-Ben評測的科目粗略劃分成知識型、邏輯型、計(jì)算型、算法型后,不同的模型在不同的推理類型上各有優(yōu)劣。

目前賈佳亞團(tuán)隊(duì)已在github上傳一鍵評測的方式,歡迎所有關(guān)注復(fù)雜推理的小伙伴在自家的模型上評測并提交,團(tuán)隊(duì)會(huì)及時(shí)更新相應(yīng)的leaderboard。使用官方的腳本一鍵評測,只需花費(fèi)12M tokens左右,過程非常絲滑,值得一試。

Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/

Arxiv Page: https://arxiv.org/abs/2406.13975

Github Repo: https://github.com/dvlab-research/Mr-Ben

參考

1. Training Verifiers to Solve Math Word Problems (https://arxiv.org/abs/2110.14168)

2. Measuring Massive Multitask Language Understanding( https://arxiv.org/abs/2009.03300)

3. LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning (https://arxiv.org/abs/2007.08124)

4. MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation( https://arxiv.org/abs/2405.11430)

5. Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)

6. Qwen Technical Report (https://arxiv.org/abs/2309.16609)

7. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (https://arxiv.org/abs/2405.04434)

8. Textbooks Are All You Need (https://arxiv.org/abs/2306.11644)

9. Large Language Models Cannot Self-Correct Reasoning Yet (https://arxiv.org/abs/2310.01798)

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

運(yùn)營

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說