智源更新大模型排行榜：豆包大模型“客觀評測”排名國產第一

本文作者： nebula

2024-06-19 13:59

導語：豆包大模型首次公開評測：綜合成績排第二，知識運用和數學獲最高分。

6月中旬，智源研究院旗下的 FlagEval 大模型評測平臺發(fā)布最新榜單：在有標準答案的“客觀評測”中，GPT-4 以76.11分在閉源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同時也是得分最高的國產大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在開放問答等“主觀評測”中，Doubao-Pro 同樣排名第二，得分超過 GPT-4o 和 GPT-4。

圖：豆包大模型在 FlagEval 客觀評測中獲綜合評分第二（2024年6月）

FlagEval 大模型評測平臺由智源研究院與多個高校團隊共建，以人類認知能力的發(fā)展階梯為基準，對齊大模型所能達到的認知水平。FlagEval 構建了大量原創(chuàng)的非公開評測集，確保評測質量和公正性。自2023年6月上線以來，FlagEval 已完成了1000多次覆蓋全球大模型的評測。

Doubao-Pro 是由字節(jié)跳動自主研發(fā)的大語言模型，于5月15日正式發(fā)布。本期 FlagEval 大模型排行榜，是豆包大模型在公開評測中的首次亮相。

測試成績顯示，豆包大模型的數學能力、知識運用、任務解決等多項能力在客觀評測和主觀評測中都有著出色表現。其中，知識運用和數學能力得分排名客觀評測第一、主觀評測前三，任務解決測試得分在主客觀評測中均排名前三。

數學能力是評估大模型是否“聰明”的一個重要維度。此前，復旦大學自然語言處理實驗室就2024 年高考數學題對13家主流大模型產品進行評測，豆包的數學高考新課標 II 卷答題獲得最高分，客觀題正確率達到 74.66%，成績優(yōu)于GPT-4o及國內多款大模型產品。

智源更新大模型排行榜：豆包大模型“客觀評測”排名國產第一

圖片來源：復旦NLP實驗室公眾號

據悉，豆包大模型是國內使用量最大、應用場景最豐富的大模型之一，日均處理 token 達到千億級。其同名AI對話助手“豆包”，在蘋果APP Store和各大安卓應用市場的AIGC類應用中下載量排名第一。目前，豆包大模型正在通過字節(jié)跳動旗下的火山引擎向企業(yè)市場開放服務，已經與OPPO、榮耀、小米、三星、華碩等智能終端廠商建立合作。

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

nebula

運營

發(fā)私信

當月熱門文章