CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

本文作者：王悅

2023-12-25 18:19

導(dǎo)語：研究結(jié)果表明，Gemini 綜合性能難敵 ChatGPT 。

最近谷歌發(fā)布的 Gemini 格外引人注目，其號稱是第一個在各種任務(wù)中可與 OpenAI 的 ChatGPT 相媲美的大模型。

報道顯示，Gemini 的“Ultra”版本在各種任務(wù)上都優(yōu)于 GPT-4，而 Gemini 的“Pro”版本則與 GPT-3.5 不相上下。

針對兩個當(dāng)紅炸子雞的較量，美國卡內(nèi)基梅隆大學(xué)近日展開了一項研究，深入探討了谷歌 Gemini 的語言理解和生成能力，并將其與 OpenAI 的 GPT 系列作了對比，得到了有趣的結(jié)論——谷歌 Gemini 的綜合性能與 ChatGPT 仍有較大差距。

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

論文地址：https://arxiv.org/pdf/2312.11444.pdf

一、Gemini 僅媲美 GPT-3.5 Turbo

CMU 的這項研究主要探討了兩個問題：

其一，對 OpenAI GPT 和 Google Gemini 模型的能力進(jìn)行了第三方客觀比較，并提供了可重現(xiàn)的代碼和完全透明的結(jié)果；

其二，對結(jié)果進(jìn)行了更深入的研究，找出兩類模型中某一類模型分別擁有的優(yōu)勢領(lǐng)域。

研究團(tuán)隊對測試各種語言能力的 10 個數(shù)據(jù)集進(jìn)行了分析，包括推理、回答基于知識的問題、解決數(shù)學(xué)問題、語言間翻譯、生成代碼以及充當(dāng)指令遵循代理。

在所有的基準(zhǔn)測試任務(wù)基礎(chǔ)上，CMU 團(tuán)隊分析發(fā)現(xiàn)：

Gemini Pro 模型在模型大小和類別上與 GPT 3.5 Turbo 相當(dāng)，其準(zhǔn)確度一般與 GPT 3.5 Turbo 相當(dāng)，但略遜于 GPT 3.5 Turbo，比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo，尤其是在多選題的回答順序偏差、多位數(shù)數(shù)學(xué)推理、過早終止智能體任務(wù)以及因激進(jìn)的內(nèi)容過濾而導(dǎo)致回答失敗等方面存在問題。

在特別長和復(fù)雜的推理任務(wù)中，Gemini 的表現(xiàn)優(yōu)于 GPT 3.5 Turbo，包括生成非英語語言以及處理更長、更復(fù)雜的推理鏈。而在不對回答進(jìn)行過濾的任務(wù)中，Gemini 也善于使用多種語言。

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

圖為基準(zhǔn)測試的主要結(jié)果（最佳模型以粗體顯示，次佳模型以下劃線顯示。Mixtral 只對部分任務(wù)進(jìn)行了評估。）

二、大模型關(guān)鍵能力分析

在大模型的幾項關(guān)鍵能力上，團(tuán)隊的具體研究結(jié)果如下：

知識圖譜問答能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

在大模型的問答能力層面，從上圖中可以看出每個模型在部分代表性任務(wù)上的表現(xiàn)，與 GPT 3.5 相比，Gemini Pro 在大多數(shù)任務(wù)上表現(xiàn)不佳，思維鏈提示降低了各子任務(wù)之間的差異。

團(tuán)隊又深入研究 Gemini Pro 性能低于/優(yōu)于 GPT 的任務(wù)3.5 的差距，得出結(jié)論：

1）Gemini Pro 在 human_sexuality（社會科學(xué)）、formal_logic（人文科學(xué)）、elementary_mathematics（STEM）和 professional_medicine（專業(yè)領(lǐng)域）方面落后于 GPT 3.5。

2）在 Gemini Pro 優(yōu)于 GPT 3.5 Turbo 的兩項任務(wù)中，Gemini Pro 只取得了微弱的優(yōu)勢。

推理能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

在推理能力層面， Gemini Pro 的整體準(zhǔn)確率略低于 GPT 3.5 Turbo，遠(yuǎn)低于 GPT 4 Turbo，但Gemini Pro 在更長、更復(fù)雜的問題上表現(xiàn)不佳，而 GPT 模型對此則更為穩(wěn)健。

文中亦給出了 GPT 3.5 Turbo 性能超過 Gemini Pro 最多的任務(wù)：

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

數(shù)學(xué)能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

從數(shù)學(xué)推理的總體結(jié)果可以看出，在包含多種語言模式的 GSM8K、SVAMP 和 ASDIV 任務(wù)中，Gemini Pro 的準(zhǔn)確率略低于 GPT 3.5 Turbo，遠(yuǎn)低于 GPT 4 Turbo。

在 MAWPS 任務(wù)中，所有模型的準(zhǔn)確率都超過了 90%，但 Gemini Pro 仍略遜于 GPT 模型。

代碼生成能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

代碼能力生成方面，在英語任務(wù)中，Gemini Pro 在較長的輸入和輸出方面表現(xiàn)較強(qiáng)。分析結(jié)果可以發(fā)現(xiàn)，在大多數(shù)使用庫的情況下，如 mock、pandas、numpy 和 datetime，Gemini Pro 的性能比 GPT 3.5 差。

不過，在 matplotlib 的情況下，它的性能要優(yōu)于 GPT 3.5 和 GPT 4，這表明 Gemini 在通過代碼執(zhí)行繪圖可視化時具有更強(qiáng)的能力。

機(jī)器翻譯能力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

在翻譯能力上，Gemini Pro 有 8 種語言的性能優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下，Gemini Pro 在 20 種語言中的 8 種語言上的表現(xiàn)優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo，并在 4 種語言上取得了最佳表現(xiàn)。不過，Gemini Pro 在大約 10 種語言對中表現(xiàn)出強(qiáng)烈的阻塞響應(yīng)趨勢。

雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

王悅

主筆

發(fā)私信

當(dāng)月熱門文章

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力

CMU 最新研究：Gemini 綜合不敵 ChatGPT，谷歌還需努力