0
最近谷歌發(fā)布的 Gemini 格外引人注目,其號稱是第一個在各種任務中可與 OpenAI 的 ChatGPT 相媲美的大模型。
報道顯示,Gemini 的“Ultra”版本在各種任務上都優(yōu)于 GPT-4,而 Gemini 的“Pro”版本則與 GPT-3.5 不相上下。
針對兩個當紅炸子雞的較量,美國卡內基梅隆大學近日展開了一項研究,深入探討了谷歌 Gemini 的語言理解和生成能力,并將其與 OpenAI 的 GPT 系列作了對比,得到了有趣的結論——谷歌 Gemini 的綜合性能與 ChatGPT 仍有較大差距。
論文地址:https://arxiv.org/pdf/2312.11444.pdf
一、Gemini 僅媲美 GPT-3.5 Turbo
CMU 的這項研究主要探討了兩個問題:
其一,對 OpenAI GPT 和 Google Gemini 模型的能力進行了第三方客觀比較,并提供了可重現(xiàn)的代碼和完全透明的結果;
其二,對結果進行了更深入的研究,找出兩類模型中某一類模型分別擁有的優(yōu)勢領域。
研究團隊對測試各種語言能力的 10 個數(shù)據(jù)集進行了分析,包括推理、回答基于知識的問題、解決數(shù)學問題、語言間翻譯、生成代碼以及充當指令遵循代理。
在所有的基準測試任務基礎上,CMU 團隊分析發(fā)現(xiàn):
Gemini Pro 模型在模型大小和類別上與 GPT 3.5 Turbo 相當,其準確度一般與 GPT 3.5 Turbo 相當,但略遜于 GPT 3.5 Turbo,比 GPT 4 差很多。
Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多選題的回答順序偏差、多位數(shù)數(shù)學推理、過早終止智能體任務以及因激進的內容過濾而導致回答失敗等方面存在問題。
在特別長和復雜的推理任務中,Gemini 的表現(xiàn)優(yōu)于 GPT 3.5 Turbo,包括生成非英語語言以及處理更長、更復雜的推理鏈。而在不對回答進行過濾的任務中,Gemini 也善于使用多種語言。
圖為基準測試的主要結果(最佳模型以粗體顯示,次佳模型以下劃線顯示。Mixtral 只對部分任務進行了評估。)
二、大模型關鍵能力分析
在大模型的幾項關鍵能力上,團隊的具體研究結果如下:
知識圖譜問答能力
在大模型的問答能力層面,從上圖中可以看出每個模型在部分代表性任務上的表現(xiàn),與 GPT 3.5 相比,Gemini Pro 在大多數(shù)任務上表現(xiàn)不佳,思維鏈提示降低了各子任務之間的差異。
團隊又深入研究 Gemini Pro 性能低于/優(yōu)于 GPT 的任務3.5 的差距,得出結論:
1)Gemini Pro 在 human_sexuality(社會科學)、formal_logic(人文科學)、elementary_mathematics(STEM)和 professional_medicine(專業(yè)領域)方面落后于 GPT 3.5。
2)在 Gemini Pro 優(yōu)于 GPT 3.5 Turbo 的兩項任務中,Gemini Pro 只取得了微弱的優(yōu)勢。
推理能力
在推理能力層面, Gemini Pro 的整體準確率略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo,但Gemini Pro 在更長、更復雜的問題上表現(xiàn)不佳,而 GPT 模型對此則更為穩(wěn)健。
文中亦給出了 GPT 3.5 Turbo 性能超過 Gemini Pro 最多的任務:
數(shù)學能力
從數(shù)學推理的總體結果可以看出,在包含多種語言模式的 GSM8K、SVAMP 和 ASDIV 任務中,Gemini Pro 的準確率略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。
在 MAWPS 任務中,所有模型的準確率都超過了 90%,但 Gemini Pro 仍略遜于 GPT 模型。
代碼生成能力
代碼能力生成方面,在英語任務中,Gemini Pro 在較長的輸入和輸出方面表現(xiàn)較強。分析結果可以發(fā)現(xiàn),在大多數(shù)使用庫的情況下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。
不過,在 matplotlib 的情況下,它的性能要優(yōu)于 GPT 3.5 和 GPT 4,這表明 Gemini 在通過代碼執(zhí)行繪圖可視化時具有更強的能力。
機器翻譯能力
在翻譯能力上,Gemini Pro 有 8 種語言的性能優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 種語言中的 8 種語言上的表現(xiàn)優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 種語言上取得了最佳表現(xiàn)。不過,Gemini Pro 在大約 10 種語言對中表現(xiàn)出強烈的阻塞響應趨勢。
雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。