首批通過，最高評級，商湯小浣熊喜提中國信通院代碼大模型能力評估“三好生”

本文作者： nebula

2024-06-13 15:07

導語：代碼大模型該選哪家？中國信通院給予商湯小浣熊最高評級。

6月11日，中國信息通信研究院（以下簡稱“信通院”）公布可信AI代碼大模型首輪評估結果，商湯小浣熊獲得最高評級（4+級），在代碼通用能力、專用場景和應用成熟度多個評估維度中表現(xiàn)優(yōu)秀。

信通院在2024上半年正式啟動可信AI代碼大模型評估，以《智能化軟件工程技術和應用要求第1部分：代碼大模型》標準為評估依據(jù)，該標準也是業(yè)內首個代碼大模型標準，其涵蓋通用能力、專用場景能力和應用成熟度三大部分，包括16個能力項、100多個能力要求，全面從輸入多樣性、任務多樣性、語言完備度、結果可接收性、結果準確度等維度，考核代碼大模型的全棧技術能力。

首批通過，最高評級，商湯小浣熊喜提中國信通院代碼大模型能力評估“三好生”

圖片來源：中國信息通信研究院

商湯小浣熊是本次評分最高的代碼大模型之一，作為首批參評企業(yè)獲得4+級評級，信通院給出測評結論：

在通用能力方面，其代碼解釋、代碼轉換等方面表現(xiàn)突出；

在專用場景方面，其支持網(wǎng)站開發(fā)、桌面應用開發(fā)、移動應用開發(fā)、數(shù)據(jù)庫開發(fā)等多個場景的開發(fā)能力；

在應用成熟度方面，其數(shù)據(jù)分類分級、模型性能、模型服務可維護性、風險可控性等方面均表現(xiàn)優(yōu)秀。

「小浣熊家族」是基于商湯“日日新SenseNova”大模型體系打造的 AI Native 生產(chǎn)力系列工具，覆蓋軟件開發(fā)、數(shù)據(jù)分析、編程教育等多個場景，旨在通過先進的人工智能技術優(yōu)化和提升工作效率。

小浣熊家族現(xiàn)已推出代碼小浣熊和辦公小浣熊兩位產(chǎn)品成員。

官網(wǎng)鏈接：https://raccoon.sensetime.com/login?utm_source=JUNEXTY

其中，代碼小浣熊是基于大模型的軟件智能研發(fā)助手，覆蓋軟件需求分析、架構設計、代碼編寫、軟件測試等環(huán)節(jié)，滿足用戶代碼編寫、編程學習等各類需求，現(xiàn)已支持Python、Java、JavaScript、C++、Go、SQL等90+主流編程語言和VS Code, JetBrains全家桶， Android Studio等主流IDE。

辦公小浣熊則是基于大模型的大模型原生數(shù)據(jù)分析產(chǎn)品，可以通過用戶的自然語言輸入，自動將數(shù)據(jù)轉化為有意義的分析和可視化結果。

小浣熊家族背后的「小浣熊代碼大模型」，在權威測試集HumanEval Coding測試中一次通過率達到78.1%，在數(shù)據(jù)分析場景下的數(shù)據(jù)測試集（1000+題目）中以85.71%的正確率超過GPT-4。

小浣熊代碼大模型自上線以來，累計為10萬+個人用戶提供服務，單日代碼生成數(shù)量達到10億+Tokens，總體平均代碼采納率超過30%，用戶編碼能效提升達到20%~78%。

首批通過，最高評級，商湯小浣熊喜提中國信通院代碼大模型能力評估“三好生”

在企業(yè)用戶方面，商湯小浣熊代碼大模型已經(jīng)被包括金融、新能源汽車等行業(yè)在內的200+以上企業(yè)客戶使用，憑借其突出的數(shù)理能力覆蓋多元落地場景。

例如，在與金山辦公的合作中，小浣熊代碼大模型憑借卓越的代碼生成及工具調用能力助力WPS 365打造更高效釋放場景能力的智能辦公平臺，為用戶多元、碎片化的辦公需求提供新質生產(chǎn)力。

在金融領域，基于小浣熊代碼大模型，商湯科技與海通證券合作打造智能研發(fā)助手，輔助金融企業(yè)研發(fā)人員進行代碼編程，為開發(fā)者提供代碼智能補全與對話問答服務，可輔助生產(chǎn)代碼約20%代碼，降低開發(fā)技術門檻，有效提高開發(fā)效率。在減少開發(fā)者重復工作同時，還能幫助團隊更早發(fā)現(xiàn)并修正開發(fā)中的錯誤，提升軟件交付質量。

未來，商湯小浣熊將持續(xù)降低大模型技術的開發(fā)和應用門檻，賦能更多場景實現(xiàn)創(chuàng)新。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

nebula

運營

發(fā)私信

當月熱門文章

首批通過，最高評級，商湯小浣熊喜提中國信通院代碼大模型能力評估“三好生”

首批通過，最高評級，商湯小浣熊喜提中國信通院代碼大模型能力評估“三好生”