丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給陳淑瑜
發(fā)送

0

大模型下半場(chǎng),階躍憑什么領(lǐng)跑多模態(tài)之戰(zhàn)

本文作者: 陳淑瑜   2025-05-22 14:44
導(dǎo)語:堅(jiān)定理解生成一體化的多模態(tài)路線,發(fā)力智能終端 Agent。

作者丨王悅

編輯丨陳彩嫻


DeepSeek “掀桌”三個(gè)月后,國(guó)內(nèi)大模型的競(jìng)爭(zhēng)格局大致可劃分為三大陣營(yíng):

一是以大廠為代表的資源派,他們手握充足資本,能在基礎(chǔ)模型和落地應(yīng)用上持續(xù)燒錢;二是以 DeepSeek 為代表的技術(shù)派,專注于基座模型的突破和投入,在推理、數(shù)理或多模態(tài)等單點(diǎn)技術(shù)上見長(zhǎng);三是以階躍星辰、智譜為代表的國(guó)家隊(duì),獲得地方政府的大力支持,能夠潛心做技術(shù)積累以追求全面發(fā)展。

雖然 DeepSeek 有著明顯優(yōu)勢(shì),但三股力量都在基礎(chǔ)模型上發(fā)力同時(shí)又各有長(zhǎng)處。而其中,多模態(tài)被視為 AGI 進(jìn)程中的關(guān)鍵躍遷點(diǎn),逐漸成為大模型下一階段競(jìng)爭(zhēng)的分水嶺?,F(xiàn)階段多模態(tài)能力突出的獨(dú)角獸公司屈指可數(shù),有著“多模態(tài)卷王”稱號(hào)的階躍星辰作為一個(gè)重要玩家得到了很多關(guān)注。

成立兩年的時(shí)間以來,階躍星辰累計(jì)發(fā)布了22款自研基座模型,覆蓋文字、語音、圖像、視頻、音樂、推理等全系列,其中 16 款都是多模態(tài)模型,占比超 7 成。

大模型下半場(chǎng),階躍憑什么領(lǐng)跑多模態(tài)之戰(zhàn)

外界有一種質(zhì)疑,階躍平均每個(gè)月都發(fā)布一款新模型是卷王在沖 KPI,但剖析階躍的研發(fā)條線來看就會(huì)發(fā)現(xiàn),答案是否定的。多模態(tài)的每個(gè)條線都是經(jīng)過了幾個(gè)月或者半年的積累才迭代出一個(gè)新的產(chǎn)品,這種情況下如果同時(shí)看所有模態(tài)條線,自然就形成了一兩個(gè)月就出一個(gè)新成果的局面。

和其他家不同的是,階躍從一開始就堅(jiān)定地走理解生成一體化的路線,這也預(yù)判了當(dāng)下 AI 發(fā)展從多模態(tài)融合到多模態(tài)理解生成一體化的趨勢(shì),并且提前做出動(dòng)作??v觀國(guó)內(nèi)大模型公司,像階躍這樣重視模態(tài)的全覆蓋、并且堅(jiān)持原生多模理念的公司并不多。

階躍星辰創(chuàng)始人、CEO 姜大昕告訴 AI 科技評(píng)論,當(dāng)下 AI 行業(yè)的技術(shù)趨勢(shì)處于非常陡峭的發(fā)展區(qū)間,追求智能的上限仍然是一件很重要的事,階躍會(huì)繼續(xù)在基礎(chǔ)大模型上投入,不錯(cuò)過這個(gè)機(jī)會(huì)。

1、多模態(tài)是下階段基模競(jìng)爭(zhēng)的技術(shù)決勝點(diǎn)

和多位階躍星辰的核心成員交流過后,AI 科技評(píng)論發(fā)現(xiàn),他們對(duì)多模態(tài)的堅(jiān)信、重視和緊迫程度要高于其他的大模型公司。姜大昕認(rèn)為,AGI 的終局不僅包括語言符號(hào),還包括視覺、空間、運(yùn)動(dòng)智能等,因此在多模態(tài)領(lǐng)域的任何一個(gè)方向出現(xiàn)短板,都會(huì)延緩實(shí)現(xiàn) AGI 的進(jìn)程。

自Sora 實(shí)現(xiàn)視頻生成效果的突破之后,行業(yè)內(nèi)視覺模型整體發(fā)展的絕對(duì)水平都較為有限,雖然各家在不同方面各有長(zhǎng)處,然而均在 Sora 的大框架中,未曾迎來下一個(gè)發(fā)生質(zhì)變的奇點(diǎn)時(shí)刻。

類比 NLP 的進(jìn)化過程會(huì)發(fā)現(xiàn),自然語言處理經(jīng)歷了從不能規(guī)?;A(yù)訓(xùn)練,到 Transformer 這一 Scalable 的文本理解生成一體化架構(gòu),再到GPT-3 實(shí)現(xiàn)大規(guī)模文本訓(xùn)練和指令跟隨的過程。而在視覺領(lǐng)域,這一進(jìn)程甚至尚未能實(shí)現(xiàn)第一步——視覺理解生成一體化架構(gòu)。

姜大昕也坦言,知道 Sora 的 DiT 技術(shù)路線沒有按照預(yù)期中走生成理解一體化路線時(shí),第一反應(yīng)有些期待落空。但回頭一想也有道理,因?yàn)閺亩嗄B(tài)融合做到生成理解一體化,中間需要走的路著實(shí)很難。

多模態(tài)的復(fù)雜程度相較于語言來講要高得多。于文字而言,至多有十幾萬個(gè) token,并且呈低維離散分布的狀態(tài),因此易于進(jìn)行表達(dá)從而實(shí)現(xiàn) next token prediction。于多模態(tài)而言,僅是一張1024×1024 的圖片就可以達(dá)到 100 萬維,且每個(gè)維度都是高維的連續(xù)空間,難以實(shí)現(xiàn)很好的表征,從而無法實(shí)現(xiàn) next frame prediction。

如果跟隨自然語言的發(fā)展路徑,第一步要做的就是具備一個(gè)可以 scalable 的理解生成一體化的架構(gòu),之后才能實(shí)現(xiàn) predict next frame 、完成指令跟隨,迎來真正的“多模態(tài)大模型”。

大模型下半場(chǎng),階躍憑什么領(lǐng)跑多模態(tài)之戰(zhàn)

而多模態(tài)大模型之所以關(guān)鍵,是因?yàn)槿恕C(jī)器與世界交互的形式是多模態(tài)的,Agent、具身智能等一切進(jìn)一步的人工智能實(shí)現(xiàn)形式都需要以多模態(tài)能力為基礎(chǔ)。以智能體為例,其實(shí)時(shí)的周圍感知就相當(dāng)于長(zhǎng)視頻,最終的目標(biāo)是理解世界、預(yù)測(cè)行為。

在理解生成一體化、統(tǒng)一表征問題的基礎(chǔ)上,多模態(tài)大模型即可以利用海量視頻數(shù)據(jù)做視覺預(yù)訓(xùn)練,再泛化到理解生成的各個(gè)視覺任務(wù)中。隨后在視覺領(lǐng)域引入強(qiáng)化學(xué)習(xí)和推理能力,再增加時(shí)空推理、3D模型、自然語言的能力,從而建模物理世界的交互,訓(xùn)練能預(yù)測(cè)行為的 VLA 模型,至此世界模型的雛形就清晰可見?!叭绻軐?shí)現(xiàn)世界模型,我眼中的 AGI 就幾乎實(shí)現(xiàn)了?!苯箨扛嬖V AI 科技評(píng)論。

要突破視頻生成模型局限性,光靠在現(xiàn)有技術(shù)水平下繼續(xù)迭代是難以解決的,必須在學(xué)習(xí)范式上有所改變,理解和生成的一體化是其中繞不開的問題。而階躍星辰從一開始,就確定了理解生成一體化的路線,采用原生多模的方式,在多模態(tài)融合技術(shù)上跑通了一條路。

當(dāng)下,視覺領(lǐng)域的 GPT-4 時(shí)刻還遠(yuǎn)遠(yuǎn)未到來,但清晰可見的是多模態(tài)能力將成為 AI 大模型下一階段基礎(chǔ)模型競(jìng)爭(zhēng)的技術(shù)決勝點(diǎn)。階躍星辰仍然按照模擬世界——探索世界——?dú)w納世界的節(jié)奏進(jìn)行技術(shù)積累,繼續(xù)提升基礎(chǔ)大模型的“智能上限”和多模態(tài)能力。

2、階躍星辰的多模態(tài)競(jìng)爭(zhēng)力解剖

行業(yè)內(nèi)對(duì)階躍星辰的評(píng)價(jià),一是低調(diào),二是技術(shù)“數(shù)一數(shù)二”的強(qiáng)悍。反觀階躍星辰的技術(shù)發(fā)展路線,一直都能在火爆現(xiàn)象浮出水面之前,就踩在趨勢(shì)的前沿上。

半年多的時(shí)間以來,大模型技術(shù)上有兩個(gè)趨勢(shì),一是強(qiáng)化學(xué)習(xí)的重要性越來越凸顯,從 o1 preview 將推理模型從趨勢(shì)變成范式,到 DeepSeek 摒棄監(jiān)督微調(diào),都說明了推理能力正在打開更大空間;二是從多模融合到多模理解生成一體化。

而在強(qiáng)化學(xué)習(xí)和多模態(tài)這兩個(gè)條線,階躍星辰均早有布局。在推理模型方面,今年1月份發(fā)布的Step R-Mini速度快、能力強(qiáng),預(yù)計(jì)未來三個(gè)月左右的時(shí)間將會(huì)推出滿血版推理模型Step R1;在多模態(tài)方面,堅(jiān)持走理解和生成統(tǒng)一路線,搭建了覆蓋圖片、視頻、語音的多模態(tài)模型矩陣。

階躍星辰之所以能對(duì)技術(shù)路線如此堅(jiān)定清晰,與核心成員是密不可分的。他們親歷了過去十年 AI 發(fā)展的歷程,有著深刻的實(shí)戰(zhàn)經(jīng)驗(yàn)和技術(shù)洞察。

創(chuàng)始人、CEO 姜大昕出身于微軟亞洲研究院 NLP 組,近 20 年的研發(fā)經(jīng)驗(yàn)使他把握住了階躍基礎(chǔ)大模態(tài)矩陣的正確的方向;首席科學(xué)家張祥雨對(duì)多模態(tài)模型的技術(shù)架構(gòu)頗有思考,參與著作的《用于圖像識(shí)別的深度殘差學(xué)習(xí)》論文(ResNet)是 21 世紀(jì)以來全球被引用次數(shù)最多的論文;系統(tǒng)負(fù)責(zé)人朱亦博也是 AI 系統(tǒng)方向的頂級(jí)專家,曾任字節(jié)跳動(dòng)任 AI Infra 負(fù)責(zé)人,從零開始建設(shè)國(guó)內(nèi)最大規(guī)模的 AI Infra。

除核心領(lǐng)軍人物之外,人才密度高也是階躍星辰的一大優(yōu)勢(shì),目前公司研發(fā)人員占比 80% 以上,擁有多位計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的頂尖研究員。

在過去一年左右的時(shí)間里,階躍星辰持續(xù)領(lǐng)跑多模態(tài)領(lǐng)域,收割國(guó)內(nèi)外多個(gè)權(quán)威榜單的第一名。不僅是技術(shù)的沉淀,在“超級(jí)模型加超級(jí)應(yīng)用”的雙輪驅(qū)動(dòng)策略中,階躍也基于自身的基礎(chǔ)模型矩陣優(yōu)勢(shì),差異化地尋找合適的應(yīng)用形態(tài)。

而 Agent 所需要的多模態(tài)和慢思考能力,是階躍的長(zhǎng)處所在。因此,階躍水到渠成地將智能終端 Agent 視為大模型技術(shù)落地的核心突破點(diǎn),最終形成一個(gè)從模型到 Agent,從云側(cè)到端側(cè)的生態(tài)體系。

當(dāng)下,汽車、手機(jī)、具身智能、IoT 等關(guān)鍵應(yīng)用場(chǎng)景是階躍突破的重點(diǎn)。面向手機(jī)終端,階躍星辰與OPPO等手機(jī)廠商推出了“一鍵問屏”、“一鍵全能搜”功能;面向具身智能,階躍星辰與智元機(jī)器人、原力靈機(jī)達(dá)成戰(zhàn)略合作,共同探索 AI+具身機(jī)器人應(yīng)用場(chǎng)景。

除了技術(shù)和應(yīng)用,階躍星辰在商業(yè)化上也是實(shí)踐派。有開發(fā)者反饋,階躍多模態(tài)模型的用戶付費(fèi)率最高。其中,頭部茶飲品牌茶百道全國(guó)數(shù)千家門店已經(jīng)接入階躍星辰 Step-1V 多模態(tài)理解大模型,完成智能巡檢、AIGC 營(yíng)銷等工作。

3、基模競(jìng)爭(zhēng)中的關(guān)鍵一極

當(dāng)前國(guó)內(nèi)大模型的競(jìng)爭(zhēng)已從“百模大戰(zhàn)”進(jìn)入“精耕細(xì)作”階段,應(yīng)用層的創(chuàng)新繞不過基礎(chǔ)模型的能力邊界,無論是復(fù)雜推理、長(zhǎng)上下文理解,還是跨領(lǐng)域知識(shí)遷移,均依賴底層模型的智能上限。

多模態(tài)能力是突破智能上限的關(guān)鍵路徑——通過融合文本、圖像、音頻等多維信號(hào),模型對(duì)世界的理解更接近人類認(rèn)知范式,也更靠近 AGI。隨著 AI 技術(shù)的進(jìn)一步發(fā)展可以見得,多模態(tài)能力已從“可選項(xiàng)”到“必爭(zhēng)項(xiàng)”。要想在下一輪競(jìng)爭(zhēng)中取得優(yōu)勢(shì),多模態(tài)是一塊必爭(zhēng)之地。

身為多模態(tài)卷王的階躍星辰,憑借清晰的技術(shù)路線和堅(jiān)定的持續(xù)投入,已經(jīng)積累了多模態(tài)方面的差異化優(yōu)勢(shì)。多模態(tài)能力的提升也反哺了階躍的基礎(chǔ)大模型矩陣,在未來可見的具身智能、世界模型等前沿方向階躍也會(huì)“近水樓臺(tái)先得月”,成為基座大模型競(jìng)爭(zhēng)中的關(guān)鍵一極。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說