老羅數(shù)字人直播6小時(shí)背后，百度AI正在拉開差距

本文作者：成妍菁

2025-06-19 15:54

導(dǎo)語：聽說這次百度要用AI顛覆直播電商？?

百度AI，又一次給行業(yè)制造驚喜。（雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))雷峰網(wǎng)）

6月15日，羅永浩數(shù)字人在百度電商完成直播首秀，給出漂亮的成績(jī)單：開播僅26分鐘，超過羅永浩真人1小時(shí)的GMV，當(dāng)晚GMV突破5500萬元，部分3C、食品等核心品類商品帶貨單量超羅永浩 5 月真人首秀同期數(shù)據(jù)，創(chuàng)下數(shù)字人直播帶貨新紀(jì)錄。

可以說，這場(chǎng)超6小時(shí)、近10萬字講解的數(shù)字人直播，是百度大模型多模態(tài)能力的又一次華麗“閱兵”。它的背后，是百度研制的多模協(xié)同的數(shù)字人技術(shù)的支撐，以保證數(shù)字人在長(zhǎng)時(shí)間直播中，像真人一樣、形神音容高度協(xié)調(diào)、會(huì)思考決策、且能協(xié)作完成特定任務(wù)。

AI戰(zhàn)場(chǎng)硝煙彌漫，各方廝殺愈發(fā)激烈。不過，當(dāng)行業(yè)還在卷“通用視頻生成模型”時(shí)，百度高舉的是“AI應(yīng)用戰(zhàn)略”的大旗，聚焦在有實(shí)際需求的場(chǎng)景，發(fā)展模型能力。

羅永浩數(shù)字人直播，證明百度已經(jīng)開始用AI創(chuàng)造GMV。顯然，百度的野心不止于此，而是要?jiǎng)?chuàng)造出越來越多“超級(jí)有用”的AI應(yīng)用。

01 AI驅(qū)動(dòng)GMV破5500萬，創(chuàng)行業(yè)新標(biāo)桿

憑借極具個(gè)人魅力和傳播影響力，羅永浩在直播電商領(lǐng)域自有一席之位，其一舉一動(dòng)都備受行業(yè)矚目。

這次，羅永浩與百度數(shù)字人直播合作，在數(shù)字人的技術(shù)驅(qū)動(dòng)和羅永浩的IP效應(yīng)帶動(dòng)下，期待值早就被拉滿。

當(dāng)晚直播間更是吸引超1300萬人次觀看，GMV 突破5500萬元，側(cè)面說明數(shù)字人直播技術(shù)的商業(yè)可行性。

早在今年4月份的Create AI開發(fā)者大會(huì)上，百度連發(fā)兩大模型：文心大模型4.5 Turbo和文心大模型X1 Turbo，其中高說服力數(shù)字人，正是多模態(tài)大模型的一個(gè)典型應(yīng)用。

這些數(shù)字人不僅在神形音容上達(dá)到高度一致，更搭載有AI大腦，通過劇本模式和多智能體協(xié)同，數(shù)字人能夠在直播電商領(lǐng)域?qū)崿F(xiàn)帶貨轉(zhuǎn)化。

本次羅永浩數(shù)字人首秀，在原有高說服力數(shù)字人基礎(chǔ)上，又創(chuàng)下多個(gè)首次。

比如，首次實(shí)現(xiàn)頭部主播用數(shù)字人直播帶貨，并突破AI視頻生成極限播出超6小時(shí)。

對(duì)于頭部主播來說，啟用數(shù)字人往往伴隨操作失誤等風(fēng)險(xiǎn)，但在這場(chǎng)數(shù)字人直播里，觀眾通過表情和動(dòng)作，已經(jīng)很難判斷不是真人。

這些都來自多模融合技術(shù)，實(shí)現(xiàn)了動(dòng)作、表情、語調(diào)等多個(gè)維度與話術(shù)的完美統(tǒng)一，以及動(dòng)作驅(qū)動(dòng)技術(shù)，讓數(shù)字人擁有更長(zhǎng)的待機(jī)時(shí)間，同時(shí)讓表情和動(dòng)作更加自然，進(jìn)一步增強(qiáng)數(shù)字人的真實(shí)感。比如，數(shù)字人老羅直播中，提到抬頭紋、法令紋、頸紋的時(shí)候，也配合手部動(dòng)作指出相應(yīng)位置，這也是業(yè)內(nèi)首次實(shí)現(xiàn)多模高度融合的數(shù)字人。

首次突破多數(shù)字人互動(dòng)直播，羅永浩與助播數(shù)字人配合自然、頻頻爆梗。

以往羅永浩直播間，通常都會(huì)有另一位主播朱蕭木做搭檔，這次百度AI技術(shù)也把朱蕭木的數(shù)字人搬來了，通過視覺大模型和語音大模型的全面升級(jí)，兩個(gè)數(shù)字人在直播間里一唱一和，默契互動(dòng)，講解銜接自然，支持打斷和同時(shí)說話，高度還原了主播和助播的真實(shí)直播狀態(tài)，提升營(yíng)銷轉(zhuǎn)化和C端體驗(yàn)。

這些數(shù)字人不但能做出喝奶茶、拎可樂等細(xì)節(jié)動(dòng)作，還能與直播間用戶彈幕進(jìn)行實(shí)時(shí)互動(dòng)。

在內(nèi)容方面，得益于最新文心4.5Turbo的加持，大模型不再局限于簡(jiǎn)單腳本生成，而是既懂創(chuàng)作更懂用戶，可以量身打造大師級(jí)劇本模式，讓數(shù)字人擁有羅永浩的強(qiáng)烈個(gè)人風(fēng)格，“羅氏幽默”的話語更是張口就來。

面對(duì)多任務(wù)的復(fù)雜直播場(chǎng)景，整場(chǎng)直播AI調(diào)用知識(shí)庫 1.3 萬次，生成 9.7 萬字產(chǎn)品講解內(nèi)容，雙數(shù)字人搭檔做出超8300個(gè)動(dòng)作，并以3倍于真人直播間的互動(dòng)次數(shù)，再次證明百度AI應(yīng)用的強(qiáng)大控場(chǎng)力。

以上種種技術(shù)優(yōu)勢(shì)的背后，全部依托于百度研制的多模協(xié)同的數(shù)字人技術(shù)，這是基于文心 4.5T 實(shí)現(xiàn)了融合多模規(guī)劃與深度思考的劇本生成，由劇本驅(qū)動(dòng)數(shù)字人多模協(xié)同，實(shí)現(xiàn)動(dòng)態(tài)決策的實(shí)時(shí)交互，再結(jié)合文本自控的語音合成大模型生成風(fēng)格恰當(dāng)、自然流暢的聲音，以及高一致性超擬真數(shù)字人長(zhǎng)視頻生成，使數(shù)字人的“神、形、音、容、話”達(dá)到高度統(tǒng)一。

最終，呈現(xiàn)出一個(gè)具備高表現(xiàn)力、內(nèi)容吸引人，且“人-物-場(chǎng)”可自由交互的超擬真數(shù)字人。

02 超6小時(shí)數(shù)字人直播背后，源于多模協(xié)同的數(shù)字人技術(shù)

數(shù)字人這一概念并非新詞，其發(fā)展階段也經(jīng)歷了從探索到商業(yè)爆發(fā)的歷程。

數(shù)字人最初起源于20世紀(jì)末，早期受限于技術(shù)，主要應(yīng)用于游戲和動(dòng)畫。隨著圖形學(xué)和AI進(jìn)步，虛擬助手和偶像開始出現(xiàn)，比如2007年初音未來的走紅；隨著AIGC技術(shù)的突破，大幅降低了數(shù)字人的制作成本和技術(shù)門檻，使其在直播電商、教育、金融等領(lǐng)域得到廣泛應(yīng)用。

坦白講，要達(dá)到羅永浩數(shù)字人這樣的效果并非易事，需要具備出色的表現(xiàn)力、吸引人的內(nèi)容、數(shù)字人與場(chǎng)景、物品的互動(dòng)等。此前就有商家選擇AI主播，結(jié)果出現(xiàn)了內(nèi)容模板化、缺乏創(chuàng)意、答非所問的狀況。

那么，百度高說服力數(shù)字人的“超能力”從何而來？答案是，劇本驅(qū)動(dòng)的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動(dòng)態(tài)決策的實(shí)時(shí)交互、文本自控的語音合成、高一致性超擬真數(shù)字人長(zhǎng)視頻生成等五項(xiàng)創(chuàng)新技術(shù)組成的多模協(xié)同的數(shù)字人技術(shù)。

語言模型是這套數(shù)字人技術(shù)方案的核心引擎。由它生成的劇本，能夠精確指導(dǎo)語音和視覺系統(tǒng)，實(shí)現(xiàn)高度協(xié)同的多模態(tài)交互。這種協(xié)同作用最終塑造了數(shù)字人逼真的音容笑貌，使其整體表現(xiàn)更為自然流暢。

首先，最關(guān)鍵技術(shù)就是劇本生成。

數(shù)字人不管是直播，還是完成視頻內(nèi)容的生產(chǎn)，第一個(gè)關(guān)鍵就是數(shù)字人本身講出來的內(nèi)容——臺(tái)詞。臺(tái)詞包括多樣化風(fēng)格、擬真化人設(shè)、吸引力內(nèi)容。

有很多主播受到用戶的喜愛，原因是因?yàn)樗麄冇蟹浅ｕr明的人設(shè)和獨(dú)特的語言風(fēng)格。這些都需要模型在臺(tái)詞生成上建設(shè)相應(yīng)的能力來實(shí)現(xiàn)。

基于大語言模型的劇本生成在生成臺(tái)詞時(shí)，同步生成數(shù)字人的動(dòng)作、表情和語調(diào)等信息標(biāo)簽，以及每個(gè)模態(tài)的對(duì)齊位置，實(shí)現(xiàn)多模協(xié)同工作。

簡(jiǎn)單來說，新一代數(shù)字人技術(shù)不再只是“照本宣科”，而是以劇本驅(qū)動(dòng)視頻和語音，在生成時(shí)進(jìn)行多模態(tài)的內(nèi)容匹配和位置對(duì)齊，實(shí)現(xiàn)更智能和自然的表現(xiàn)。

第三，動(dòng)態(tài)交互是數(shù)字人能夠像真人一樣，與用戶互動(dòng)的關(guān)鍵能力，也是體現(xiàn)數(shù)字人真實(shí)性的關(guān)鍵因素。百度研制的動(dòng)態(tài)交互技術(shù)，讓數(shù)字人的互動(dòng)能力媲美真人，并通過視頻斷點(diǎn)設(shè)計(jì)，讓動(dòng)態(tài)視頻片段能夠在視頻流中順暢銜接。

在數(shù)字人場(chǎng)景的語音合成上，和以往熟悉的朗誦式語音合成也有很大的區(qū)別。

最主要的區(qū)別在于數(shù)字人需要語音的自然流暢，在講述不同東西的時(shí)候有抑揚(yáng)頓挫感，在希望能夠更好地感染別人的時(shí)候有激情澎湃的感覺。

通過文本自控的語音合成大模型，實(shí)現(xiàn)字級(jí)別指令遵循的合成能力，控制聲音效果的平滑流暢，再結(jié)合直播文本及發(fā)音人信息，合成風(fēng)格恰當(dāng)、自然流暢的聲音。

羅永浩數(shù)字人還遇到了直播雙人聲音配合的難點(diǎn)，百度選擇采用對(duì)話上下文編碼器的方法，將對(duì)話歷史輸入和當(dāng)前對(duì)話進(jìn)行語音合成的統(tǒng)一推理計(jì)算，最終實(shí)現(xiàn)了老羅和朱蕭木兩人流暢、自然的對(duì)話效果。

最后，在高一致性超擬真數(shù)字人長(zhǎng)視頻生成上，百度構(gòu)建了一整套數(shù)字人形象生成和驅(qū)動(dòng)技術(shù)，專門解決數(shù)字人面臨的高可控交互，高精度、長(zhǎng)時(shí)間一致性保持等難點(diǎn)，保證數(shù)字人能夠長(zhǎng)時(shí)間穩(wěn)定運(yùn)行，并具備高表現(xiàn)力和自由交互能力。

最終呈現(xiàn)在直播間里，就像是觀眾看到的羅永浩數(shù)字人一樣，是一個(gè)能夠理解用戶、并會(huì)多種表情和神態(tài)的智能體。

可以說，百度呈現(xiàn)的數(shù)字人直播是大模型技術(shù)的集大成應(yīng)用，羅永浩數(shù)字人是基于文心大模型的最佳實(shí)踐。

03 提升應(yīng)用落地效果，模型能力是關(guān)鍵

OpenAI首席執(zhí)行官Sam Altman說過：“AI 的真正革命不在實(shí)驗(yàn)室，而在普通人的指尖。”

理解了這句話，就能夠理解當(dāng)下百度AI正在做的事情。

作為國(guó)內(nèi)最早投入大模型產(chǎn)研的企業(yè)，百度在芯片、框架、模型、應(yīng)用四層技術(shù)棧進(jìn)行全面布局，AI大模型領(lǐng)域的技術(shù)創(chuàng)新優(yōu)勢(shì)明顯。

今年上半年，百度連發(fā)4款基座大模型，文心大模型4.5/4.5T、文心大模型X1/X1 Turbo，其中文心4.5價(jià)格僅為GPT的1%，X1 Turbo在信通院評(píng)測(cè)中獲得最高評(píng)級(jí)。

就在今年百度Q1財(cái)報(bào)電話會(huì)議上，李彥宏表示，2025年將加速迭代文心系列模型，下一代文心大模型已在研發(fā)中，6月30日將開源最先進(jìn)的文心4.5系列模型。

百度正以數(shù)字人、代碼智能體、無人駕駛等為切入點(diǎn)，全力推動(dòng)AI應(yīng)用落地。

當(dāng)行業(yè)還在探索通用視頻生成模型時(shí)，百度已將AI應(yīng)用落地，聚焦實(shí)際需求發(fā)展模型能力，率先用AI創(chuàng)造商業(yè)價(jià)值、提升GMV。

相較于通用的視頻生成模型，數(shù)字人聚焦特定垂直領(lǐng)域，具備更精準(zhǔn)的模型優(yōu)化、極致的人機(jī)交互體驗(yàn)、實(shí)時(shí)互動(dòng)能力等優(yōu)勢(shì)，技術(shù)門檻相對(duì)較低，應(yīng)用場(chǎng)景清晰，更易形成可復(fù)制的商業(yè)模式。

從這一點(diǎn)來看，此次羅永浩的數(shù)字人超長(zhǎng)直播，正是百度大模型在多模態(tài)上的綜合應(yīng)用的有力證明。

今年，百度上線無代碼生成工具“秒噠”，降低了應(yīng)用開發(fā)的門檻，讓更多人有機(jī)會(huì)參與技術(shù)創(chuàng)新。同時(shí)，AI代碼輔助工具“文心快碼”也服務(wù)了數(shù)百萬開發(fā)者，在無人駕駛領(lǐng)域，百度旗下蘿卜快跑加速出海，在全球范圍內(nèi)積累了超過1100萬次服務(wù)，積極推動(dòng)無人駕駛技術(shù)的商業(yè)化應(yīng)用。

從數(shù)字人、代碼智能體到無人駕駛......都預(yù)示著百度AI技術(shù)正加速滲透到各個(gè)領(lǐng)域?？梢詳喽?，AI將不再是個(gè)遙遠(yuǎn)的概念，它正加速在各行各業(yè)落地扎根。

正如百度創(chuàng)始人李彥宏一直強(qiáng)調(diào)的，“應(yīng)用才是大模型真正價(jià)值所在”，從應(yīng)用出發(fā)做模型，正在讓百度創(chuàng)造出越來越多“超級(jí)有用”的AI應(yīng)用。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

成妍菁

編輯

發(fā)私信

當(dāng)月熱門文章

當(dāng)外賣帶不動(dòng)電商，茶飲行業(yè)開始入冬