丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給成妍菁
發(fā)送

0

老羅數(shù)字人直播6小時(shí)背后,百度AI正在拉開(kāi)差距

本文作者: 成妍菁   2025-06-19 15:54
導(dǎo)語(yǔ):聽(tīng)說(shuō)這次百度要用AI顛覆直播電商??

百度AI,又一次給行業(yè)制造驚喜。(雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng))

6月15日,羅永浩數(shù)字人在百度電商完成直播首秀,給出漂亮的成績(jī)單:開(kāi)播僅26分鐘,超過(guò)羅永浩真人1小時(shí)的GMV,當(dāng)晚GMV突破5500萬(wàn)元,部分3C、食品等核心品類商品帶貨單量超羅永浩 5 月真人首秀同期數(shù)據(jù),創(chuàng)下數(shù)字人直播帶貨新紀(jì)錄。

可以說(shuō),這場(chǎng)超6小時(shí)、近10萬(wàn)字講解的數(shù)字人直播,是百度大模型多模態(tài)能力的又一次華麗“閱兵”。它的背后,是百度研制的多模協(xié)同的數(shù)字人技術(shù)的支撐,以保證數(shù)字人在長(zhǎng)時(shí)間直播中,像真人一樣、形神音容高度協(xié)調(diào)、會(huì)思考決策、且能協(xié)作完成特定任務(wù)。

AI戰(zhàn)場(chǎng)硝煙彌漫,各方廝殺愈發(fā)激烈。不過(guò),當(dāng)行業(yè)還在卷“通用視頻生成模型”時(shí),百度高舉的是“AI應(yīng)用戰(zhàn)略”的大旗,聚焦在有實(shí)際需求的場(chǎng)景,發(fā)展模型能力。

羅永浩數(shù)字人直播,證明百度已經(jīng)開(kāi)始用AI創(chuàng)造GMV。顯然,百度的野心不止于此,而是要?jiǎng)?chuàng)造出越來(lái)越多“超級(jí)有用”的AI應(yīng)用。

01 AI驅(qū)動(dòng)GMV破5500萬(wàn),創(chuàng)行業(yè)新標(biāo)桿

憑借極具個(gè)人魅力和傳播影響力,羅永浩在直播電商領(lǐng)域自有一席之位,其一舉一動(dòng)都備受行業(yè)矚目。

這次,羅永浩與百度數(shù)字人直播合作,在數(shù)字人的技術(shù)驅(qū)動(dòng)和羅永浩的IP效應(yīng)帶動(dòng)下,期待值早就被拉滿。

當(dāng)晚直播間更是吸引超1300萬(wàn)人次觀看,GMV 突破5500萬(wàn)元,側(cè)面說(shuō)明數(shù)字人直播技術(shù)的商業(yè)可行性。

早在今年4月份的Create AI開(kāi)發(fā)者大會(huì)上,百度連發(fā)兩大模型:文心大模型4.5 Turbo和文心大模型X1 Turbo,其中高說(shuō)服力數(shù)字人,正是多模態(tài)大模型的一個(gè)典型應(yīng)用。

這些數(shù)字人不僅在神形音容上達(dá)到高度一致,更搭載有AI大腦,通過(guò)劇本模式和多智能體協(xié)同,數(shù)字人能夠在直播電商領(lǐng)域?qū)崿F(xiàn)帶貨轉(zhuǎn)化。

本次羅永浩數(shù)字人首秀,在原有高說(shuō)服力數(shù)字人基礎(chǔ)上,又創(chuàng)下多個(gè)首次。

比如,首次實(shí)現(xiàn)頭部主播用數(shù)字人直播帶貨,并突破AI視頻生成極限播出超6小時(shí)。

對(duì)于頭部主播來(lái)說(shuō),啟用數(shù)字人往往伴隨操作失誤等風(fēng)險(xiǎn),但在這場(chǎng)數(shù)字人直播里,觀眾通過(guò)表情和動(dòng)作,已經(jīng)很難判斷不是真人。

這些都來(lái)自多模融合技術(shù),實(shí)現(xiàn)了動(dòng)作、表情、語(yǔ)調(diào)等多個(gè)維度與話術(shù)的完美統(tǒng)一,以及動(dòng)作驅(qū)動(dòng)技術(shù),讓數(shù)字人擁有更長(zhǎng)的待機(jī)時(shí)間,同時(shí)讓表情和動(dòng)作更加自然,進(jìn)一步增強(qiáng)數(shù)字人的真實(shí)感。比如,數(shù)字人老羅直播中,提到抬頭紋、法令紋、頸紋的時(shí)候,也配合手部動(dòng)作指出相應(yīng)位置,這也是業(yè)內(nèi)首次實(shí)現(xiàn)多模高度融合的數(shù)字人。

首次突破多數(shù)字人互動(dòng)直播,羅永浩與助播數(shù)字人配合自然、頻頻爆梗。

以往羅永浩直播間,通常都會(huì)有另一位主播朱蕭木做搭檔,這次百度AI技術(shù)也把朱蕭木的數(shù)字人搬來(lái)了,通過(guò)視覺(jué)大模型和語(yǔ)音大模型的全面升級(jí),兩個(gè)數(shù)字人在直播間里一唱一和,默契互動(dòng),講解銜接自然,支持打斷和同時(shí)說(shuō)話,高度還原了主播和助播的真實(shí)直播狀態(tài),提升營(yíng)銷轉(zhuǎn)化和C端體驗(yàn)。

這些數(shù)字人不但能做出喝奶茶、拎可樂(lè)等細(xì)節(jié)動(dòng)作,還能與直播間用戶彈幕進(jìn)行實(shí)時(shí)互動(dòng)。

在內(nèi)容方面,得益于最新文心4.5Turbo的加持,大模型不再局限于簡(jiǎn)單腳本生成,而是既懂創(chuàng)作更懂用戶,可以量身打造大師級(jí)劇本模式,讓數(shù)字人擁有羅永浩的強(qiáng)烈個(gè)人風(fēng)格,“羅氏幽默”的話語(yǔ)更是張口就來(lái)。

面對(duì)多任務(wù)的復(fù)雜直播場(chǎng)景,整場(chǎng)直播AI調(diào)用知識(shí)庫(kù) 1.3 萬(wàn)次,生成 9.7 萬(wàn)字產(chǎn)品講解內(nèi)容,雙數(shù)字人搭檔做出超8300個(gè)動(dòng)作,并以3倍于真人直播間的互動(dòng)次數(shù),再次證明百度AI應(yīng)用的強(qiáng)大控場(chǎng)力。

以上種種技術(shù)優(yōu)勢(shì)的背后,全部依托于百度研制的多模協(xié)同的數(shù)字人技術(shù),這是基于文心 4.5T 實(shí)現(xiàn)了融合多模規(guī)劃與深度思考的劇本生成,由劇本驅(qū)動(dòng)數(shù)字人多模協(xié)同,實(shí)現(xiàn)動(dòng)態(tài)決策的實(shí)時(shí)交互,再結(jié)合文本自控的語(yǔ)音合成大模型生成風(fēng)格恰當(dāng)、自然流暢的聲音,以及高一致性超擬真數(shù)字人長(zhǎng)視頻生成,使數(shù)字人的“神、形、音、容、話”達(dá)到高度統(tǒng)一。

最終,呈現(xiàn)出一個(gè)具備高表現(xiàn)力、內(nèi)容吸引人,且“人-物-場(chǎng)”可自由交互的超擬真數(shù)字人。

02 超6小時(shí)數(shù)字人直播背后,源于多模協(xié)同的數(shù)字人技術(shù)

數(shù)字人這一概念并非新詞,其發(fā)展階段也經(jīng)歷了從探索到商業(yè)爆發(fā)的歷程。

數(shù)字人最初起源于20世紀(jì)末,早期受限于技術(shù),主要應(yīng)用于游戲和動(dòng)畫(huà)。隨著圖形學(xué)和AI進(jìn)步,虛擬助手和偶像開(kāi)始出現(xiàn),比如2007年初音未來(lái)的走紅;隨著AIGC技術(shù)的突破,大幅降低了數(shù)字人的制作成本和技術(shù)門檻,使其在直播電商、教育、金融等領(lǐng)域得到廣泛應(yīng)用。

坦白講,要達(dá)到羅永浩數(shù)字人這樣的效果并非易事,需要具備出色的表現(xiàn)力、吸引人的內(nèi)容、數(shù)字人與場(chǎng)景、物品的互動(dòng)等。此前就有商家選擇AI主播,結(jié)果出現(xiàn)了內(nèi)容模板化、缺乏創(chuàng)意、答非所問(wèn)的狀況。

那么,百度高說(shuō)服力數(shù)字人的“超能力”從何而來(lái)?答案是,劇本驅(qū)動(dòng)的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動(dòng)態(tài)決策的實(shí)時(shí)交互、文本自控的語(yǔ)音合成、高一致性超擬真數(shù)字人長(zhǎng)視頻生成等五項(xiàng)創(chuàng)新技術(shù)組成的多模協(xié)同的數(shù)字人技術(shù)。

語(yǔ)言模型是這套數(shù)字人技術(shù)方案的核心引擎。由它生成的劇本,能夠精確指導(dǎo)語(yǔ)音和視覺(jué)系統(tǒng),實(shí)現(xiàn)高度協(xié)同的多模態(tài)交互。這種協(xié)同作用最終塑造了數(shù)字人逼真的音容笑貌,使其整體表現(xiàn)更為自然流暢。

首先,最關(guān)鍵技術(shù)就是劇本生成。

數(shù)字人不管是直播,還是完成視頻內(nèi)容的生產(chǎn),第一個(gè)關(guān)鍵就是數(shù)字人本身講出來(lái)的內(nèi)容——臺(tái)詞。臺(tái)詞包括多樣化風(fēng)格、擬真化人設(shè)、吸引力內(nèi)容。

有很多主播受到用戶的喜愛(ài),原因是因?yàn)樗麄冇蟹浅ur明的人設(shè)和獨(dú)特的語(yǔ)言風(fēng)格。這些都需要模型在臺(tái)詞生成上建設(shè)相應(yīng)的能力來(lái)實(shí)現(xiàn)。

基于大語(yǔ)言模型的劇本生成在生成臺(tái)詞時(shí),同步生成數(shù)字人的動(dòng)作、表情和語(yǔ)調(diào)等信息標(biāo)簽,以及每個(gè)模態(tài)的對(duì)齊位置,實(shí)現(xiàn)多模協(xié)同工作。

簡(jiǎn)單來(lái)說(shuō),新一代數(shù)字人技術(shù)不再只是“照本宣科”,而是以劇本驅(qū)動(dòng)視頻和語(yǔ)音,在生成時(shí)進(jìn)行多模態(tài)的內(nèi)容匹配和位置對(duì)齊,實(shí)現(xiàn)更智能和自然的表現(xiàn)。

第三,動(dòng)態(tài)交互是數(shù)字人能夠像真人一樣,與用戶互動(dòng)的關(guān)鍵能力,也是體現(xiàn)數(shù)字人真實(shí)性的關(guān)鍵因素。百度研制的動(dòng)態(tài)交互技術(shù),讓數(shù)字人的互動(dòng)能力媲美真人,并通過(guò)視頻斷點(diǎn)設(shè)計(jì),讓動(dòng)態(tài)視頻片段能夠在視頻流中順暢銜接。

在數(shù)字人場(chǎng)景的語(yǔ)音合成上,和以往熟悉的朗誦式語(yǔ)音合成也有很大的區(qū)別。

最主要的區(qū)別在于數(shù)字人需要語(yǔ)音的自然流暢,在講述不同東西的時(shí)候有抑揚(yáng)頓挫感,在希望能夠更好地感染別人的時(shí)候有激情澎湃的感覺(jué)。

通過(guò)文本自控的語(yǔ)音合成大模型,實(shí)現(xiàn)字級(jí)別指令遵循的合成能力,控制聲音效果的平滑流暢,再結(jié)合直播文本及發(fā)音人信息,合成風(fēng)格恰當(dāng)、自然流暢的聲音。

羅永浩數(shù)字人還遇到了直播雙人聲音配合的難點(diǎn),百度選擇采用對(duì)話上下文編碼器的方法,將對(duì)話歷史輸入和當(dāng)前對(duì)話進(jìn)行語(yǔ)音合成的統(tǒng)一推理計(jì)算,最終實(shí)現(xiàn)了老羅和朱蕭木兩人流暢、自然的對(duì)話效果。

最后,在高一致性超擬真數(shù)字人長(zhǎng)視頻生成上,百度構(gòu)建了一整套數(shù)字人形象生成和驅(qū)動(dòng)技術(shù),專門解決數(shù)字人面臨的高可控交互,高精度、長(zhǎng)時(shí)間一致性保持等難點(diǎn),保證數(shù)字人能夠長(zhǎng)時(shí)間穩(wěn)定運(yùn)行,并具備高表現(xiàn)力和自由交互能力。

最終呈現(xiàn)在直播間里,就像是觀眾看到的羅永浩數(shù)字人一樣,是一個(gè)能夠理解用戶、并會(huì)多種表情和神態(tài)的智能體。

可以說(shuō),百度呈現(xiàn)的數(shù)字人直播是大模型技術(shù)的集大成應(yīng)用,羅永浩數(shù)字人是基于文心大模型的最佳實(shí)踐。

03 提升應(yīng)用落地效果,模型能力是關(guān)鍵

OpenAI首席執(zhí)行官Sam Altman說(shuō)過(guò):“AI 的真正革命不在實(shí)驗(yàn)室,而在普通人的指尖?!?/p>

理解了這句話,就能夠理解當(dāng)下百度AI正在做的事情。

作為國(guó)內(nèi)最早投入大模型產(chǎn)研的企業(yè),百度在芯片、框架、模型、應(yīng)用四層技術(shù)棧進(jìn)行全面布局,AI大模型領(lǐng)域的技術(shù)創(chuàng)新優(yōu)勢(shì)明顯。

今年上半年,百度連發(fā)4款基座大模型,文心大模型4.5/4.5T、文心大模型X1/X1 Turbo,其中文心4.5價(jià)格僅為GPT的1%,X1 Turbo在信通院評(píng)測(cè)中獲得最高評(píng)級(jí)。

就在今年百度Q1財(cái)報(bào)電話會(huì)議上,李彥宏表示,2025年將加速迭代文心系列模型,下一代文心大模型已在研發(fā)中,6月30日將開(kāi)源最先進(jìn)的文心4.5系列模型。

百度正以數(shù)字人、代碼智能體、無(wú)人駕駛等為切入點(diǎn),全力推動(dòng)AI應(yīng)用落地。

當(dāng)行業(yè)還在探索通用視頻生成模型時(shí),百度已將AI應(yīng)用落地,聚焦實(shí)際需求發(fā)展模型能力,率先用AI創(chuàng)造商業(yè)價(jià)值、提升GMV。

相較于通用的視頻生成模型,數(shù)字人聚焦特定垂直領(lǐng)域,具備更精準(zhǔn)的模型優(yōu)化、極致的人機(jī)交互體驗(yàn)、實(shí)時(shí)互動(dòng)能力等優(yōu)勢(shì),技術(shù)門檻相對(duì)較低,應(yīng)用場(chǎng)景清晰,更易形成可復(fù)制的商業(yè)模式。

從這一點(diǎn)來(lái)看,此次羅永浩的數(shù)字人超長(zhǎng)直播,正是百度大模型在多模態(tài)上的綜合應(yīng)用的有力證明。

今年,百度上線無(wú)代碼生成工具“秒噠”,降低了應(yīng)用開(kāi)發(fā)的門檻,讓更多人有機(jī)會(huì)參與技術(shù)創(chuàng)新。同時(shí),AI代碼輔助工具“文心快碼”也服務(wù)了數(shù)百萬(wàn)開(kāi)發(fā)者,在無(wú)人駕駛領(lǐng)域,百度旗下蘿卜快跑加速出海,在全球范圍內(nèi)積累了超過(guò)1100萬(wàn)次服務(wù),積極推動(dòng)無(wú)人駕駛技術(shù)的商業(yè)化應(yīng)用。

從數(shù)字人、代碼智能體到無(wú)人駕駛......都預(yù)示著百度AI技術(shù)正加速滲透到各個(gè)領(lǐng)域。可以斷定,AI將不再是個(gè)遙遠(yuǎn)的概念,它正加速在各行各業(yè)落地扎根。

正如百度創(chuàng)始人李彥宏一直強(qiáng)調(diào)的,“應(yīng)用才是大模型真正價(jià)值所在”,從應(yīng)用出發(fā)做模型,正在讓百度創(chuàng)造出越來(lái)越多“超級(jí)有用”的AI應(yīng)用。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)