0
本文作者: 趙晨希 | 2019-03-15 10:47 |
導語:近日,雷鋒網就“搜狗分身”技術以及升級后的AI合成主播,與搜狗語音技術交互中心的陳偉進行了面對面的交流。
2019年2月19日,搜狗和新華社新媒體中心聯(lián)合推出的全球首個站立式AI合成主播,舉行了升級發(fā)布儀式。新一代的AI合成主播從過去“坐著”播新聞,升級為具有肢體動作的“站立式播報”。AI合成主播的新聞播報方式,實現(xiàn)了重量級的突破。3月3日全球首位AI合成女主播“新小萌”正式上崗、向世界報道中國“兩會”的盛況。
2018年11月,烏鎮(zhèn)世界互聯(lián)網大會上,以新華社CNC主持人邱浩為原型的AI合成主播首次亮相,一經面世就引發(fā)了公眾極為熱烈的討論。這不僅是“搜狗分身”技術首次應用于新聞行業(yè)中,同時也是未來融媒體發(fā)展探索的一個重要方向。
雷鋒網了解到,截止目前,入職新華社的AI合成主播,已生產幾千條新聞報道。參與包括第五屆世界互聯(lián)網大會、首屆進博會、2019春運、春節(jié)、兩會等若干重要事件的報道,顯然,已經成為了國內人工智能與傳媒業(yè)大膽融合并付諸規(guī)?;瘧玫牡湫桶咐?。
“搜狗分身”技術可以實現(xiàn)機器逼真的模擬人類說話時的聲音、嘴唇動作和表情,并將三者自然地匹配,創(chuàng)造出人類的AI分身。此次,除了聲音、嘴唇動作、表情等,“搜狗分身”技術升級了AI合成主播肢體語言的能力,讓AI合成主播從整體形象、動作細節(jié)、立體感覺方面有了更加逼真的效果。
而“搜狗分身”技術在新聞行業(yè)中的第一次落地,更為重要的意義,在于解決了新聞播報領域的效率問題。新聞播報受限于場地、時間、資源、主播個人的精力等等問題,因而“人類”主播每天的產出量十分有限。目前,新華社利用搜狗的技術,只要將每天想要播報的新聞以文本形式輸入,便會在幾秒鐘后生成一個完整的視頻,在新聞客戶端APP上線,且中英文不同類型的語種視頻均可支持。
一方面,新聞速度要求較高,采用“搜狗分身”技術,保證了新聞時效性。另一方面,該技術將主播從日常繁重、單一、沒有技術含量的播報中,抽身出來。騰出更多的精力、時間錄制訪談類、深度類型的新聞報道節(jié)目中去。
其次,“搜狗分身”技術早已籌備多年,在搜狗知音大的基礎框架之下,孵化出很多不同的技術,從感知能力到認知能力均囊括。搜狗希望圍繞搜狗在AI人工智能戰(zhàn)略自然交互+知識計算,做出更多突破。早在2012年搜狗圍繞感知層面的交互,就做了語音識別相關研究。
隨著時間的推移以及技術的進步,識別這狀態(tài)逐漸從語音識別到多模態(tài)識別。即語音識別之外,還增加了手寫識別、唇語識別等等不同識別技術結合、疊加在一起識別能力。
而搜狗最早公布“分身”技術,可以追溯到2018年7月,搜狗CEO王小川在香港,正式對外宣布該項技術,現(xiàn)場王小川展示了一段結合唇語合成、語音合成、音視頻聯(lián)合建模與深度學習技術,可驅動機器生成對應的唇語圖像與聲音,進而輸出統(tǒng)一的音視頻素材。近日,雷鋒網就“搜狗分身”技術與搜狗語音技術交互中心的陳偉進行了面對面的交流。
陳偉介紹稱,在語音理解認知層面,搜狗語音技術交互中心主要做機器翻譯和自然交互的研究工作。在表達層面,目前更多集中在多模態(tài)表達的研究?;趶淖R別再到理解、認知,再到表達整個閉環(huán)。當然,除了音頻之外還有音視頻的表達方式。陳偉所在團隊有兩條大條線在做語音交互:第一,怎么能夠讓人機交互更自然;第二,語音翻譯、語音同傳的能力。
陳偉認為,未來的發(fā)展方向語音不會是唯一的一種表達,而是如何將其與多模態(tài)信息融合起來。在交互的框架下,引入與語音、同傳等更多的信息,以及語音、圖像等能力相互結合。陳偉說,“技術一直在持續(xù)迭代中,目前搜狗具備了在整個分身的技術方面快速落地的穩(wěn)定能力。不僅僅停留在實驗室的模型階段,而是跟更多行業(yè)內不同領域的場景、產品深度結合。AI合成主播原形的工作性質發(fā)生了很多變化,AI分身落地之后確實改變、影響每個人未來的工作方式和狀態(tài)?!?/p>
陳偉透露,基于搜狗分身技術的AI合成主播已經在新華社平臺上播報了幾千條新聞,并且是零失誤。搜狗分身將于年內推出交互能力,后續(xù)搜狗分身會繼續(xù)在教育,法律,醫(yī)療,娛樂等領域紛紛發(fā)力......
陳偉:從目前跟新華社合作來看,證明這是一次非常成功的合作。2018年11月份烏鎮(zhèn)互聯(lián)網大會發(fā)布以來到現(xiàn)在,我們本身的技術已經在國內、國外都引起了比較大的轟動。
有些合作,恰好在某一個合適的時間點,大家有一個共同的訴求下,把這件事做成了。我們當時在做這件事情時,第一想法是把它落地在主播,正好新華社有這方面的需求,于是就產生了后續(xù)的合作。
陳偉:要用云端服務器。用的自己的,搜狗都有自建機房。
陳偉:現(xiàn)在包括兩部分,一部分是我們支持公有云的調動,會有一個公有云。比如有些公司需要用,他們自己沒有服務器,我們可以提供。第二部分,我們可以支持私有化的部署,在他自己的機房部署分身整套服務。這也是為什么說搜狗目前在分身這件事情上是領先的。我們現(xiàn)在提供出去的服務在資源占用上、實時性都可以完全達到要求。我們有好的系統(tǒng)能力支撐了我們整套技術的快速輸出。
陳偉:目前AI沒有數(shù)據肯定做不到,從2012年到現(xiàn)在我們基本上已經做了七年多的時間了。早期做語音識別的能力,后期有語音合成的能力,再加上我們一直在做唇語識別的研究。差不多從2016年開始做唇語識別,還有一個團隊在做圖像研究,基于表情生成的工作,糅合在一起變成今天的分身。AI合成主播走到今天不是花了幾個月突擊出來的,而是數(shù)據本身的積累。搜狗從2012年到現(xiàn)在,一直在AI持續(xù)投入,產生的結果。
陳偉:這屬于語音合成領域,其實語音合成在我們目前面向于口語化的表達方面,已經做得非常好了。2018年,搜狗參加國際語音評測暴風雪預測,在語音評測方面取得國際第一名。從整個能力來看,一直走在行業(yè)最前沿的路徑上。
AI合成主播用到的能力,已經是目前國內首家基于端到端神經聲碼器的先進技術,可以讓發(fā)音真實度大大提升。從我們的展示樣例中可以聽到,講話中的韻律、停頓、中間的語氣詞處理的都是不錯的。這依賴于數(shù)據的積累,數(shù)據對于巨頭公司之間的差距不是很明顯,主要看技術上誰走得更快。
無論評測還是實際落產品,搜狗在整個合成領域方面在國內是領先的。我們希望搜狗“分身”的逼真度跟真人無異。這其中取決于,大家看到的表情、唇語、動作,還有一塊是聽聲音。
陳偉:也有聯(lián)合建模,我們保證的是表情、聲音完全同步。在做AI合成主播時,語音的合成和圖像表情的合成之間需要同步,這就涉及到了聯(lián)合建模。
陳偉:因為早期技術不成熟,需要用到大量的數(shù)據?,F(xiàn)在錄制一個人,可以放在一天的時間內,把音頻和視頻全部錄完,同時錄得數(shù)據也比較少?,F(xiàn)在幾個小時的視頻資料就可以形成一個逼真形象。
數(shù)據越多,建模越容易。我們能接受的下限是幾個小時,基本是少量的。在語音合成方面,搜狗前段時間發(fā)布了一個小程序叫搜狗知音坊。用戶上傳5到8分鐘的語音,就可以生成他自己定制的音色,成本已經很低了。
我們要做一個商業(yè)級的真正商用的系統(tǒng),在數(shù)據上肯定多多益善。目前國內常規(guī)定制一個語音助手或者定制版普通語音合成,各大公司語音合成的數(shù)據量都在二三十個小時以上?,F(xiàn)在我們能把數(shù)據量做到穩(wěn)定、可商用,降到一兩個小時左右。
陳偉:早期是通過人工來評價的,逼真與否也是內部產品、算法的同事掃一眼,比較主觀?,F(xiàn)在搜狗在做一些指標, 通過大量的假設錄制視頻切一小部分做一個測試集,與真人的相關視頻做對比。壓縮在一個相同的時間維度下面來看,逐幀對比,整個表情、嘴型、姿態(tài)上面的差異度有多大。這件事情也伴隨著整個研發(fā)過程進行,指標、目標一直在變,但方法是逐漸清晰的,即希望與真人對比。
陳偉:這個問題是行業(yè)里大家都會碰到的問題,簡單來講,遇到動作幅度過大的角度問題,比如看不到主播的嘴了,或者鏡頭位置不同只能看到主播的側面。在這種信息不完全的情況下,形態(tài)怎么更好的生成,表情應該怎么做是一個問題。
模型生成出來怎樣更好的結合一些姿態(tài),結合一些更自然的微表情,這是后續(xù)必須要做到的事情。隨著大家對我們的期望越來越高,就會關注主播的微表情。比如,開心時有些眉毛上揚或者微抖動,語音合成這方面,在情感和情緒上如何攻克。
目前我們的主播從整個形象來看,其實是以偏半身為主,后續(xù)能否在全身或者手勢方面做更多的工作。當然,繞不開的事情就是永遠要跟真人對比,某種情況下能否做到比真人更好也是比較難的,大家都在努力地攻克這些問題。
陳偉:我們不希望把它看成一個個體的定制工作,我們認為機器可以學到真正的表情、唇型。早期我們做唇語識別時候,每個人的唇型都有差異,幾千小時的數(shù)據放在一起的時候,學到的效果還是明顯的。反推過來看,目前視頻和語音數(shù)據放在一起可以共享,我們希望搜狗“分身”能夠逐漸抽象出特征出來。
不只是說從頭到尾做模型和訓練,因為大量的合成數(shù)據在此基礎上能夠讓機器學到通用特征,找到自己的特點,遷移到模型上,搜狗“分身”也是基于遷移學習做這件事情。
陳偉:本身分身不是純語音的團隊,分身有語音、圖像加NLP完整能力。在這件事情上后面加強的確實是,圖像方面要考慮2D+3D的混合技術,語音基礎上有更多NLP能力,讓他的認知能力加強。
陳偉:之前我們一直做搜狗知音,當時在做語音交互,搜狗早期也有一些通用的語音助手的產品。2014、2015年以后,一批語音助手都倒下了,根本原因在于沒有清晰定義它的能力邊界。
2015年搜狗知音做了車載場景、可穿戴設備,逐漸把對話引向了任務導向的助手。相當于認知、理解的范圍和空間變小了,可操控的余地變大。我認為語音助手可行的應用場景在于垂直領域?,F(xiàn)階段,人工智能一定處于初級階段,走到通用人工智能、強人工智能還需要很多年,這個過程中不妨礙把這個技術從不可用變成可用,做到好用的狀態(tài)。
陳偉:AI分身條線在搜狗公司就是做自然交互和知識計算,在整個市場做完整的能力。怎么讓人機交互更自然,機器需要有一個形象的,怎樣讓機器具備一個新的形象。后期怎樣做出逼真度跟真人沒有差別的形象出來。基于這樣的考慮,我們在整個交互鏈條上,把語音合成變成多模態(tài)的合成,主要還是在搜狗的主線上去完成。
陳偉:目前沒有。比如,國外很火的Deepfake(深度換臉),其實是一種換臉的方式。純文本來驅動的技術,驅動文本生成視頻的方式,在國際上,只有搜狗一家在做。
陳偉:我覺得包括兩方面,第一,技術的領先性以及實際效果,當時我們拿這個效果,跟新華社談時,他看到的已經是一個距離落地很近的狀態(tài)了。第二,我們具備把這個技術快速復制,也就是目前分身的流水線已經建立好了。
而現(xiàn)在其他公司在這件事情上的效果跟搜狗有差距,明顯差距在于他們還停留在實驗室研究的狀態(tài)。想要把它真正地推動到市場上,快速的在確定的時間內生產出針對不同行業(yè)的分身模型是比較困難的。這兩年,搜狗在這件事情上占有先機。
陳偉:搜狗在電影后期做過充分的調研,電影后期對3D依賴是很強的。特別是,好萊塢有兩種方式。一種方式,是通過美工畫3D形象,做很多關鍵點,讓人表演驅動模型產生動作。另外一個,比較前沿的技術是通過人臉掃描建模重建一個模型。
美工畫出來的形象定制成本很高,但精度相應較高。3D成本降下來,但精度要低一些。后續(xù)分身的能力,一塊是形象,另外一塊就是怎么能夠讓圖像的數(shù)據或者音頻的數(shù)據,把分身的模型驅動出來。這是我們核心的領域。我們也在考慮是否可以跟后期的公司,以及電影建模公司合作,減輕他們表演的成本,把這個模型驅動起來,這是我們目前正在考慮的事情。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。