NVIDIA出品：AI視頻通話神器，不僅高清，流暢無噪音，還能給你換張臉，增強(qiáng)交互體驗(yàn)

本文作者：貝爽

2020-10-10 17:17

導(dǎo)語：化解視頻通話時(shí)的尷尬，全靠它了。

“視頻又卡住了”，“噪音太大，聽不清你講話”，“這畫質(zhì)也太有年代感了.....”

參加視頻通話時(shí)，你是不是也經(jīng)常會出現(xiàn)以上狀況？

今年疫情突發(fā)，上班族都體驗(yàn)了一把在線云辦公的快感。

但讓人抓狂的是，每當(dāng)談到核心業(yè)務(wù)時(shí)，視頻通話總會出現(xiàn)卡頓、噪音等意外狀況。

最近小編發(fā)現(xiàn)一款A(yù)I工具，可以一鍵解決以上所有煩惱。它就是NVIDIA推出的一款Cloud-AI視頻流平臺——Maxine。

據(jù)了解，它可以在視頻通話中，提供高清畫質(zhì)、噪音消除、目光校正，以及實(shí)時(shí)轉(zhuǎn)錄、翻譯等功能。

更重要的是，它還可以支持電腦、平板、手機(jī)等多種類型的設(shè)備。

NVIDIA出品：AI視頻通話神器，不僅高清，流暢無噪音，還能給你換張臉，增強(qiáng)交互體驗(yàn)

Maxine：高清、流暢無噪音

疫情雖然已經(jīng)趨于平緩，辦公模式也回到了線下，但視頻通話也成為了一種常用的辦公方式。如NVIDIA加速計(jì)算副總裁兼總經(jīng)理伊恩·巴克（Ian Buck）所說：“視頻會議現(xiàn)在已成為了日常生活的一部分，它可幫助數(shù)百萬人工作，學(xué)習(xí)，娛樂，甚至就醫(yī)?！?/p>

NVIDIA出品：AI視頻通話神器，不僅高清，流暢無噪音，還能給你換張臉，增強(qiáng)交互體驗(yàn)

因此，英偉達(dá)推出了這款基于AI的云原生流視頻平臺Maxine，用于解決當(dāng)前視頻通話存在的最大問題。

對于視頻通話來講，首先要解決的就是畫質(zhì)、噪音以及流暢度等基本問題。從NVIDIA官網(wǎng)了解到，Maxine采用超分辨率（Super-Resolution）技術(shù)，可以實(shí)時(shí)將低分辨率視頻轉(zhuǎn)換為高分辨率視頻。

如圖，使用后的視頻像素被提升至720p。另外，AI平臺也增加了消除偽影的功能，可以使得畫面更清晰。

NVIDIA出品：AI視頻通話神器，不僅高清，流暢無噪音，還能給你換張臉，增強(qiáng)交互體驗(yàn)

其次，Maxine平臺中的AI模塊可以過濾掉常見的背景噪音，如敲擊鍵盤、主機(jī)運(yùn)行的嗡嗡聲、家里吸塵器的聲音等。

同時(shí)，為了更好地呈現(xiàn)通話中的你日通，Maxine還提供了實(shí)時(shí)翻譯、轉(zhuǎn)錄字幕的功能。

NVIDIA出品：AI視頻通話神器，不僅高清，流暢無噪音，還能給你換張臉，增強(qiáng)交互體驗(yàn)

最重要的是借助其視頻壓縮技術(shù)，可以有效減少數(shù)據(jù)傳輸?shù)膸?。?jù)了解，Maxine的可以將其減少到H.264視頻壓縮標(biāo)準(zhǔn)所需帶寬的十分之一，可以及大地增加視頻的流暢度。

大量用戶同時(shí)使用云視頻服務(wù)時(shí)，會對帶寬帶來很大壓力，因此用戶經(jīng)常出現(xiàn)掉線、卡頓等現(xiàn)象。對此，NVIDIA高級產(chǎn)品總監(jiān)安德魯·佩奇（Andrew page）稱，他們的解決方案是將帶寬問題變成計(jì)算問題，因?yàn)橄啾扔谠黾訋?，增加?jì)算更為容易。

NVIDIA出品：AI視頻通話神器，不僅高清，流暢無噪音，還能給你換張臉，增強(qiáng)交互體驗(yàn)

具體來說，Maxine 采用的AI視頻壓縮技術(shù)的核心在于它不是對整個(gè)屏幕的像素進(jìn)行流式處理，而是分析通話中每個(gè)人的面部關(guān)鍵點(diǎn)，然后在另一端的視頻中重新設(shè)置人臉的動(dòng)畫，如此一來便可以大幅降低的數(shù)據(jù)的傳輸量，同時(shí)還可以保證視頻傳輸?shù)馁|(zhì)量。

“換臉”增強(qiáng)交互體驗(yàn)

不過，以上在NVIDIA看來只是一個(gè)視頻通話工具的基本功能，而它的目標(biāo)是打造更強(qiáng)用戶體驗(yàn)的AI工具。

采用視頻通話，而是不語音通話的一個(gè)基本訴求就是有面對面對視的交互感，但通常情況下，為了有更順暢的交流，我們不得不緊盯著攝像頭，而不是屏幕中正在對話的人。

現(xiàn)在Maxine可以緩解這一尷尬，它通過重建視頻中的人臉圖像，可以來讓你看起來正在與對方進(jìn)行眼神交流。

NVIDIA出品：AI視頻通話神器，不僅高清，流暢無噪音，還能給你換張臉，增強(qiáng)交互體驗(yàn)

換句話說，AI通過自動(dòng)生成一張?zhí)摂M人臉來自動(dòng)調(diào)整面部的角度，讓視頻通話者看起來正自由地看著屏幕。

研究人員介紹稱：

“借助計(jì)算機(jī)視覺技術(shù)，我們可以從多個(gè)角度定位一個(gè)人的頭部，增強(qiáng)面對面交流的感覺，這將有助于人們進(jìn)行更自然的對話?！?/p>

同時(shí)他也介紹稱，這項(xiàng)假臉生成技術(shù)采用的正是生成式對抗網(wǎng)絡(luò)（generative antivative networks，GAN）。

GAN曾被AI教父Yann LeCun稱作是“過去10年機(jī)器學(xué)習(xí)中最有趣的想法”，它的原理是讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互競爭，來生成與原始圖像高度吻合的虛假圖像。風(fēng)靡一時(shí)的DeepFake軟件背后原理采用的均是GAN。

研究人員介紹，視頻連接后，發(fā)送端會傳輸交互者面部周圍的關(guān)鍵點(diǎn)數(shù)據(jù)，如鼻子、眼睛、嘴巴等，接受端的GAN會用這些點(diǎn)和原始靜態(tài)圖像一起來激活通話屏幕中的虛擬人臉。

另外，在面對面互動(dòng)體驗(yàn)方面，Maxine還增加了動(dòng)畫頭像交互和虛擬助手功能。動(dòng)畫頭像交互允許視頻通話者根據(jù)喜好選擇動(dòng)畫虛擬頭像，這些頭像雖不是真實(shí)的，但可以通過交互者的聲音和情緒基調(diào)自動(dòng)驅(qū)動(dòng)。

而虛擬助手內(nèi)置了NVIDIA Jarvis對話式AI框架，具有為實(shí)時(shí)性能而優(yōu)化的最新模型，可以進(jìn)行語音識別、語言理解以及語音生成的虛擬助手。比如在視頻通話中，交互者可以讓虛擬助手來記筆記、設(shè)置動(dòng)作項(xiàng)目以及用類似人類的聲音回答問題。

那么，這款集高清、去噪、低延時(shí)及強(qiáng)交互體驗(yàn)的視頻通話工具，你要來體驗(yàn)一下嗎？

參考鏈接：雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

https://venturebeat.com/2020/10/09/ai-weekly-nvidias-maxine-opens-the-door-to-deepfakes-and-bias-in-video-calls/

https://nvidianews.nvidia.com/news/nvidia-announces-cloud-ai-video-streaming-platform-to-better-connect-millions-working-and-studying-remotely

https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章