0
“視頻又卡住了”,“噪音太大,聽不清你講話”,“這畫質也太有年代感了.....”
參加視頻通話時,你是不是也經常會出現以上狀況?
今年疫情突發(fā),上班族都體驗了一把在線云辦公的快感。
但讓人抓狂的是,每當談到核心業(yè)務時,視頻通話總會出現卡頓、噪音等意外狀況。
最近小編發(fā)現一款AI工具,可以一鍵解決以上所有煩惱。它就是NVIDIA推出的一款Cloud-AI視頻流平臺——Maxine。
據了解,它可以在視頻通話中,提供高清畫質、噪音消除、目光校正,以及實時轉錄、翻譯等功能。
更重要的是,它還可以支持電腦、平板、手機等多種類型的設備。
疫情雖然已經趨于平緩,辦公模式也回到了線下,但視頻通話也成為了一種常用的辦公方式。如NVIDIA加速計算副總裁兼總經理伊恩·巴克(Ian Buck)所說:“視頻會議現在已成為了日常生活的一部分,它可幫助數百萬人工作,學習,娛樂,甚至就醫(yī)。”
因此,英偉達推出了這款基于AI的云原生流視頻平臺Maxine,用于解決當前視頻通話存在的最大問題。
對于視頻通話來講,首先要解決的就是畫質、噪音以及流暢度等基本問題。從NVIDIA官網了解到,Maxine采用超分辨率(Super-Resolution)技術,可以實時將低分辨率視頻轉換為高分辨率視頻。
如圖,使用后的視頻像素被提升至720p。另外,AI平臺也增加了消除偽影的功能,可以使得畫面更清晰。
其次,Maxine平臺中的AI模塊可以過濾掉常見的背景噪音,如敲擊鍵盤、主機運行的嗡嗡聲、家里吸塵器的聲音等。
同時,為了更好地呈現通話中的你日通,Maxine還提供了實時翻譯、轉錄字幕的功能。
最重要的是借助其視頻壓縮技術,可以有效減少數據傳輸的帶寬。據了解,Maxine的可以將其減少到H.264視頻壓縮標準所需帶寬的十分之一,可以及大地增加視頻的流暢度。
大量用戶同時使用云視頻服務時,會對帶寬帶來很大壓力,因此用戶經常出現掉線、卡頓等現象。對此,NVIDIA高級產品總監(jiān)安德魯·佩奇(Andrew page)稱,他們的解決方案是將帶寬問題變成計算問題,因為相比于增加帶寬,增加計算更為容易。
具體來說,Maxine 采用的AI視頻壓縮技術的核心在于它不是對整個屏幕的像素進行流式處理,而是分析通話中每個人的面部關鍵點,然后在另一端的視頻中重新設置人臉的動畫,如此一來便可以大幅降低的數據的傳輸量,同時還可以保證視頻傳輸的質量。
不過,以上在NVIDIA看來只是一個視頻通話工具的基本功能,而它的目標是打造更強用戶體驗的AI工具。
采用視頻通話,而是不語音通話的一個基本訴求就是有面對面對視的交互感,但通常情況下,為了有更順暢的交流,我們不得不緊盯著攝像頭,而不是屏幕中正在對話的人。
現在Maxine可以緩解這一尷尬,它通過重建視頻中的人臉圖像,可以來讓你看起來正在與對方進行眼神交流。
換句話說,AI通過自動生成一張?zhí)摂M人臉來自動調整面部的角度,讓視頻通話者看起來正自由地看著屏幕。
研究人員介紹稱:
“借助計算機視覺技術,我們可以從多個角度定位一個人的頭部,增強面對面交流的感覺,這將有助于人們進行更自然的對話。”
同時他也介紹稱,這項假臉生成技術采用的正是生成式對抗網絡(generative antivative networks,GAN)。
GAN曾被AI教父Yann LeCun稱作是“過去10年機器學習中最有趣的想法”,它的原理是讓兩個神經網絡相互競爭,來生成與原始圖像高度吻合的虛假圖像。風靡一時的DeepFake軟件背后原理采用的均是GAN。
研究人員介紹,視頻連接后,發(fā)送端會傳輸交互者面部周圍的關鍵點數據,如鼻子、眼睛、嘴巴等,接受端的GAN會用這些點和原始靜態(tài)圖像一起來激活通話屏幕中的虛擬人臉。
另外,在面對面互動體驗方面,Maxine還增加了動畫頭像交互和虛擬助手功能。動畫頭像交互允許視頻通話者根據喜好選擇動畫虛擬頭像 ,這些頭像雖不是真實的,但可以通過交互者的聲音和情緒基調自動驅動。
而虛擬助手內置了NVIDIA Jarvis對話式AI框架,具有為實時性能而優(yōu)化的最新模型,可以進行語音識別、語言理解以及語音生成的虛擬助手。比如在視頻通話中,交互者可以讓虛擬助手來記筆記、設置動作項目以及用類似人類的聲音回答問題。
那么,這款集高清、去噪、低延時及強交互體驗的視頻通話工具,你要來體驗一下嗎?
參考鏈接:雷鋒網雷鋒網雷鋒網
https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine/
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。