0
本文作者: 肖漫 | 2020-07-31 19:31 |
最近在看《二十不惑》的時候,發(fā)現(xiàn)愛奇藝左邊有一個按鈕,點擊一下可以識別出畫面中出現(xiàn)的人物,并顯示百科資料。
真是完美解決了觀眾的常見需求——這人是誰呀?
這個功能是愛奇藝推出的“奇觀”,支持即時識別和搜索視頻內(nèi)信息。簡單來說,它是識別技術(shù)在視頻領(lǐng)域中創(chuàng)新的應(yīng)用。
實際上,在當下的生活場景中,識別技術(shù)的應(yīng)用無處不在。
無論是手機解鎖、門禁開鎖,還是外出場景下的商場試衣、上班打卡、公路抓拍、高鐵檢票,亦或是疫情當下的體溫檢測······
與此同時,不論是迪士尼研發(fā)機器學(xué)習平臺做卡通識別,還是愛奇藝推出奇觀,可以很明顯感受到,識別技術(shù)的博弈戰(zhàn)場,已經(jīng)“殺”到了視頻行業(yè)。
一鍵識別視頻中的信息,很輕松的解決了用戶不同層面獲取信息的需求。
但仔細想想,技術(shù)上的實現(xiàn),還真挺難的。
比如奇觀,除了提供影視內(nèi)容,還覆蓋了演員資料查詢、BGM 樂曲識別、戲曲知識解析、臺詞提取理解等功能需求;而這些,都是基于識別技術(shù)的融合。
還以開頭提到的熱播劇《二十不惑》為例,基于劇集帶來的熱度,當中的演員也成為了關(guān)注焦點。
如果用戶對其中的“新人演員”有了解需求,可以直接利用該劇的播放平臺愛奇藝的“奇觀”功能點擊識別,了解其百科信息。
不過,盡管操作簡單快捷,但要真正做到精確識別,可不容易。
先看“人物識別”。
“人物識別”的難度主要表現(xiàn)在兩個方面——多人物畫面識別和模糊性識別。
在影視畫面中,同時出現(xiàn)多個任務(wù)的畫面并不少見,要在同一個畫面中精確識別出特定人物,或是覆蓋畫面出現(xiàn)的所有人物,這種非“1:1”的識別,是極具挑戰(zhàn)性的。
最為典型的,是類似于《青春有你2》的選秀型綜藝。無論是團體表演畫面,還是觀戰(zhàn)席畫面,多人物畫面無處不在。
另外,對于尚未出道的練習生,識別數(shù)據(jù)庫是否足夠全面以覆蓋所有新人,也是識別的難點之一。
對于模糊性識別的難點,在實際應(yīng)用中,由于姿態(tài)、表情、遮擋、角色化妝、鏡頭移動速度過快等非受限場景帶來的畫面模糊,也會給人物識別增加難度。
在“識人”場景中,除了演員人物識別,還有動畫人物識別;這也是目前多個流媒體平臺主要的著力方向。
不同于含有端正五官的人臉,卡通人物的臉部較為抽象,且種類豐富,既有動物外觀的《熊出沒》,也有機器人外形的《鎧甲勇士》,甚至于還有長得一模一樣的人形七兄弟“葫蘆娃”······
想要實現(xiàn)精確識別,只能說“太難了!”
再看“內(nèi)容識別”。
內(nèi)容識別主要體現(xiàn)為語音識別,包括 BGM 識別和臺詞提取。
在影視片段中,不乏有環(huán)境音嘈雜的情況,比如多人同時會話、播放 BGM 時有說話聲等,這些都會對識別造成一定難度,影響 BGM 識別、臺詞內(nèi)容提取的效果。
不難看出,要想在流媒體領(lǐng)域中真正實現(xiàn)精確識別,路上還有很多“石子”。
那么,要如何掃清這些障礙物?
在于技術(shù)的積累。
放眼全球,包括 Netflix、YouTube、迪士尼在內(nèi)的流媒體平臺均在識別技術(shù)上狠下功夫,國內(nèi)流媒體平臺中,愛奇藝、優(yōu)酷、騰訊同樣在利用機器學(xué)習提升識別技術(shù)。
識別技術(shù),為何如此重要?
先看幾個應(yīng)用實例:
Netflix 利用 AI 生成預(yù)告片:通過識別電影內(nèi)容,分析人物、景色、物體、臺詞、配樂后,根據(jù)既定工業(yè)化套路生成預(yù)告。
YouTube 自動刪除不良內(nèi)容:利用人工智能分類器,對用戶上傳內(nèi)容進行自動識別和標記,再清理不符標準的內(nèi)容。
迪士尼“內(nèi)容基因組平臺”:將面部識別軟件應(yīng)用至電影和電視節(jié)目中,識別成功后,進一步探測到特定位置,幫助動畫師找到特定鏡頭和序列。
優(yōu)酷“魚腦”系統(tǒng):快速掃描內(nèi)容,識別各類場景、人物情緒、語言等信息并打上標簽,再進一步分析劇本、明星角色提供數(shù)據(jù)化參考。
愛奇藝“奇觀”:通過畫面信息識別,能夠進行人物檢索、臺詞抽取解析、鏈接同款商品等。
不難發(fā)現(xiàn),各大流媒體平臺上出現(xiàn)的個性化功能服務(wù)都離不開“識別技術(shù)”;識別是基礎(chǔ),生成、定位、分析都列在其后。
先有地基,再有高樓,地基打得穩(wěn),樓層才建得高。
正是基于識別技術(shù)的重要性,國內(nèi)外流媒體巨頭才不遺余力展開研發(fā)。識別技術(shù)的賽跑,正在展開。
前有 Netflix 通過舉辦競賽方式將算法提升了 10%,后有愛奇藝與 PRCV2018、ACMMM 等頂尖會議合作舉辦“多模態(tài)視頻人物識別挑戰(zhàn)賽”,聯(lián)合產(chǎn)學(xué)研探索識別技術(shù)的落地和應(yīng)用。
值得說明的是,多模態(tài)人物識別是指利用人臉、人頭、人體、聲紋等多維度特征信息進行識別的一項 AI 前沿技術(shù),能夠提高綜藝、電影、電視劇中的人物識別率。據(jù)報道,愛奇藝奇觀已經(jīng)可以識別近 10 萬明星。
競賽固然是提升技術(shù)實力的好方式,但對于“識別技術(shù)”,數(shù)據(jù)庫的積累,也同樣重要。
以人臉識別為例,流媒體平臺的識別是“1vN”的人臉查找形式,數(shù)據(jù)庫越全面,訓(xùn)練AI的樣本越多,識別率越高。
比如在愛奇藝今年舉辦的卡通人物檢測識別挑戰(zhàn)賽中,愛奇藝面向參賽者開放全球已知范圍內(nèi)最大的手工標注卡通人物檢測數(shù)據(jù)集與識別數(shù)據(jù)集,提供累計超 40 萬張高質(zhì)量、實際取材的海量實景圖片。這為參賽者的研發(fā)提供了極大支持。
打開應(yīng)用想象空間
有了技術(shù)的積累與沉淀,下一步,便是落地應(yīng)用。
無論是人物識別的數(shù)據(jù)積累,還是語音識別的技術(shù)突破,基礎(chǔ)技術(shù)的進步都能夠為應(yīng)用場景帶來更多的想象空間。
對于流媒體平臺,在這一空間內(nèi)的主體,不外乎用戶、創(chuàng)作者以及商家。
對用戶而言,在“識別技術(shù)”的助攻下,用戶能夠享受到更為個性化的服務(wù),例如,YouTube “Up Next”功能生成實時推薦;愛奇藝“奇觀”的明星信息查詢以及進入其泡泡社區(qū)。
另外,用戶還能夠“只看想看”的內(nèi)容。通過“只看TA” 功能,用戶就可以只看自己愛豆 cut 的部分,無需手動快進跳過。這一功能,在愛奇藝、騰訊視頻等流媒體平臺都能夠?qū)崿F(xiàn)。
除了“只看想看”,用戶還可以“邊看邊學(xué)”。
對于部分涉及專業(yè)知識的劇集,例如《鬢邊不是海棠紅》,通過奇觀功能,用戶能夠邊看邊了解相關(guān)戲曲知識。
對創(chuàng)作者來說,基于識別技術(shù)的進步,利用 AI 剪輯預(yù)告片、利用 AI 創(chuàng)作等功能便顯得輕而易舉。
至于商業(yè)價值上的體現(xiàn),或許可從綜藝節(jié)目《潮流合伙人》中窺見一二。
這是一檔潮流經(jīng)營體驗節(jié)目,節(jié)目中呈現(xiàn)了許多衣物、配飾?;谄嬗^功能,用戶在愛奇藝平臺觀看過程中,可以根據(jù)個人喜好識別明星同款商品,進行一鍵購買。
這種通過綜藝節(jié)目直接鏈接至購買界面的方式,不僅是對用戶的服務(wù)升級,從商業(yè)層面來看,更是開啟了新營銷時代的大門。
另外,利用識別影視內(nèi)容進行廣告的精準投放也是商業(yè)價值體現(xiàn)之一。例如,當劇中人物感冒生病時,可以投放醫(yī)藥類相關(guān)商品。
從各場景下的應(yīng)用不難看出,像奇觀之類的流媒體 AI 功能正扮演著“新娛樂生態(tài)入口”的角色,將用戶、創(chuàng)作者、商家有機連接。
同時,技術(shù)升級帶來了體驗升維,在便捷性功能的包圍下,用戶也越來越接受技術(shù)帶來的“更上一層樓”的服務(wù)。
以愛奇藝奇觀為例,截至目前,奇觀功能累計使用量已超 20 億次,在愛奇藝 App 中,奇觀近一個月日均使用人次相較于上月增長超 30%。
可以想見,流媒體平臺之間的競爭已不僅僅局限于內(nèi)容層面的博弈,而是進階為“體驗”層級。
新一輪的視頻平臺競賽,在內(nèi)容之外,還有“技術(shù)”這一新賽道。
而流媒體平臺的制勝之道,是順應(yīng)趨勢,深耕技術(shù),升級服務(wù),打開流媒體領(lǐng)域的想象空間。
誰能提供更好的內(nèi)容與服務(wù),誰就握住了王牌。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。