慧川智能CEO康洪文：AI如何讓視頻創(chuàng)作更加簡(jiǎn)單 | CCF-GAIR 2017

本文作者：汪思穎

2017-07-08 14:04

專(zhuān)題：GAIR 2017

導(dǎo)語(yǔ)：通過(guò)圖片就能生成視頻，這樣的黑科技你想知道嗎？

7月8日，由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)與香港中文大學(xué)（深圳）承辦的CCF－GAIR 2017全球人工智能與機(jī)器人峰會(huì)在深圳大中華喜來(lái)登酒店舉行。在AI+專(zhuān)場(chǎng)第二場(chǎng)，慧川智能CEO康洪文為我們帶來(lái)了《AI(愛(ài)）讓視頻更簡(jiǎn)單》的主題演講。

慧川智能CEO康洪文：AI如何讓視頻創(chuàng)作更加簡(jiǎn)單 | CCF-GAIR 2017

對(duì)于視頻從業(yè)人員來(lái)說(shuō)，“加班”、“熬夜”這樣的詞匯常常出現(xiàn)，他們的工作異常辛苦，那么，究竟該如何改變現(xiàn)狀，請(qǐng)看康洪文的描述，通過(guò)AI讓視頻如何讓視頻創(chuàng)作變得簡(jiǎn)單？

AI助力視頻創(chuàng)作的背景：

視頻工作者有非常強(qiáng)大的圖文創(chuàng)造能力，有強(qiáng)大的講故事的能力，不應(yīng)該讓他們的創(chuàng)造力被制造視頻的煩瑣工作局限掉。
視頻市場(chǎng)特別是短視頻市場(chǎng)是爆發(fā)趨勢(shì)，目前的視頻網(wǎng)絡(luò)用戶(hù)已經(jīng)突破了5.5億，保持著8.1%的增長(zhǎng)速度。很多圖文媒體去轉(zhuǎn)作視頻，希望在視頻市場(chǎng)上獲得更多的受眾。
在今日頭條還有微信公眾號(hào)平臺(tái)去統(tǒng)計(jì)，里面67%的文章都非常適合用視頻的方式來(lái)呈現(xiàn)。另外傳統(tǒng)的網(wǎng)站以及像電商，淘寶上有十億級(jí)的商品，上面很大量的商家都希望能夠?yàn)樗麄兊纳唐分谱饕曨l。

智影的產(chǎn)品功能實(shí)現(xiàn)：

基于網(wǎng)頁(yè)的界面，通過(guò)界面能夠把任何一個(gè)網(wǎng)頁(yè)或者一段文字輸入到輸入框中，后臺(tái)的AI算法就會(huì)根據(jù)這段文字進(jìn)行分析，找到里面所有這些關(guān)鍵點(diǎn)。
通過(guò)文章的語(yǔ)義分析，就能夠自動(dòng)和素材進(jìn)行匹配，對(duì)每一段話、每一個(gè)句子找到對(duì)應(yīng)的多媒體素材，比如說(shuō)圖片、視頻、社交媒體分享，找到以后自動(dòng)生成的故事線，在后面還有一些延伸的廣告進(jìn)行匹配。
如果有修改需求，可以再進(jìn)行修改。提供一個(gè)非常簡(jiǎn)便的在線剪輯和預(yù)覽平臺(tái)，客戶(hù)只需要注冊(cè)一個(gè)賬號(hào)就可以進(jìn)行剪輯了。根據(jù)用戶(hù)修改之后，可以在界面上進(jìn)行素材的調(diào)整，比如說(shuō)還可以截取每個(gè)視頻片段的長(zhǎng)度，起始的時(shí)間，甚至在圖片上添加一些像畫(huà)字或者文字的信息。

具體的優(yōu)點(diǎn)：

通過(guò)這個(gè)系統(tǒng)能夠提升用戶(hù)的效率近百倍，以前可能會(huì)花幾個(gè)小時(shí)去做一個(gè)視頻，現(xiàn)在通過(guò)智能手段能夠壓縮到幾十秒鐘。
用戶(hù)滿意之后可以直接點(diǎn)擊生成視頻，在云端這個(gè)視頻就可以生成下載好。不用很強(qiáng)大的機(jī)器，在任何一個(gè)咖啡館，任何一個(gè)筆記本就可以完成這樣的創(chuàng)作，完成之后回到家這個(gè)視頻一鍵下載好，已經(jīng)上傳到所有的社交媒體上去了。

所用到的技術(shù)：

計(jì)算機(jī)視覺(jué)。剛才講到會(huì)去素材庫(kù)跟結(jié)構(gòu)化素材進(jìn)行匹配，對(duì)所有的素材進(jìn)行理解，現(xiàn)在已經(jīng)能看到計(jì)算機(jī)視覺(jué)里面有一些突破性的進(jìn)展，比如說(shuō)場(chǎng)景的識(shí)別上，計(jì)算機(jī)的識(shí)別能力已經(jīng)在接近甚至是超越人的識(shí)別能力。
自然語(yǔ)言處理。在這方面我們用到了知識(shí)圖譜，比如說(shuō)情感識(shí)別，名實(shí)體識(shí)別。
大規(guī)模計(jì)算?，F(xiàn)在GPU的發(fā)展速度非?？?，將GPU和深度學(xué)習(xí)這個(gè)框架結(jié)合起來(lái)。

現(xiàn)在所做的動(dòng)作：

分析海量視頻素材，以及圖片素材和多媒體素材。通過(guò)將素材進(jìn)行結(jié)構(gòu)化，理解視頻里面出現(xiàn)的所有物體和人，以及他們正在進(jìn)行的動(dòng)作，能夠把它構(gòu)建一個(gè)精確到每一幀的視頻內(nèi)容標(biāo)簽。
開(kāi)放API。這能夠幫助所有對(duì)視頻有需求的人進(jìn)行理解，提供這個(gè)視頻進(jìn)行全網(wǎng)視頻的結(jié)構(gòu)化。這里面包括兩個(gè)主要功能，一個(gè)是視頻內(nèi)容的理解和標(biāo)簽化，我們提供包括時(shí)間、地點(diǎn)、人物、事件的多種標(biāo)簽，這里面有一千多個(gè)視頻結(jié)構(gòu)化標(biāo)簽。另外我們還創(chuàng)造了全球500+明星的數(shù)據(jù)庫(kù)。

詳細(xì)內(nèi)容請(qǐng)看雷鋒網(wǎng)后續(xù)報(bào)導(dǎo)。雷鋒網(wǎng)原創(chuàng)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。