丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給叨叨
發(fā)送

7

Youtube自動字幕系統(tǒng)已能識別環(huán)境音,但國內(nèi)還在依靠字幕組

本文作者: 叨叨 2017-03-26 21:04
導(dǎo)語:各大字幕組永遠(yuǎn)在招人

Youtube自動字幕系統(tǒng)已能識別環(huán)境音,但國內(nèi)還在依靠字幕組

在國內(nèi),下載好電影后,再去字幕網(wǎng)站搜索外掛字幕,已經(jīng)是影迷們的固有動作。這種習(xí)慣的養(yǎng)成,歸功于近10年來逐漸形成的野生網(wǎng)絡(luò)字幕組,用業(yè)余時(shí)間為影迷們貢獻(xiàn)了大量、快速的免費(fèi)字幕。

相比國內(nèi)的野生字幕組,谷歌的技術(shù)宅們在2009年為Youtube上線了一個(gè)自動字幕系統(tǒng)(Automatic Captioning System),借助人工智能技術(shù),在視頻里實(shí)時(shí)生成字幕。時(shí)隔7年后,YouTube宣布已經(jīng)有10億多條視頻采用了該系統(tǒng)生成的字幕,而全球日活躍用戶也達(dá)1500萬。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音,但國內(nèi)還在依靠字幕組

在Google給定的視頻中,可以在設(shè)置中選擇開啟自動字幕,之后視頻下方會隨著視頻中的人聲,逐個(gè)顯示對應(yīng)字幕。另外,在字幕開啟菜單中,也有“自動翻譯”的選項(xiàng),包括中文繁體、簡體在內(nèi)的上百種語言均可翻譯。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音,但國內(nèi)還在依靠字幕組

此外,雷鋒網(wǎng)3月23日還報(bào)道過,由Accessibility、Sound Understanding和YouTube三個(gè)團(tuán)隊(duì)共同完成了,通過深度神經(jīng)網(wǎng)絡(luò)(DNN)模型,在自動字幕增加音效信息的技術(shù),進(jìn)一步提升了觀眾的“看片”體驗(yàn)。

其中,Google Accessibility 團(tuán)隊(duì)致力于讓每個(gè)人都能夠享用互聯(lián)網(wǎng)帶來的便利,尤其是殘障人士,他們主要負(fù)責(zé)監(jiān)控 Google 產(chǎn)品的無障礙狀況,協(xié)調(diào)開展無障礙培訓(xùn)、測試并提供咨詢服務(wù)。Accessibility產(chǎn)品團(tuán)隊(duì)需要接受相關(guān)培訓(xùn),以在產(chǎn)品的設(shè)計(jì)和發(fā)布過程中體現(xiàn)無障礙原則。此外他們還努力與各類用戶和致力于推廣無障礙功能的團(tuán)體建立密切的關(guān)系,以便征求反饋意見。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音,但國內(nèi)還在依靠字幕組


而Youtube的自動字幕系統(tǒng),在很大程度上實(shí)現(xiàn)了視頻觀看的“無障礙”,尤其是聽不到聲音的聾人,也能通過自動生成的字幕進(jìn)行高質(zhì)量的視頻信息獲取。

Google Sound Understanding 團(tuán)隊(duì),此前曾負(fù)責(zé)AudioSet 數(shù)據(jù)集,致力于教學(xué)機(jī)器,通過建立狀態(tài)機(jī)器學(xué)習(xí)模型,生成大規(guī)模的音頻事件數(shù)據(jù)集,并定義聲音之間存在的層次關(guān)系,來準(zhǔn)確地感知音頻。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音,但國內(nèi)還在依靠字幕組

目前,國內(nèi)主流視頻網(wǎng)站均未推出過自動字幕系統(tǒng),不過在坊間流傳著一個(gè)能夠自動生成字幕的軟件——Autosub,最初該軟件只幫助字幕組成員自動對軸,后來的更新版本調(diào)用了谷歌的API,支持自動生成字幕,不過效果不佳,此后鮮有更新。

雷鋒網(wǎng)還了解到,2011年《電子學(xué)報(bào)》的一篇論文稱,以《新聞聯(lián)播》為語料進(jìn)行訓(xùn)練,實(shí)現(xiàn)了音頻提取、音頻分類與切分、說話人識別、大詞匯量連續(xù)語音識別、視頻文件播放、文本字幕自動生成等功能,從而實(shí)現(xiàn)“全自動中文新聞字幕生成”。但此論文中并未提及是否可以做到“實(shí)時(shí)”。

這項(xiàng)技術(shù)的難點(diǎn)在于,一方面一條視頻中的聲音有很多,包括對白和混合在一起非常復(fù)雜的環(huán)境聲,要辨別哪個(gè)聲音是我們想要的,并把幾個(gè)同時(shí)產(chǎn)生的聲音區(qū)分開來相當(dāng)不易;另一方面視頻實(shí)時(shí)字幕生成,需要在極短的時(shí)間內(nèi)做出反饋,對于計(jì)算速度考驗(yàn)巨大。

針對分辨聲音而言,搜狗CEO王小川就表示過,目前語音識別已經(jīng)有了較高的準(zhǔn)確度,接近實(shí)用,但還有很多的限制。比如需要安靜的環(huán)境,當(dāng)有噪音的時(shí)候同時(shí)有兩個(gè)人說話機(jī)器就搞不定了。搜狗的做法是預(yù)先錄制,比如在汽車環(huán)境里面,預(yù)先錄制發(fā)動機(jī)引擎的聲音,把沒有見過的環(huán)境變成機(jī)器能夠見過的環(huán)境,就能夠做識別。針對計(jì)算速度而言,則需要依靠硬件和算法的進(jìn)步。

現(xiàn)在能實(shí)現(xiàn)的程度,需要?dú)w功于過去幾年間,DNN 技術(shù)、Residual/Highway 網(wǎng)絡(luò)技術(shù)和粗粒度建模單元技術(shù)的進(jìn)展。但環(huán)境音非常復(fù)雜,想要把所有的獨(dú)立聲音預(yù)先錄下來,是一項(xiàng)巨大的工程。即便是谷歌自動字幕系統(tǒng)的研究人員們,也只是選取了“鼓掌、音樂、笑聲”三種語義清楚的背景聲。

視頻之外,在語音轉(zhuǎn)文字這項(xiàng)技術(shù)上,國內(nèi)外企業(yè)多有涉及。比如微軟幫助聾人通話實(shí)時(shí)將語音轉(zhuǎn)換為文字的RogerVoice,比如百度新近推出的SwiftScribe、再如國內(nèi)企業(yè)科大訊飛等,還有各類錄音、速記應(yīng)用程序,都能夠不同程度的支持語音轉(zhuǎn)文字的技術(shù)。一般來說環(huán)境越安靜,識別的準(zhǔn)確率越高。

科大訊飛相關(guān)人士向雷鋒網(wǎng)表示,視頻字幕需求分為兩類,一類為已錄制視頻的字幕配置,另一類為直播視頻的字幕配置,科大訊飛的識別技術(shù)均可實(shí)現(xiàn)上述兩類字幕需求。

目前訊飛開放平臺已對外提供第一種已錄制視頻字幕配置需求的"語音轉(zhuǎn)寫"產(chǎn)品,準(zhǔn)確率可達(dá)95%,而對于第二種直播視頻的字幕配置產(chǎn)品將在今年年中對外提供。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

雷鋒網(wǎng)北京編輯。關(guān)注人工智能,略雜。微信(yougo5654)可以找到我。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說