2
2006年世界杯總決賽法國對打意大利,齊祖頭頂攻擊馬特拉齊一事相信許多足球迷都會記得。因為這一“頂”齊達內被罰紅牌, 意大利輕松奪冠。不過,后來外界也發(fā)現了背后的真相:馬特拉齊問候了齊達內的女性親屬。
當時,外界只看見了齊達內頭頂馬特拉齊,但并不知道是馬特拉齊辱罵了齊達內。”如果當時就有讀唇術,那么齊達內的行為就有辯解的余地了,也許也不至于被紅牌出場,”東英吉利大學計算機科學家Helen Bear表示,“世界杯的歷史也會被改寫?!?/p>
Bear和她的同事設計出一套新的讀唇算法,能夠提高計算機識別自然語言的能力——比如p,b,m——等唇形看起來相似的發(fā)音。研究者在上海ICASSP上展示了他們的成果。
當然,能夠進行可靠讀唇術的機器的使用場景不只限于體育裁判。機器讀唇術還能夠應用于分析汽車或飛機的事故錄像,以及輔助聾啞人交流等等。
讀唇術,又叫視覺語音識別,能夠先對唇形進行識別,然后轉換成文字。讀唇術當今面臨最大的挑戰(zhàn)是,發(fā)音嘴型能夠達到10至14種,音素還打到50度種——圓唇不圓唇,甚至發(fā)音時的舌面高低也能引起嘴型變化,而同一音素還能引起多種嘴型變化。
Bear和Harvey的算法能夠精確識別一個嘴型對應的特定音素。該算法經過了兩個訓練步驟:第一,機器學習匹配發(fā)音嘴型所能對應的音素;第二,重復發(fā)音嘴型形成概念。這些訓練算法的發(fā)音素材來自于12個朗讀者(7男5女)的音頻錄像,里面收錄了200個句子。
Bear介紹,最初算法識別的準確率達到25%,每隔一段時間成績都能有所提升。據說,現在球員都捂著嘴說話了……
圖片來源:IEEE
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。