1
本文作者: 劉芳平 | 2014-11-06 20:38 |
“The Voice Donor:為盲胞讀書“是由微信市場(chǎng)發(fā)起的一個(gè)創(chuàng)意公益項(xiàng)目,通過(guò)眾包模式讓眾多用戶參與進(jìn)來(lái)貢獻(xiàn)自己的語(yǔ)音,最后匯聚成一本本的語(yǔ)音讀物捐獻(xiàn)給盲人同胞。這種新穎的公益方式需要強(qiáng)大的技術(shù)來(lái)完成,筆者采訪了項(xiàng)目的技術(shù)支持負(fù)責(zé)人劉學(xué)梁,帶你了解為盲胞讀書背后的技術(shù)故事。
這個(gè)項(xiàng)目一開始由微信市場(chǎng)發(fā)起。早期,聲音捐獻(xiàn)數(shù)量不大,因而后臺(tái)能夠支撐,而隨著越來(lái)越多的聲音捐獻(xiàn)者參與進(jìn)來(lái),原本的后臺(tái)及人工審核的機(jī)制已經(jīng)不能夠支撐這個(gè)參與量級(jí),因而找到北京的技術(shù)團(tuán)隊(duì)提供支持?!耙?yàn)樗麄兗夹g(shù)上遇到一些困難,而我們這邊正好有語(yǔ)音技術(shù),又是一個(gè)公益項(xiàng)目,所以我們都很熱心的幫忙,”劉說(shuō)。從圖書切割、下發(fā)到語(yǔ)音收集和篩選,最終組裝成一本語(yǔ)音讀物,都由劉學(xué)梁領(lǐng)導(dǎo)的北京團(tuán)隊(duì)來(lái)完成。
如何篩選和切割一本書?
技術(shù)團(tuán)隊(duì)的工作之一是把電子書切割成80-120字的片段,存進(jìn)數(shù)據(jù)庫(kù),并在用戶請(qǐng)求時(shí)下發(fā)給他們。但在此之前還需要經(jīng)過(guò)一個(gè)嚴(yán)格的圖書篩選過(guò)程,選出適合做成有聲讀物的書籍,取得圖書版權(quán)后才能進(jìn)入制作流程?!拔覀儗?duì)一本書的質(zhì)量控制很嚴(yán)格,首先要選取一本合適的讀物,還要專門的同事來(lái)檢驗(yàn)這本書的質(zhì)量,之間會(huì)有很多反饋,質(zhì)量通關(guān)后才會(huì)往上放,整個(gè)過(guò)程比較漫長(zhǎng)?!?/p>
圖書切割也是一個(gè)需要技術(shù)和技巧的過(guò)程。劉學(xué)梁說(shuō):“我們之前采用全自動(dòng)化切割,根據(jù)標(biāo)點(diǎn)符號(hào)和段落來(lái)劃分,盡量讓每一段長(zhǎng)度合理并把說(shuō)語(yǔ)義關(guān)聯(lián)的字句放在一起,這些都是通過(guò)算法來(lái)完成的。但采用這種方法遇到一個(gè)問(wèn)題:從出版社得到的書是PDF格式的,PDF轉(zhuǎn)TXT會(huì)導(dǎo)致排版上亂掉以及一些頁(yè)面的缺失,于是我們后來(lái)又在自動(dòng)切割的基礎(chǔ)上加了一輪人工切割,對(duì)出版社、目錄、注釋等信息進(jìn)行處理。切割的長(zhǎng)度在80-120個(gè)字之間,切完片段會(huì)存到數(shù)據(jù)庫(kù),有用戶請(qǐng)求時(shí)從數(shù)據(jù)庫(kù)下發(fā)。如果下發(fā)了用戶沒讀就會(huì)發(fā)給另一個(gè)人讀?!?/p>
如何進(jìn)行語(yǔ)音篩選?
語(yǔ)音篩選是團(tuán)隊(duì)遇到的最大技術(shù)難題,這里面需要用到語(yǔ)音技術(shù),把好的語(yǔ)音和不好的語(yǔ)音區(qū)分開來(lái),比如說(shuō)有人念的不好或是不完整,噪音太多需要過(guò)濾等等。語(yǔ)音篩選是一個(gè)與文本對(duì)比的過(guò)程。
“通常一個(gè)語(yǔ)音過(guò)來(lái),先經(jīng)過(guò)特征提取,再經(jīng)過(guò)解碼器,取一個(gè)最好的結(jié)果出來(lái),這是一個(gè)類似語(yǔ)音識(shí)別過(guò)程。但是篩選是先有了語(yǔ)音和對(duì)應(yīng)的文本,再要計(jì)算語(yǔ)音和文本之間匹配關(guān)系,這需要先用文本構(gòu)建出一個(gè)搜索網(wǎng)絡(luò),然后在搜索網(wǎng)絡(luò)里面計(jì)算出一個(gè)得分,再根據(jù)這個(gè)得分判斷這段語(yǔ)音好還是不好,有沒漏讀或錯(cuò)讀。如果讀的比較平滑準(zhǔn)確就是一段好語(yǔ)音,它會(huì)被篩選出來(lái)作為語(yǔ)音讀物的材料。這與普通話等級(jí)考試有些類似,同樣都要匹配文本,看你讀的是否準(zhǔn)確平滑?!?br/>
語(yǔ)音篩選有一個(gè)打分的過(guò)程,通過(guò)這個(gè)過(guò)程對(duì)語(yǔ)音的質(zhì)量進(jìn)行評(píng)估,實(shí)際結(jié)果顯示,女性的語(yǔ)音質(zhì)量通常要比男性高,“她們更加自信,讀得也更加認(rèn)真”。而項(xiàng)目的大部分(估計(jì)有90%左右)參與者都是女性,結(jié)果是一本書大部分都是女性的聲音。
總體上后臺(tái)好的語(yǔ)音還是占大多數(shù),差的語(yǔ)音也存在。哪些因素會(huì)導(dǎo)致語(yǔ)音質(zhì)量不高?主要有三點(diǎn):
手機(jī)質(zhì)量不好,采集的語(yǔ)音質(zhì)量就會(huì)較差,這部分會(huì)放棄掉;
之前有一個(gè)bug導(dǎo)致錄入語(yǔ)音時(shí)文本被遮擋,這樣讀出來(lái)的語(yǔ)音不完整;
很重的口音,或者有些人離話筒比較遠(yuǎn),也會(huì)導(dǎo)致語(yǔ)音質(zhì)量不高。
劉學(xué)梁說(shuō)他們非常珍惜每一段語(yǔ)音,盡量不浪費(fèi)。一個(gè)片段只會(huì)投放給一個(gè)人,只有當(dāng)這個(gè)人沒有讀或是讀的質(zhì)量真的有問(wèn)題,比如有缺損,才會(huì)篩除并讓發(fā)給下一個(gè)讀。
眾包制作的有聲書,質(zhì)量能比得上專業(yè)的嗎?
簡(jiǎn)單的回答是:不能,但已經(jīng)接近了。但是,眾包讀書還有自己的優(yōu)勢(shì)和公益的性質(zhì)。眾包的有聲書由成百上千人的語(yǔ)音構(gòu)成,而且這些人都不是專業(yè)朗讀者,如何提高質(zhì)量呢?
“如果是專業(yè)朗讀者去讀這些書的話,質(zhì)量自然會(huì)更高一些,但是為盲胞讀書采用眾包模式的優(yōu)勢(shì)是速度會(huì)快很多,一個(gè)人一天讀不了一本書,但幾萬(wàn)人一起讀的話一天就能讀好幾本,長(zhǎng)期下來(lái)就能積累很多書。對(duì)于每個(gè)人聲音不同這方面,習(xí)慣了之后其實(shí)還好,把不同人的聲音連接時(shí)我們也會(huì)做一些處理,使它們音量一樣,讓前后兩個(gè)人的聲音區(qū)分度不會(huì)太大,同時(shí)把語(yǔ)音的前后空白處剪切掉,聽起來(lái)會(huì)更流暢。另外我們?cè)谶M(jìn)行文章切分時(shí)會(huì)盡量讓一段話保持完整,由一個(gè)人來(lái)讀,這樣語(yǔ)音之間斷層也是段落之間的區(qū)分。而且很多人會(huì)連續(xù)讀好幾段,我們也會(huì)優(yōu)先考慮把同一個(gè)人讀的段落放在一起。”
實(shí)際上,為盲胞讀書的用戶質(zhì)量非常高。比如有一些片段包含德文、法文等小語(yǔ)種,多數(shù)人都不懂,會(huì)讀得很差,但也有很多用戶能把它流暢讀出來(lái)。筆者在公眾號(hào)后臺(tái)親身體驗(yàn)后發(fā)現(xiàn),很多語(yǔ)音都讀得非常專業(yè)。
結(jié)語(yǔ)
一本書總會(huì)有一些段落直到最后還是沒有讀完,這個(gè)時(shí)候團(tuán)隊(duì)成員會(huì)自己上馬把它們讀完,盡快集結(jié)成一本有聲書。
不同的書讀的速度也不一樣,快的一兩天就能讀完(團(tuán)隊(duì)會(huì)同時(shí)下發(fā)好幾本書),一般是名人領(lǐng)讀較受歡迎。
似乎過(guò)程很麻煩,質(zhì)量也未必比得上專業(yè)朗讀者制作的,但這種方法制作出來(lái)的有聲書已經(jīng)不僅僅是一個(gè)商品,它包含了成千上萬(wàn)人的愛心在里面。為盲胞讀書(公眾號(hào):voicedonate)已經(jīng)擁有超過(guò)50萬(wàn)參與者,截止目前已制作出超過(guò)100本有聲書,有越來(lái)越多的盲人同胞從中受益,希望你也能參與進(jìn)來(lái)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。