0
本文作者: 叢末 | 2018-10-10 09:51 |
越來越多的小伙伴們加入到 AI 課程的字幕翻譯隊伍。在這些翻譯同學中,有些是 AI 相關(guān)領(lǐng)域的學生或從業(yè)者,有些是純粹的知識愛好者,很多同學并未上過英語翻譯課程,未經(jīng)受過專門的翻譯技巧培訓。
近日,在雷鋒網(wǎng) AI 研習社公開課上,上海外國語大學英語專業(yè)碩士畢業(yè)、目前長期從事專職英語翻譯的 Laura 就從自己英語翻譯的專業(yè)背景出發(fā),從實戰(zhàn)的角度,分享 AI 字幕翻譯的技巧,希望幫助更多同學事半功倍地做好字幕翻譯。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/525
Laura:上海外國語大學英語專業(yè)碩士畢業(yè),目前從事專職英語翻譯工作。曾獲 CATTI 二級口譯、高級口譯等證書,雅思 8.0。在網(wǎng)易公開課、雷鋒網(wǎng)、Udacity 等平臺做字幕翻譯志愿者,參與翻譯 CS231n、CS224n、Deep Learning Nano Degree 等 AI 相關(guān)課程。
分享主題:AI 字幕翻譯經(jīng)驗分享
分享提綱
1.怎樣做好 AI 字幕翻譯?
? 字幕翻譯的特點
? 字幕翻譯的原則
? 字幕翻譯的規(guī)范
? 實戰(zhàn)翻譯的 TIPS
2. AI 翻譯的個人心得
雷鋒網(wǎng) AI 研習社將其分享內(nèi)容整理如下:
我今天會跟大家分享一下關(guān)于 AI 字幕翻譯,我自己的一些經(jīng)驗和技巧。首先自我介紹一下,我是上海外國語大學英語專業(yè)的研究生,主要研究口譯方向,曾考取了 CATTI 二級口譯、高級口譯等證書,雅思 8.0,目前專職從事于翻譯工作,包括口譯和筆譯兩個方面。在字幕翻譯經(jīng)歷方面,我曾從事?易公開課的 TED TALK(科技相關(guān)話題)的翻譯工作,還曾擔任 UDACITY 的深度學習納?學位課程字幕組翻譯審核負責人,累計翻譯、審校 5000 多行課程字幕,目前在雷鋒字幕組參與翻譯、校對 CS231n、CS224n、Hugo 教學視頻等 AI 相關(guān)課程。
本次分享,我會從一個英語專業(yè)出身的譯者角度出發(fā),主要從 4 個方面講一下怎樣做好 AI 字幕翻譯:第一,字幕翻譯的特點;第二,字幕翻譯的原則;第三,字幕翻譯的規(guī)范;第四,實戰(zhàn)翻譯的 TIPS。
字幕翻譯有哪些特點?
從我的翻譯經(jīng)驗中,我總結(jié)出了以下三點:
一是瞬時性,指的是字幕出現(xiàn)在視頻上,停留的時間非常有限,往往一閃而過,這對閱讀速度有一定要求。這里有一個概念,叫做 CPS——Character/Second,TED 上也對這一項有要求,就是閱讀速度不要超過 21 cps。簡單來說,就是這個 CPS 不應該太高,字幕不能過密、過長,不要讓觀眾來不及看。
因此,我在這里為大家推薦一款字幕軟件,叫 Aegisub,它可以實時顯示 CPS。大家可以看一下這個表格,在第三列,軟件會根據(jù)字幕的長短和時長來計算出 CPS 值,顏色越深,就表示這個字幕越密,即 CPS 值越高。如果這個位置顯示的顏色過深,大家就需要考慮一下,簡化一下自己的表達。
另外,還有一個檢查字幕是否過長的方法就是,你可以自己模擬一下觀眾,翻譯完后將視頻進行回放,以觀眾的視角,看一下你在看視頻的時候能否跟上字幕的速度。這是一個比較簡單的檢驗方法,我自己也經(jīng)常使用。
二是單向性,因為字幕作為視頻的一個呈現(xiàn),理論上我們是不會去回看的。這一點上,字幕與一般文本是截然不同的,文本可以同時看到大片信息,而字幕則是——這一句過了,再顯示下一句。因此,你在句式結(jié)構(gòu)使用上,盡量不要使用嵌套式的句式結(jié)構(gòu),即不要將一句話分成不在一個頁面上的兩行字幕,這樣觀眾就需要先記住前一句話,再結(jié)合下一句話才能完全理解,從而造成他們理解上的負擔。
三是多線程模式。大家自己在看課程或視頻的時候,會一邊聽語音,一邊看字幕,對于大腦來說,它需要把精力同時分配給不同的任務,在這樣的情況下,分配給字幕閱讀的精力就十分有限。因此大家在翻譯的時候,語言與句式都不要太為復雜。
接下來說一下翻譯中要遵循的原則。根據(jù)上面的三個特點,我歸納出來以下幾個原則:
第一是語言的簡潔性,即在表達上要化繁為簡,讓大家在看的時候能跟上字幕的顯示速度,句子不要太長。
第二是方便閱讀,這是指大家不一定要進行字對字的翻譯。在我們翻譯那些 AI 課程的時候,讓觀眾看懂、學懂才是最重要的目的,基于這個目的,你在翻譯的時候,首先你要自己看懂這個句子,搞清楚它想說什么,然后用觀眾能夠理解、聽懂的方式表達出來。所以說做課程字幕翻譯的時候,傳遞知識才是最重要的,如果你自己一知半解,也無法保證觀眾看懂,那就無法達到這一主要目的。
第三是意群完整,指的是不要在不合適的地方斷句。我們遇到的英文視頻,原本的英文字幕可能是由一些軟件自動生成的,斷句的地方不合適, 因此在翻譯時需要對這些斷句進行調(diào)整。例如,某些英文原字幕會在形容詞和名詞間斷句,這既不符合英文表達習慣,更不符合中文表達習慣。
第四是前后一致。在翻譯課程的過程中,我們往往會遇到很多專業(yè)術(shù)語,這些術(shù)語可能會前后出現(xiàn)很多次,特別是在時長一個多小時的課程由同學們合作完成字幕翻譯的情況下,這些術(shù)語可能會因大家翻譯的差異而出現(xiàn)前后不一致的情況。因此,大家在校對時,尤其需要注意前后術(shù)語的一致性。同時,大家也可以在翻譯之前,就一起討論、統(tǒng)一術(shù)語的表達,以避免給觀眾造成一些理解上的負擔。
下面我講一下字幕翻譯的規(guī)范。事實上,一些字幕平臺,自己就會對字幕翻譯有一些要求。
第一是關(guān)于標點的使用。比如現(xiàn)在雷鋒字幕組在做的這類翻譯,就采用空格來代替逗號和句號。我一般都是用兩個半角空格來代替逗號和句號,但是對其他的一些標點,比如頓號、冒號、問號、書名號這些具有實際意義的標點,是需要保留的,只是逗號、句號這些表示斷句的標點用空格代替。
第二是關(guān)于書名、人名和公司名稱的翻譯。一般來說,如果公司名有約定俗成的中文譯名,那就直接采用該中文譯文,比如說 Google 在中國,就被叫做谷歌;如果公司名還沒有中文譯名,即當你上網(wǎng)搜索時,發(fā)現(xiàn)網(wǎng)頁采用的都是其英文原名,可以保留它的英文名。
而書名和論文名,一般都要求翻譯成中文名。關(guān)于書名,你可以先去網(wǎng)上查一下這本書是否出版過中文版本,如果有的話,你就采用已有的中文譯名;如果還沒有,你可以根據(jù)自己的理解翻譯一下。
還有一個需要特別提一下的就是人名。我自己在翻譯的時候就遇到過,一些老師或者助教是華裔,名字是拼音式的英文名,我們一般能在網(wǎng)上查到的他們原來的中文名,因此大家在翻譯的時候要盡量避免音譯。比如我曾翻譯過一個名字叫 Danqi Chen,她是斯坦福的一名助教,我會在網(wǎng)上搜一下,找到她的中文原名——陳丹琦。
第三是字幕長度的控制。我在這里列了 TED 的標準,比如說每行總長度不超過 42 個字符,這是一個參考。我們在翻譯的時候,也要看一下這一頁字幕的效果,然后自己把握一下。我下面也附上了一個相關(guān)鏈接:https://www.ted.com/participate/translate/guidelines,大家可以參考一下。
第四是關(guān)于斷句。我前面也說了不要在意群中間斷句,就比如說圖中的第一個句子,在這里它將「one bit of terminology」變成了兩行,我在翻譯的時候,就會把「術(shù)語」提到第一行字幕上。第二句的斷句也是非常不自然——PhD 和 student 中間斷開了,這可能是因為字幕自動生成而產(chǎn)生的問題,因此我翻譯的時候?qū)ⅰ覆┦可沟姆g直接放到了下一行字幕。最下面的鏈接:https://translations.ted.com/How_to_break_lines,里面有一些斷句相關(guān)的建議,大家也可以參考一下。
現(xiàn)在就進入實戰(zhàn)部分,我來具體介紹一下翻譯中比較實用的一些技巧和方法,主要為以下四點:
第一,化繁為簡。其實中文和英文是兩種非常不同的語言。英文是一種「形合」的語言,通過句法手段、詞匯銜接等方式來體現(xiàn)邏輯關(guān)系,多數(shù)詞都只是有一個邏輯上的連接功能,功能性大于內(nèi)涵。我們經(jīng)常用的一個比喻就是英語就像一串葡萄,它有一個主干,把一顆顆葡萄穿起來——這些葡萄就相當于一個一個的意群,靠著主干和上面的分支然后將其穿起來。
中文則是「意合」的語言,不依靠句法、結(jié)構(gòu)上的顯性關(guān)系串起來,而是依靠其內(nèi)容的內(nèi)在邏輯,更具畫面感和意境。比如說「枯藤老樹昏鴉,小橋流水人家」這句詩,全部由名詞組成,這樣的句式在中文字是很美的,但是在英文中是不可能出現(xiàn)的。
所以我們會說,中文的感覺就像大珠小珠落玉盤,一個玉盤中裝著很多珠子,由一個個意群組成,而不像葡萄有莖干,但是這些意群間是有內(nèi)在聯(lián)系的,它們通過內(nèi)容、實際含義串在一起。中文這樣的特點要求我們在翻譯的時候做到「得意忘形」,不要被英文的形式給框住了,而是以意合的形式將其翻譯出來,否則翻出句子會有英文腔。當然,「得意忘形」需要一個長期的積累過程。
此外,由于每一行字幕的字數(shù)有限,所以大家在翻譯的時候要盡可能精簡。針對我的一些翻譯經(jīng)驗,以及在幫別人校對過程中遇到的一些問題,我也為大家整理一些實用的 TIPS,這些案例都是我在翻譯或校對 AI 課程視頻中摘取的句子:
首先,刪掉「我們」、「我們的」、「你的」、「你們」這些不必要的詞,因此它們在英文中只是結(jié)構(gòu)需要。如「hidden layer」前面需要一個 the、a 或者 our 這樣的修飾成分以保證結(jié)構(gòu)的完整性,但是這些修飾詞是沒有實際含義的。后面兩句也是這樣。我們可以使用的一個檢測方法就是,你試著將這些詞刪掉,然后看你的譯文是否還是通順、能夠理解的。
其次,要刪掉一些 fillers、口頭禪,如 sort of, a bit of stuff, kind of, you know 等。舉個例子,在一些課程中,有一些教授在構(gòu)思自己接下來要說的話的時候,可能會不由自主地使用他們自己的一些口頭禪來緩沖一下——中文中也有類似的,比如「然后」、「那么」、「就是」這類詞。圖中有一些案例,大家可以看到帶了 sort of 、a bit of 這些詞的英文句子,顯得很啰嗦,大家在翻譯的時候都可以將其刪掉。
最后一點就是簡化表達。比如這一句「made our network more efficient」,大家不需要一看到 make 就把句子翻譯成「把」字句,直接使用動賓結(jié)構(gòu)就可以了。在另一句中,前面這句「what we're gonna do 」和后面這句「a bit of stuff about」都沒有信息量,大家完全可以不翻出來。總之,大家在翻譯的時候,要想一想是否有更簡練的表達。
第二,巧用空格。字幕中,如果出現(xiàn)長長的一句話,觀眾看起來會很費勁,就像我之前說的,因為這是一個多線程的操作。我們在瞄一眼字幕后,怎樣才能迅速 get 到信息點呢?一個很簡單的方法就是在合適的地方加入空格,把長句變成一個個小短句,以減輕觀眾的理解壓力,從而提高他們的閱讀速度??梢约涌崭竦牡胤骄褪悄切┛梢圆鸪瑟毩⒁馊旱牡胤?。下面我們看一些具體案例:
比如在「因為」、「所以」、「目前」、「我認為」等詞以及「十年前」等表示時間的短語后面加上空格,以方便觀眾能迅速閱讀到信息點。
此外,還可以將從句拆開,變成短句/短語。大家可以參考一下我在圖中列出的案例。
三是順句驅(qū)動。這其實是同傳翻譯中的一個技巧,思路是:我們盡量順著整句話的意思,按順序提取句中的意群,然后依次將一個意群一個意群翻出來。在這個過程中,我們可能要對原來的句子結(jié)構(gòu)進行一些調(diào)整或者添加一些連接詞或者進行句子的轉(zhuǎn)換。我講一下以前我們同傳老師會講到的例子,比如說 There are still 5 minutes / before we call it a day 這句話,如果使用一般的翻法,我們會翻成「在我們結(jié)束今天的會議之前還有五分鐘」;但如果運用順句驅(qū)動,可以翻譯成「還有五分鐘,我們就散會」,這樣就把句子順下來了。第二句,也是這個道理。這種翻譯方式可以給大家多一種選擇和思路。
而順句驅(qū)動中,第一個具體技巧就是重復。在一行字幕信息不完整的情況下,你可以通過補全這一行的關(guān)鍵字,讓每一行的字幕都顯得完整,同時也可以在不打亂句子結(jié)構(gòu)的情況下,就能順著英文意思進行翻譯。比如第一個案例,每一行的內(nèi)容都出現(xiàn)了「內(nèi)容」,這些「內(nèi)容」都是為了讓每一行字幕看起來完整而補上去的。第二個例子,也是這樣。
第二個具體技巧是詞性轉(zhuǎn)換。中文的一大特點是動詞用得很多,基于這一點,我們可以把英文中的名詞成分或介詞成分變成動詞。比如第一個句子中的 winners,本來是一個名詞,但可以被翻譯成「勝出」,這樣更能讓句子順下來,也比較貼合中文的表達習慣。
第三是被動變主動。因為中文中主動句式會比較多,因此如果翻譯出來的被動句式出現(xiàn)過多,就會給人一種濃濃的翻譯腔。
此外,我們也可以對句子做出一些其他的變化,例如我在下面這句話的翻譯中,結(jié)合上下語境,不將 whether 直接翻譯出來,而是用「準確性」來表達整句話的意思。
最后我補充一下我自己的一些個人心得。
第一個是邊學邊翻。如果你在翻譯一個課程的同時,正好又在學習這個課程,當碰到不懂的情況,會先去網(wǎng)上查一些同一話題的中文資料,來讓自己弄懂知識點后,再以觀眾能理解的中文表達出來——這樣不僅會讓翻譯效果更好,而且也會對你自己的學習有促進作用。
第二,碰到了不懂的術(shù)語怎么辦?
首先,我們可以先上網(wǎng)搜一下這些術(shù)語,但是搜的過程中,要注意這些來源是否靠譜。比如我自己在百度進行搜索時,會特別注意來源——我個人比較喜歡 CSDN 博客、知乎這些來源的文章。另外,我也推薦一下吳恩達老師的公眾號「吳恩達deeplearningai」,因為他在 Coursera 開了 Deep Learning 的課程,該課程被翻成了中文資料,會在他的公眾號上推送。這些資料里面對一般術(shù)語的中文翻譯,我認為是比較權(quán)威的。
第二個方法就是用雷鋒字幕組的云詞庫。我們在翻譯過程中,如果遇到不懂的術(shù)語,可以參考云詞庫中的中文翻譯。
如果上述方法都不管用,大家可以跟群里的小伙伴們討論一下,一起找到一個比較合適的翻法。
這里我要特別說明一點就是,AI 這個領(lǐng)域目前還處于快速發(fā)展的階段,其中的很多中文表達還沒有固定下來。大家平時在網(wǎng)上搜索某個術(shù)語的時候,也會從不同的來源看到不同的譯法,在這種情況下,一個比較好的方式其實是,大家一起討論一下哪種譯法更貼合中文的表達習慣、更能反映其英文所要表達的意思。大家不要認為網(wǎng)上出現(xiàn)過的翻譯就是最好的,如果我們能夠討論出更加合適的譯法,并讓它更廣泛地被使用,成為主流,就更有意義。
第三,有需要解釋的術(shù)語怎么辦?
第一種情況是,有些術(shù)語有縮寫、簡寫。大家遇到這類術(shù)語時,可以采取的方法是:第一次出現(xiàn)的時候,先翻譯成中文,并在后面加上括號寫上它的英文縮寫,當下次再出現(xiàn)這個概念的時候,字數(shù)有限的情況下,就可以采用縮寫。比如這句話,第一次出現(xiàn) natural language process,我先把「自然語言處理」翻譯出來,并在后面的括號中寫上 NLP,當該術(shù)語在后面出現(xiàn)的時候,直接用 NLP 即可。這其實也能幫助觀眾積累一些英文專業(yè)術(shù)語的知識,換句話說就是,當他們以后在瀏覽信息時看到這些術(shù)語的英文縮寫,他們就知道這個縮寫指的是什么。
第二種情況是,可能你覺得英文部分沒有講清楚,或者你覺得觀眾看到后不能很好理解,需要加一些解釋說明。這個時候,你可以使用一些最簡練的話來對其進行解釋說明,如果因為加了說明而變得太長,可以考慮將后面的話移到下一行,做一個微調(diào),畢竟字幕翻譯的最終目的,就是為了讓觀眾看懂。比方說,我在翻譯 ResNet block 的時候,想到有很多觀眾可能會看不懂,因此我不僅將「ResNet 模塊」翻譯出來了,還在后面標注上了我對這個術(shù)語的理解「注:即上下都有1x1的卷積層」。
第三種情況是,不知道英語在說什么怎么辦?
碰到這種情況,有一半的概率其實是英文字幕本身是錯誤的,比如 encoding 打成了 in coding,conv net 打成了 com net,pair 打成了 pear。那怎么做呢?大家可以聽一下英語原音,比如說第一句中出現(xiàn)了一個 comNet,我們理解不了,我們可以聽一下視頻原聲,會比較容易發(fā)現(xiàn)其實這個單詞應該是 conv net。另外一種方法是(針對某些課程),在返回去聽英文原句的同時,配合查看相應的 PPT——因為有時候教授在念這一句話的時候,課程中的 PPT 上也會同步顯示這句話。比如我遇到過一個字幕,句中的 if 造成了翻譯困難,但當我去查看 PPT 的時候,發(fā)現(xiàn)其實 if 是沒有的,刪掉 if 以后,這句話就變得很容易理解了。
如果上述辦法都不奏效,大家不妨求助一下小伙伴吧。
以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng) AI 研習社社區(qū)觀看。關(guān)注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。