7
本文作者: 格林 | 2016-01-20 18:13 |
不要問國家為你做了什么,而要問你為國家做了什么?
——肯尼迪(1961年)
上面這樣經(jīng)典的政治演講少之又少,普普通通的演講倒是很多,比如美國國會的辯論演講。這些演講大多千篇一律,都遵循標準的格式,重復(fù)相似的論調(diào),甚至使用一樣的短語來表述特定的政治立場和觀點??雌饋砗孟癖澈笥幸惶姿惴ㄔ跊Q定它的內(nèi)容。
于是它引導我們?nèi)ニ伎家粋€有趣的問題:有沒有可能讓機器自動撰寫政治演講稿呢?
美國馬薩諸塞大學研究人員Valentin Kassarnig為我們帶來了答案,他開發(fā)了一套撰寫政治演講稿的人工智能(AI)機器算法,機器寫出的講稿幾乎可以以假亂真。
從表面上看,基本原理還是很簡單的。Kassarnig首先建了一個數(shù)據(jù)庫,從53場美國國會辯論中抽取4000個政治演講片斷,編成一套“機器學習”算法,讓它自動撰寫稿件。這些政治演講由5萬多個句子組成,平均每個句子包涵23個單詞。凱斯塞寧將演講按政黨進行分類,比如哪些是民主黨的,哪些是共和黨的,看它們是否贊同或者反對某個特定的主題。
魔鬼在于細節(jié),分析數(shù)據(jù)庫是最大的挑戰(zhàn)。在嘗試了許多種技術(shù)之后,Kassarnig最終采用了基于“N-grams(元語法模型即馬爾可夫模型)”的方法。他首先用詞類法分析文本,也就是用語法規(guī)則來給每一個詞語和短語作標志(標為名詞、動詞、形容詞等)。然后分析第6個詞或者短語,根據(jù)前5個詞或者短語判斷第6個詞或者短語最有可能是什么。Kassarnig說:“只要看它前面是5個是什么,我們就可以很快確定所有的單詞。”
在分析詞的過程中演講稿會同步生成。Kassarnig需要告訴算法寫什么類型的演講稿,比如是給民主黨寫還是給共和黨寫。算法最開始會按給定的類別搜索6個詞或者短語組成的數(shù)據(jù)庫,然后用5個詞或者短語作為起點來撰寫演講稿。
算法的寫作從隨機選擇的5個詞或者短語開始,然后選擇可以與之相關(guān)聯(lián)的下一個單詞。Kassarnig說:“跟著系統(tǒng)就會自動一個接一個地預(yù)測單詞,并最終預(yù)測演講的結(jié)尾。”
整個過程有一些技巧。例如,算法會知道演講中最可能出現(xiàn)的特定主題是什么,然后它會挑選其它主題嵌入到演講中去,它還要決定如何修飾這些主題。
下面是機器寫的一則民主黨講稿:
“議長先生,多年來,因為受到破產(chǎn)法的保護,誠實而不幸的消費者可以為自己的案子進行申訴了,最終他們合理而有效地償還了債務(wù)。系統(tǒng)所采用的方法是管用的,破產(chǎn)法院會評估各種情況,如收入、資產(chǎn)、債務(wù),從而決定哪些債務(wù)應(yīng)該償還,決定消費者如何自力更生。讓我們支持增長和機會,請通過這項立法?!?/p>
寫出來的文稿還算通順,畢竟Kassarnig的人工智能算法還沒有接受過訓練,它只是在最開始時作了標記,并對政治演講按6個詞組或者短語進行過一番分析。他用一些標準對演講稿進行評估,比如檢查語法正確性、句子過渡、講稿結(jié)構(gòu)和內(nèi)容,評估發(fā)現(xiàn)機器寫的東西很不錯。Kassarnig說:“特別值得欣慰的是講稿的語法很正確,句子過渡也非常流暢?!?/p>
盡管如此,讓機器算法走上政治舞臺,Kassarnig并不樂觀:“盡管算法的確可以為政治家撰寫演講稿,但它的結(jié)果不太可能好。”愿意使用這套算法的政客沒幾個。
幸好算法還可以用來撰寫其它類型的文本,比如新聞,只要根據(jù)同樣的事件給它們提供一些故事就可以了。它還可以用來寫博客,只要為它準備一個很大的數(shù)據(jù)庫,在里面裝滿相似的文章就行了。
凱斯塞寧希望大家都來試一試,他已經(jīng)將源代碼發(fā)布在GitHub上,快去試下吧。
via techreview
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。