4
本文作者: 思睿 | 2015-09-21 15:28 |
計(jì)算機(jī)語言學(xué)急劇改變了研究人員學(xué)習(xí)和理解語言的方式。利用數(shù)學(xué)運(yùn)算處理大量詞語的方式,也讓我們開始以不同的角度思考單詞與詞語之間的關(guān)系,而這有望能讓機(jī)器理解人類的語言。
數(shù)字運(yùn)算方式正好說明了一個(gè)詞語與另一個(gè)的關(guān)系有多么近,這也是關(guān)于它們?nèi)绾伪皇褂玫闹匾蛩亍lympics(奧運(yùn)會(huì))這個(gè)詞可能會(huì)顯得與 running(跑)、jumping(跳) 和 throwing(扔) 之間有更多聯(lián)系,而與 electron(電子) 和 stegosaurus(劍龍) 就沒那么緊密了。這組詞語的關(guān)系可以被認(rèn)為是一個(gè)多維向量,它描述了 Olympics 是如何在語言內(nèi)使用,它本身可以被認(rèn)為是一個(gè)向量空間。
這種新方法讓語言像擁有精確數(shù)學(xué)特性的向量空間一樣被對待?,F(xiàn)在,語言學(xué)研究已經(jīng)轉(zhuǎn)變成為了研究數(shù)學(xué)向量空間的問題。如今,澳大利亞墨爾本大學(xué)的 Timothy Baldwin 和其合作伙伴開始探索向量空間的一個(gè)數(shù)學(xué)特性:在同一空間中加減向量,從而產(chǎn)生另一個(gè)向量。
他們討論的問題是:向量之間的拼合有什么意義?在探索這個(gè)問題的過程中,他們發(fā)現(xiàn)向量之間的差異,是學(xué)習(xí)語言和了解詞語之間關(guān)系上的強(qiáng)大工具。
了解如何思考這些詞語,并讓它們像向量一樣進(jìn)行加減法,最簡單的方法是舉例子。比如下面兩個(gè):
國王 - 男人+女人=女王。換句話說,在向量中加入相關(guān)的詞語“國王”和“女人”,與此同時(shí)減去“男人”,就等于與“女王”相關(guān)的向量。這描述了一種兩性的關(guān)系。
另一個(gè)例子是:巴黎-法國+波蘭=華沙。在這種例子中,巴黎和法國之間的矢量差異,能夠得出首都這一概念。
Timothy Baldwin 則探討了這種方法有多可靠和有效。根據(jù)詞語研究的語料庫數(shù)據(jù),他們比較了向量關(guān)系會(huì)如何改變。例如,他們會(huì)在維基百科、Google新聞、路透社新聞的詞語語料庫中,進(jìn)行同樣的向量關(guān)系的研究。
為了找到答案,他們尋找了許多與分類詞語的關(guān)系相關(guān)聯(lián)的向量,包括實(shí)體及其部分之間的關(guān)系,如飛機(jī)和座艙;以及一個(gè)動(dòng)作與所涉及對象之間的關(guān)系,例如狩獵和鹿;名詞和集體名詞,例如螞蟻和軍隊(duì)。研究還包括了一系列的語法聯(lián)系——名詞和它的復(fù)數(shù),如 dog 和 dogs;動(dòng)詞和它的過去式,如 know 和 knew;動(dòng)詞和第三人稱復(fù)數(shù),如 accept 和 accepts。
結(jié)果十分有趣。Baldwin 表示,在這些關(guān)系中抓取的全部向量,總體上在每個(gè)語料庫的向量空間中,都形成了緊密集群。
但也有一些有趣的異常值,在詞語有一個(gè)以上的含義時(shí),就會(huì)在向量空間中產(chǎn)生有歧義的描述。在第三人稱復(fù)數(shù)集群的例子中,包括 study 和 studies,run 和 runs,increase 和 increases,所有這些單詞即可以作為名詞,也可以作為動(dòng)詞,因此也會(huì)曲解這些向量。
這是一項(xiàng)有趣的工作,不過除了語言學(xué)研究,還有什么現(xiàn)實(shí)意義呢?一個(gè)顯而易見的答案是:幫助機(jī)器理解人類的語言。另外,幫助機(jī)器進(jìn)行更好的語言翻譯。你可以已經(jīng)想到了兩個(gè)例子:微軟Skype實(shí)時(shí)翻譯,以及Google翻譯。
值得一提的是,在這一領(lǐng)域的開拓者和驅(qū)動(dòng)力之一,就是 Google 和它的機(jī)器翻譯團(tuán)隊(duì)。Google 發(fā)現(xiàn),出現(xiàn)在英語中的矢量關(guān)系,通常也適用于西班牙語、德語、越南語,以及其他所有的語言。
當(dāng)然,由于語言擁有獨(dú)特本質(zhì),也有許多例外的情況,也正是這些特殊性導(dǎo)致了機(jī)器翻譯算法的問題。因此,尋找能夠找出詞語歧義性的方式,有望提供一種有效解決這些問題的方法。
via technologyreview
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。