丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

本文作者: 叢末 2018-09-23 17:21
導語:跨語言信息能在語義分析中得到怎樣的應用?

雷鋒網(wǎng) AI 研習社編者按:語義分析(semantic parsing)是人工智能的一個分支,是自然語言處理技術(shù)的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。近年來,隨著人工智能的發(fā)展,語義分析也越發(fā)重要。

word embedding 是很常見的 input feature,能夠很大程度地提升語義分析模型的性能。然而,對于 output 對語義分析模型性能的影響,大家的關(guān)注度卻并不是很高。

近日,在雷鋒網(wǎng) AI 研習社公開課上,新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領(lǐng)域的論文成果,并介紹了關(guān)于 output embedding 對于 semantic parsing 的影響。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

鄒炎炎:新加坡科學設計大學博士在讀,主要研究方向為自然語言理解。

分享主題:語義分析介紹及跨語言信息在語義分析中的應用

分享提綱:

1.semantic parsing 背景介紹

2.semantic parsing 模型介紹

3. 如何學 output embedding

4. 實驗分析

雷鋒網(wǎng) AI 研習社將其分享內(nèi)容整理如下:

今天跟大家分享的內(nèi)容包括兩個部分:

一是語義分析介紹,考慮參與分享的大多數(shù)朋友并不是從事 semantic parsing 的相關(guān)工作,所以我會從通俗易懂的角度為大家做一個普及;

二是講一下我們在 ACL 2018 會議中的一篇短文——《跨語言信息在語義分析中的應用》(Learning Cross-lingual Distributed Logical Representations for Semantic Parsing)

對于做 nlp 的人來講,parsing 一般會被默認為 Syntactic Parsing——語法方面的分析,常見的分析有 Dependency parsing(依賴關(guān)系分析)和 Constituency parsing(成分句法分析)。

Wikipedia 上對 semantic parsing 的解釋是:把人類自然語言的話轉(zhuǎn)化為機器能夠讀懂的語言。

為了讓大家更好地區(qū)分語法分析和語義分析的不同點,我先介紹一下兩種分析的任務:

Dependency parsing :比如輸入一句話「I saw a girl with a telescope」,Dependency parsing 的目標就是找到哪兩個詞之間是存在依賴關(guān)系的,更進一步的話,可能需要給這種關(guān)系標記上 Label。例如 「I 」是 「saw」 的修飾詞,其他關(guān)系同理。

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

Constituency parsing:我們以同樣的句子為例,這里我們關(guān)注的不是兩個詞之間是否存在修飾、依賴關(guān)系,而是關(guān)注哪些詞構(gòu)成一個短語,一個短語即是一個成分,比如「a telescope」就是一個名詞短語。

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

Semantic Parsing 則是指輸入一段完整的話,最后輸出 semantic representations(MRL)。那 semantic representation 是什么呢?就我了解的而言,主要有五種比較流行的 representations :

? Lambda calculus expressions(一般與 CCG 配合使用)。

? Lambda dependency-based compositional semantics(lambda-DCS)

? Forest, or DAG representations (AMR)

? SQL 

? FunQL (logical forms with tree structures)

本次分享中,我們主要采用了 FunQL 這種語義分析方式。

【更多關(guān)于這五種主流語義分析的講解細節(jié),請回看視頻 00:08:30 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

從廣義上來講,Semantic Parsing 可以分為兩類:

? Task-independent:Semantic Parsing 只關(guān)注語義分析這一塊,input 就是一個句子,output 就是一個 representation,它的目標就是怎樣以更好的 Semantic Parsing,來預測句子的更準確的 representation,而不關(guān)注下面的任務是什么。

? Task-specific:興趣點在于訓練一個能幫助完成 Answering questions、Taking actions 等這些任務的 Semantic Parsing。

【關(guān)于更多對二者的區(qū)別的講解以及案例,請回看視頻 00:15:45 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

總的來說,我們要把一個文本轉(zhuǎn)化為 semantic representation 的形式,本文采用 FunQL 這種 representation 的方式,目標就是將文本轉(zhuǎn)化為一個 semantic trees(語義樹)。當然這個 semantic trees 也可以反向轉(zhuǎn)化為 FunQL,使用 semantic trees 這個媒介,能幫助我們更好得學到句子的語法意義。

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

一般來說,Semantic Parsing 中一個比較流行的方法就是去學習 joint representation——可以同時將 input 的詞和 output 的 semantic units 進行對齊處理。

這次我主要介紹我們實驗室的一系列工作,包括:

Generative Hybrid Tree (Lu et al.,2008)

我們知道 input 是一句話,output 是一個 semantic trees,例子中,input 為「how many states do not have a river?」這句話,下面就是它的 semantic trees,我們可以將二者的對應關(guān)系表示為 Hybrid Tree 的形式,如下圖:

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

【關(guān)于 Generative Hybrid Tree 的更多講解,請回看視頻 00:19:17 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

Generative Hybrid Tree 有一些優(yōu)點和缺點。

優(yōu)點:第一,它是 Language-independent,不管 input 是中文還是英文,只要喂一個模型,系統(tǒng)就能輸出一個 Semantic Parsing;第二,可以很好地模擬出來詞與 semantic units 的對齊關(guān)系,這個對于 Semantic Parsing 來說非常重要;第三,效率性比較高。具體的推導,大家感興趣的話可以閱讀論文。

缺點:第一,無法獲得長距離的依賴關(guān)系;第二,能引入的特征比較有限。

Discriminative Hybrid Tree (Lu,2014, 2015)

在這個工作中,我們采用了 log-linear model(對數(shù)線性模型)來解決上一篇論文存在的兩個問題。綠色字體是在 Generative Hybrid Tree 的基礎(chǔ)上新引入的,它們與 semantic units 保持著聯(lián)系,它能將句子的節(jié)點與所有子節(jié)點的對齊關(guān)系都考慮進去。

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

【關(guān)于 Discriminative Hybrid Tree 的更多講解,請回看視頻 00:25:25 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

除了一般的特征,Discriminative Hybrid Tree 這個模型還會考慮到 Word n-gram features、Character-level features、 Span features 這些額外的特征。

Neural Hybrid Tree (Susanto、Lu, 2017)

現(xiàn)在 Neural Network 非常盛行,也有很多工作完全使用 Neural model 來完成 Semantic Parsing 的工作。Neural Hybrid Tree 其實就是 Discriminative Hybrid Tree 的一個擴展版本,引入了一些 Neural 特征,來幫助我們更好地學習 Semantic Parsing。

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

【關(guān)于 Discriminative Hybrid Tree 的更多講解,請回看視頻 00:28:35 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

下面講一下我們在 ACL 2018 會議中的一篇短文——《跨語言信息在語義分析中的應用》??缯Z言信息其實很少作為一個特征用于 Semantic Parsing。那為什么我們會想到使用跨語言信息去學習語義分析器呢?

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

例如 Machine Translation 將「How many states have no rivers?」轉(zhuǎn)化為中文「有多少洲沒有河流?」,可能會有很多種表達,但是語義是一樣的。不同的語言其實有一些共享的信息,那這些共享信息是否能幫助我們更好的去學 Semantic Parsing 呢?這就是我們的 Motivation。

【更多關(guān)于使用跨語言信息去學習語義分析器的 Motivation 的講解,請回看視頻 00:32:15 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

接下來就是怎么去給這些共享信息建立模型。我們的目標就是在給定目標語言和輔助語言的情況下,比如要學英文的 Semantic Parsing,會以英文為目標語言,以中文、德文等其他語言為輔助語言,在訓練英文的 Semantic Parsing 前,我們會在輔助語言以及語言所對應的「語義樹」中學一些 cross-lingual information,之后我們會根據(jù)給定的數(shù)據(jù),可以用 embedding 或者分布式表達去建立跨語言信息模型。

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

【更多關(guān)于建立跨語言信息模型的講解,請回看視頻 00:34:50 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

我們用一些實驗數(shù)據(jù)來證明 output embedding 對于模型的性能是有用的,如下圖中的表格:

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

【更多對該數(shù)據(jù)表格的詳細講解,請回看視頻 00:37:00 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

那學出來的 Cross-lingual Representation 到底表示什么呢?我在這里截取了其中的一部分,如圖:

 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

如果 semantic units 擁有相似或者一樣的 functional symbol,它們傾向于組成一個 group,在二維空間中非常接近。比較接近的語義會離得比較近,相反的語義則會離得比較遠。

最后做一下總結(jié),本次我們分享了語義分析的基本背景知識,我們實驗室工作中用到的一些語義分析模型、ACL 2018 會議中的短文《跨語言信息在語義分析中的應用》以及語義分析的一些表現(xiàn)。

接下來,我們會考慮用一個 joint 的形式同時去學跨語言的 representations 和跨語言的 semantic parser。

以上提到的三個 Hybrid Tree 模型以及我們在 ACL 2018 的論文的代碼,都可以在我們的官方主頁(http://statnlp.org/research.sp/)上下載。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng) AI 研習社社區(qū)(https://club.leiphone.com/)觀看。關(guān)注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社第 70 期大講堂

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說