0
技術(shù)的價(jià)值往往體現(xiàn)在其應(yīng)用過程中,便隨著人工智能的大規(guī)模應(yīng)用,人工智能的工程化能力正在被人們所關(guān)注,根據(jù)Gartner發(fā)布的2021年重要戰(zhàn)略科技趨勢(shì),為將人工智能轉(zhuǎn)化為生產(chǎn)力,就必須轉(zhuǎn)向人工智能工程化這門專注于各種人工智能操作化和決策模型(例如機(jī)器學(xué)習(xí)或知識(shí)圖)治理與生命周期管理的學(xué)科。
那么,人工智能的基礎(chǔ)研究不再重要了嗎?
答案是否定的。縱觀全球各科技企業(yè),無不例外在持續(xù)加大對(duì)人工智能基礎(chǔ)研究的投入,以語音語義為例,作為人工智能的重要組成部分,對(duì)該領(lǐng)域的研究正不斷突破,為人機(jī)的交互模式帶來了更多的可能。
2021年,京東云橫掃多個(gè)國際頂級(jí)學(xué)術(shù)會(huì)議,多篇論文獲被發(fā)表,細(xì)分領(lǐng)域跨域長文的機(jī)器閱讀理解、內(nèi)容生成、知識(shí)融合、對(duì)話推薦、圖神經(jīng)網(wǎng)絡(luò)和可解釋的增量學(xué)習(xí)等。
下面以其中的8篇論文為例,分享各自在解決所要攻克的問題、提出的新方法以及取得的可被行業(yè)借鑒的成果。
論文標(biāo)題:RoR: Read-over-Read for Long Document Machine Reading Comprehension
論文鏈接:https://arxiv.org/abs/2109.04780
發(fā)表刊物:Findings of EMNLP 2021
Motivation: 大規(guī)模預(yù)訓(xùn)練語言模型在多個(gè)自然語言處理任務(wù)上取得了顯著的成果,但受限于編碼長度(例如,BERT只能一次性編碼512個(gè)WordPiece字符),無法有效地應(yīng)用于多種長文本處理任務(wù)中,例如長文本閱讀理解任務(wù)。
Solution: 對(duì)此,本論文提出了從局部視角到全局視角的重復(fù)閱讀方法RoR(如下圖所示),可提高超長文本的閱讀理解能力。具體而言,RoR 包括一個(gè)局部閱讀器和一個(gè)全局閱讀器。首先,給定的長文本會(huì)被切割為多個(gè)文本片段。然后,局部閱讀器會(huì)為每個(gè)文本片段預(yù)測(cè)出一組局部答案。這些局部答案接下來會(huì)被組裝壓縮為一個(gè)新的短文本來作為原始長文檔的壓縮版本。全局閱讀器會(huì)進(jìn)一步從此壓縮文本中預(yù)測(cè)出全局答案。最終,RoR使用一種投票策略來從局部和全局答案中選擇最終預(yù)測(cè)。
Experimental Result:在兩個(gè)長文本閱讀理解基準(zhǔn) QuAC 和 TriviaQA 上,大量實(shí)驗(yàn)證明了RoR可以有效提高預(yù)訓(xùn)練語言模型在長文檔閱讀的建模能力。RoR在公開對(duì)話閱讀理解榜單QuAC(https://quac.ai/)上獲得第一名的優(yōu)異成績。
圖1:QuAC官方Leaderboard(截止2021/10)
論文標(biāo)題:Learn to Copy from the Copying History: Correlational Copy Network for Abstractive Summarization
發(fā)表刊物:EMNLP 2021
Motivation: 復(fù)制機(jī)制是生成式自動(dòng)文摘模型的常用模塊,已有模型使用注意力概率作為復(fù)制概率,忽視了復(fù)制歷史的影響。
Solution: 本論文提出了一種新的復(fù)制機(jī)制(Correlational Copying Network,CoCoNet),該機(jī)制可以使用復(fù)制歷史指導(dǎo)當(dāng)前的復(fù)制概率。具體來說,CoCoNet在計(jì)算每一步的復(fù)制概率時(shí),不僅會(huì)參考當(dāng)前時(shí)刻的注意力概率,還會(huì)通過相似度和距離度量,將歷史時(shí)刻的復(fù)制概率轉(zhuǎn)移到當(dāng)前時(shí)刻,從而提高復(fù)制行為的連貫性和合理性。此外,我們還提出一種Correlational Copying Pre-training (CoCo-Pretrain) 子任務(wù),進(jìn)一步增強(qiáng)CoCoNet的復(fù)制能力。
Experimental Result:本論文提出的復(fù)制機(jī)制,可以應(yīng)用于一系列文本摘要相關(guān)應(yīng)用中。我們?cè)谛侣務(wù)獢?shù)據(jù)集(CNN/DailyMail dataset)和對(duì)話摘要數(shù)據(jù)集(SAMSum dataset)上的效果(如表1、2)超過已有的生成式摘要模型。
表1:ROUGE scores on the CNN/DailyMail dataset.
表2:ROUGE scores on the SAMSum dataset.
論文標(biāo)題:K-PLUG: Knowledge-injected Pre-trained Language Model for Natural Language Understanding and Generation in E-Commerce
論文鏈接:https://arxiv.org/abs/2104.06960
發(fā)表刊物:Findings of EMNLP 2021
Motivation: 預(yù)訓(xùn)練語言模型在多個(gè)NLP任務(wù)展示出超越非訓(xùn)練語言模型的效果。然而,預(yù)訓(xùn)練語言模型在領(lǐng)域遷移過程中,性能會(huì)受到影響。特定領(lǐng)域的預(yù)訓(xùn)練語言模型對(duì)該領(lǐng)域的下游應(yīng)用會(huì)有很大幫助。
Solution: 本論文為電商領(lǐng)域設(shè)計(jì)了一個(gè)大規(guī)模預(yù)訓(xùn)練語言模型,定義了一系列電商領(lǐng)域知識(shí),包括產(chǎn)品詞、商品賣點(diǎn)、商品要素和商品屬性。并針對(duì)這些知識(shí),提出了相應(yīng)的語言模型預(yù)訓(xùn)練任務(wù),包括面向知識(shí)的掩碼語言模型、面向知識(shí)的掩碼序列到序列生成、商品實(shí)體的要素邊界識(shí)別、商品實(shí)體的類別分類、商品實(shí)體的要素摘要生成。
Result:本論文提出的預(yù)訓(xùn)練語言模型可應(yīng)用于多個(gè)電商領(lǐng)域的文本理解和生成任務(wù),在包括電商知識(shí)圖譜補(bǔ)齊、電商客服多輪對(duì)話、商品自動(dòng)文摘等多個(gè)任務(wù)上取得最佳性能。
論文標(biāo)題:RevCore: Review-Augmented Conversational Recommendation
論文鏈接:https://arxiv.org/abs/2106.00957
發(fā)表刊物:Findings of ACL 2021
Motivation: 對(duì)話推薦系統(tǒng)(Conversational Recommender System)是基于自然語言的多輪對(duì)話理解用戶的需求和偏好,并根據(jù)當(dāng)前動(dòng)態(tài)的需求和偏好推薦商品和服務(wù)。對(duì)話推薦系統(tǒng)中長期存在2個(gè)挑戰(zhàn)。1)對(duì)話中信息量較少導(dǎo)致的推薦準(zhǔn)確度較低的問題; 2)數(shù)據(jù)收集過程缺乏專業(yè)性導(dǎo)致生成的對(duì)話回復(fù)信息量較少的問題。
Solution: 本論文提出使用非結(jié)構(gòu)化的評(píng)論作為外部知識(shí)緩解對(duì)話推薦系統(tǒng)中由于信息量較少而存在的推薦準(zhǔn)確度低且回復(fù)話術(shù)信息量不足的問題。該方法首先突破了非結(jié)構(gòu)性文本(評(píng)論)與結(jié)構(gòu)化知識(shí)(知識(shí)圖譜)在對(duì)話推薦系統(tǒng)的技術(shù)性融合的問題。其次,通過在對(duì)話推薦過程中檢索出情感一致的評(píng)論,進(jìn)一步提高對(duì)用戶推薦的契合度。本論文提出的RevCore系統(tǒng)框架圖如下圖。
Experimental Result: 本方法在保證外部文本與原始數(shù)據(jù)邏輯一致的前提下,在對(duì)話質(zhì)量和推薦質(zhì)量上均有較大提升。情感一致的用戶評(píng)論的引入,首先提高了推薦系統(tǒng)的準(zhǔn)確度。此外,由于更加豐富的實(shí)體信息以及適當(dāng)?shù)慕7绞教岣吡藢?duì)話回復(fù)的多樣性和豐富度。該框架可較好的應(yīng)用在工業(yè)界的對(duì)話推薦系統(tǒng)中,包括智能客服、智能家居、智能對(duì)話機(jī)器人等。該框架還具有較強(qiáng)的可移植性,RevCore在電影對(duì)話推薦領(lǐng)域獲得的提升,將給予其他各個(gè)行業(yè)啟發(fā),利用外部評(píng)論數(shù)據(jù)創(chuàng)造更好的對(duì)話推薦引擎,提供更好的行業(yè)服務(wù)。
論文標(biāo)題:DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training Encoder
論文鏈接:https://arxiv.org/abs/2109.10480
發(fā)表刊物:CIKM 2021
Motivation:對(duì)話文本由于其特殊的角色信息和層次化結(jié)構(gòu),普通的文本編碼器在對(duì)話任務(wù)的下游任務(wù)中往往不能發(fā)揮最好的效果。在這篇文章中,受到自監(jiān)督學(xué)習(xí)在NLP任務(wù)中廣泛應(yīng)用的啟發(fā),我們提出了基于自監(jiān)督學(xué)習(xí)、面向?qū)υ挼念A(yù)訓(xùn)練模型DialogueBERT。
Solution:這篇論文提出了五個(gè)面向?qū)υ挼淖员O(jiān)督預(yù)訓(xùn)練任務(wù),包括消息掩碼建模、單詞掩碼建模、消息替換建模、消息順序交換建模、答復(fù)對(duì)比建模,基于Transformer模型架構(gòu),利用海量對(duì)話數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,抽取其中的單詞、對(duì)話輪次、對(duì)話角色信息作為輸入,學(xué)習(xí)對(duì)話文本的上文結(jié)構(gòu)信息和對(duì)話場景語義表示。
Experimental Result:實(shí)驗(yàn)證明我們的模型相比其他面向?qū)υ挼念A(yù)訓(xùn)練模型,可以較好的改進(jìn)意圖識(shí)別、實(shí)體識(shí)別以及情緒識(shí)別等下游對(duì)話理解任務(wù)的表現(xiàn)。DilaogueBERT直接利用海量無監(jiān)督對(duì)話數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),證明了基于對(duì)話語料的預(yù)訓(xùn)練的可行性。相比傳統(tǒng)的基于監(jiān)督學(xué)習(xí)的編碼器和基于通用自然語言模型的編碼器,DialogueBERT準(zhǔn)確率更高,能夠獲得更加魯棒的對(duì)話編碼效果。本文還分析了多種針對(duì)自監(jiān)督學(xué)習(xí)的任務(wù)特點(diǎn),對(duì)于未來的對(duì)話自監(jiān)督編碼研究具有一定借鑒意義。
論文標(biāo)題:Multi-hop Attention Graph Neural Networks
論文鏈接:https://arxiv.org/abs/2009.14332
發(fā)表刊物:IJCAI 2021
Motivation: 目前基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)中的Attention僅局限于直接鄰居,因此每一層的感受域只局限在單跳結(jié)構(gòu)中,學(xué)習(xí)多跳結(jié)構(gòu)信息需疊加更多的層數(shù),然而更多層數(shù)通常會(huì)帶來過平滑問題(Over-smoothing Problem)。同時(shí)這些Attention的計(jì)算只與節(jié)點(diǎn)表示本身有關(guān),并沒有考慮到圖結(jié)構(gòu)的上下文信息,而將多跳近鄰結(jié)構(gòu)化信息考慮到圖神經(jīng)網(wǎng)絡(luò)的注意力計(jì)算很少被研究。
Solution: 本論文提出一種基于多跳注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型(MAGNA),包括圖注意力擴(kuò)散模塊, 深層Feed Forward聚合模塊,Layer Normalization以及殘差鏈接,基于圖擴(kuò)散(Graph Diffusion)的注意力計(jì)算,能夠在單層圖神經(jīng)網(wǎng)絡(luò)中具有多跳結(jié)構(gòu)的感受域。同時(shí)給出了基于譜特征分析,證明多跳diffusion attention相比單跳attention具有更好的圖結(jié)構(gòu)學(xué)習(xí)能力。
Experimental Result:本論文提出的模型,在半監(jiān)督圖節(jié)點(diǎn)分類問題以及知識(shí)圖譜補(bǔ)全任務(wù)上均取得SOTA的性能,同時(shí)能夠解決深層圖神經(jīng)網(wǎng)絡(luò)通常出現(xiàn)的過平滑問題。
Impact: 基于圖擴(kuò)散注意力計(jì)算是將稀疏圖信息和自注意力計(jì)算統(tǒng)一到一個(gè)模型中的關(guān)鍵步驟,在避免過擬合的同時(shí)提高了模型性能,并且只引入了常數(shù)因子的訓(xùn)練時(shí)間開銷。自注意力機(jī)制在序列(如NLP)數(shù)據(jù)上取得巨大成功,而基于圖擴(kuò)散的注意力機(jī)制在計(jì)算任何兩點(diǎn)之間的注意力的同時(shí)兼顧到結(jié)構(gòu)信息。因此,本論文提出的模型有利于統(tǒng)一序列數(shù)據(jù)和圖結(jié)構(gòu)數(shù)據(jù)學(xué)習(xí)或者設(shè)計(jì)新的算法在考慮結(jié)構(gòu)化信息的同時(shí)進(jìn)行序列分析(如將語法樹信息融合進(jìn)文本情感分析/利用Diffusion Attention方法實(shí)現(xiàn)稀疏化Transformer)。
論文標(biāo)題:Incremental Learning for End-to-End Automatic Speech Recognition
論文鏈接:https://arxiv.org/abs/2005.04288v3
發(fā)表刊物:ASRU 2021
Motivation: 語音識(shí)別增量學(xué)習(xí)旨在保留模型原有識(shí)別能力的同時(shí),提高其在新場景下的語音識(shí)別能力,具有廣泛的應(yīng)用價(jià)值。然而,在模型原始訓(xùn)練數(shù)據(jù)因隱私、存儲(chǔ)等問題而不再可用的情況下,語音識(shí)別模型在增量學(xué)習(xí)過程中往往面臨“災(zāi)難性遺忘”。
Solution: 本論文提出了一種新的基于模型可解釋性的知識(shí)蒸餾方法,并將其與基于模型輸出響應(yīng)的知識(shí)蒸餾方法相結(jié)合,以使得在僅采用新場景數(shù)據(jù)進(jìn)行語音識(shí)別增量學(xué)習(xí)的過程中,保留原模型的輸出結(jié)果和得到該輸出結(jié)果的“原因”,從而有效抑制模型對(duì)原有知識(shí)的遺忘。
Experimental Result:在開源數(shù)據(jù)集和實(shí)際應(yīng)用場景數(shù)據(jù)集上的增量學(xué)習(xí)實(shí)驗(yàn)結(jié)果表明,在抑制模型對(duì)原有知識(shí)的遺忘方面,本論文方法顯著優(yōu)于現(xiàn)有方法。本論文提出的方法在無需訪問模型原始訓(xùn)練數(shù)據(jù)的條件下,僅利用原模型和新場景的語音數(shù)據(jù)進(jìn)行增量訓(xùn)練,能夠在讓模型快速適應(yīng)新任務(wù)場景(如新口音、新術(shù)語、新聲學(xué)環(huán)境等)的同時(shí),保留模型原有的識(shí)別性能。
論文標(biāo)題:Learning to Compose Stylistic Calligraphy Artwork with Emotions
發(fā)表刊物:ACM Multimedia 2021 (Oral)
Motivation:情緒在書法創(chuàng)作中發(fā)揮了非常重要的作用,它讓書法作品更加有藝術(shù)性和感染力。之前的工作忽略了情感在書法創(chuàng)作中的重要性,并且局限于單字書法的圖像生成,沒有考慮篇章布局。在這篇文章中,我們提出了一種情緒驅(qū)動(dòng)的、篇章級(jí)的書法生成框架。
Solution:我們的模型可以從輸入文本中檢測(cè)用戶情感,基于生成對(duì)抗網(wǎng)絡(luò)生成字級(jí)別書法圖片,最后基于循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)書法篇章布局,合成具有藝術(shù)性的風(fēng)格化書法作品。該研究是業(yè)界第一篇基于情緒的、篇章級(jí)的風(fēng)格化書法生成工作。
Experimental Result:實(shí)驗(yàn)顯示,我們提出的模型相比之前書法生成模型和圖像風(fēng)格轉(zhuǎn)換模型,在真實(shí)書法數(shù)據(jù)集上可以獲得更好的內(nèi)容正確性和風(fēng)格一致性。人工評(píng)估的結(jié)果也顯示我們提出的模型生成的書法作品更具有藝術(shù)性。此外,本文提出的圖像風(fēng)格遷移算法還可以廣泛應(yīng)用到計(jì)算機(jī)視覺的圖像生成任務(wù)中,包括個(gè)性化廣告圖片生成、圖片特效濾鏡等應(yīng)用場景。
技術(shù)的創(chuàng)新發(fā)展與應(yīng)用,有效推動(dòng)了產(chǎn)業(yè)數(shù)字化、智能化的發(fā)展進(jìn)程,而要實(shí)現(xiàn)更高層次的創(chuàng)新發(fā)展,離不開人工智能的堅(jiān)實(shí)助力。本次8篇論文在國際學(xué)術(shù)會(huì)議中發(fā)表,是京東云在人工智能領(lǐng)域集中爆發(fā)的重要體現(xiàn)。未來,京東云將繼續(xù)沿著以AI推動(dòng)產(chǎn)業(yè)數(shù)字化的方向,加快推進(jìn)產(chǎn)學(xué)研用一體化應(yīng)用,構(gòu)筑“技術(shù)+場景”的創(chuàng)新應(yīng)用新生態(tài),在世界舞臺(tái)上彰顯中國企業(yè)的技術(shù)實(shí)力。
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。