0
本文作者: 我在思考中 | 2022-04-01 15:26 |
編輯丨陳彩嫻
本文對(duì)視覺-語(yǔ)言(VL)智能按時(shí)間順序進(jìn)行了全面調(diào)研,并將這一領(lǐng)域的發(fā)展總結(jié)為三個(gè)階段:
第一個(gè)階段是2014-2018年,其間,專門的模型被設(shè)計(jì)用于不同的任務(wù)。第二個(gè)時(shí)代是2019-2021年,在此期間,通過使用有著高質(zhì)量標(biāo)簽的VL數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型能夠?qū)W習(xí)視覺和語(yǔ)言的聯(lián)合表征。最后,隨著2021年CLIP的出現(xiàn),第三個(gè)時(shí)代開始了,此時(shí)研究人員尋求在更大的弱標(biāo)簽數(shù)據(jù)集上預(yù)訓(xùn)練VL模型,并通過VL預(yù)訓(xùn)練獲得性能強(qiáng)大的基于零樣本或少樣本的視覺模型。
我們相信這篇綜述將有助于人工智能(AI)和機(jī)器學(xué)習(xí)(ML)的研究人員和實(shí)踐者,特別是那些對(duì)計(jì)算機(jī)視覺和自然語(yǔ)言處理感興趣的人。
論文地址:https://arxiv.org/pdf/2203.01922.pdf
計(jì)算機(jī)視覺(CV)和自然語(yǔ)言處理(NLP)是人工智能的兩大分支,它們專注于在視覺和語(yǔ)言上模擬人類智能。在過去的十年中,深度學(xué)習(xí)極大地推進(jìn)了單模態(tài)學(xué)習(xí)在這兩個(gè)領(lǐng)域的發(fā)展,并在一系列任務(wù)上取得了先進(jìn)的成果。深度學(xué)習(xí)顯著進(jìn)步的核心在于GPU的快速發(fā)展和大規(guī)模數(shù)據(jù)集的可用出現(xiàn),這些加速了深度學(xué)習(xí)模型的大規(guī)模訓(xùn)練。
隨著深度學(xué)習(xí)的發(fā)展,我們也看到了一系列功能強(qiáng)大的神經(jīng)網(wǎng)絡(luò)的發(fā)展。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)通常是由多層線性層和非線性激活組成的多層感知器(MLP)。LeCun等人于1998提出了卷積神經(jīng)網(wǎng)絡(luò)(CNN),將平移不變性作為對(duì)2D視覺輸入的更好的歸納偏差,這啟發(fā)了大量的深度神經(jīng)網(wǎng)絡(luò),包括AlexNet,VGGNet, GoogleNet和ResNet。
另一個(gè)主要的突破是自然語(yǔ)言處理(NLP)領(lǐng)域的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它提出了循環(huán)神經(jīng)元用于序列數(shù)據(jù)建模。為了緩解長(zhǎng)序列訓(xùn)練中的梯度消失和梯度爆炸問題,LSTM(RNN的一種變體)和GRU(LSTM的一種更高效的版本)被提出。NLP的另一個(gè)重大突破是Transformer,它利用注意力機(jī)制追求更好的語(yǔ)言表征。使用多個(gè)堆疊的注意力層,Transformer可以以高并行性在全局范圍內(nèi)融合語(yǔ)言符號(hào)的信息,這有利于有效的表征和大規(guī)模的訓(xùn)練。
雖然我們?cè)趩文B(tài)領(lǐng)域技術(shù)取得了鼓舞人心的進(jìn)展,但現(xiàn)實(shí)世界的問題往往是涉及多模態(tài)的。例如,自動(dòng)駕駛汽車應(yīng)該做到能夠處理人類的命令(語(yǔ)言)、交通信號(hào)(視覺)、道路狀況(視覺和聲音)。即便單模態(tài)學(xué)習(xí)也能從多模態(tài)學(xué)習(xí)中受益。例如,語(yǔ)言學(xué)習(xí)需要感知,而感知是許多語(yǔ)義公理的基礎(chǔ)。
感知是人類理解物質(zhì)世界的方式,決定了人類語(yǔ)言背后的意義。由于我們聽到和看到的是同樣的事情,一些知識(shí)便被留下來作為常識(shí),這些常識(shí)在我們的語(yǔ)言中是沒有記錄的。即便僅僅在語(yǔ)言領(lǐng)域,演講也比純文本包含更多有用的信息,例如,韻律可以暗示情感。
多模態(tài)感知在多模態(tài)和單模態(tài)任務(wù)中都有幫助,因此誕生了大量的相關(guān)研究工作。在多模態(tài)領(lǐng)域中,由于視覺是人類用于理解環(huán)境最重要的感官之一,并且語(yǔ)言-視覺特征結(jié)合能夠極大地改善視覺和視覺-語(yǔ)言任務(wù)的表現(xiàn),在視覺-語(yǔ)言集成的相關(guān)研究獲得到許多的關(guān)注。此外,視覺語(yǔ)言智能的普及還得益于該領(lǐng)域豐富的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)。
解決特定任務(wù)VL問題的雄心推動(dòng)了VL學(xué)習(xí)的初步發(fā)展。這些VL問題包括圖像字幕、視覺問答(VQA)、圖像-文本匹配等。Xu一些人于2015年的工作集成了一個(gè)CNN圖像編碼器和一個(gè)RNN文本解碼器用于圖像說明。Antol等人于2016年通過將圖像和文本映射到相同的潛在空間并從潛在表征中預(yù)測(cè)答案來解決VQA任務(wù)。Lee等人于2018年通過計(jì)算圖像和文本在句子級(jí)別或標(biāo)記級(jí)別上的相似度來進(jìn)行圖像-文本匹配。這些模型是為各種數(shù)據(jù)集的特定問題量身定制的,其中每個(gè)模型只能解決一個(gè)任務(wù)。
受語(yǔ)言和視覺的預(yù)訓(xùn)練和微調(diào)的流行啟發(fā),視覺和語(yǔ)言的跨學(xué)科領(lǐng)域迎來了一個(gè)新時(shí)代: 通過圖像-文本對(duì)的預(yù)訓(xùn)練來學(xué)習(xí)視覺和語(yǔ)言的聯(lián)合表征。VLP模型的興起主要是受到了架構(gòu)設(shè)計(jì)和訓(xùn)練方法中語(yǔ)言模型的啟發(fā)。例如,最近的許多研究采用了與BERT相似的架構(gòu)和訓(xùn)練方法。由于缺乏足夠大規(guī)模的人工標(biāo)注數(shù)據(jù),VL學(xué)習(xí)的發(fā)展面臨著嚴(yán)峻的挑戰(zhàn)。最近,一些研究通過采用對(duì)比學(xué)習(xí)和利用大規(guī)模網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)學(xué)習(xí)視覺語(yǔ)言特征而打破了這一限制,它們所獲得的特征可用于零樣本學(xué)習(xí)。
隨著VL領(lǐng)域的快速發(fā)展,目前亟需一個(gè)對(duì)該領(lǐng)域現(xiàn)有研究的全面調(diào)研。本文旨在提供一個(gè)結(jié)構(gòu)化的、關(guān)于VL領(lǐng)域的最新進(jìn)展的綜述,以幫助研究人員獲得一個(gè)整體的VL領(lǐng)域的情況,并更好地理解最新的研究成果。
我們將VL學(xué)習(xí)的發(fā)展分為三個(gè)階段。第一個(gè)是從2014-2018年,其間,專門的模型被設(shè)計(jì)用于不同的任務(wù)。第二個(gè)時(shí)代是2019-2021年,在此期間,通過使用有著高質(zhì)量標(biāo)簽的VL數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型能夠?qū)W習(xí)視覺和語(yǔ)言的聯(lián)合表征。最后,隨著2021年CLIP的出現(xiàn),第三個(gè)時(shí)代開始了,此時(shí)研究人員尋求在更大的弱標(biāo)簽數(shù)據(jù)集上預(yù)訓(xùn)練VL模型,并通過VL預(yù)訓(xùn)練獲得性能強(qiáng)大的基于零樣本或少樣本的視覺模型。
回顧VL智能的整個(gè)發(fā)展過程,我們發(fā)現(xiàn)其總體目標(biāo)是學(xué)習(xí)良好的視覺特征。一個(gè)好的視覺特征應(yīng)該具有三個(gè)屬性,即對(duì)象級(jí)別、語(yǔ)言對(duì)齊和語(yǔ)義豐富。對(duì)象級(jí)別意味著視覺和語(yǔ)言特征的細(xì)粒度應(yīng)該分別與對(duì)象級(jí)別和單詞級(jí)別中的保持一致。語(yǔ)言對(duì)齊強(qiáng)調(diào)的是與語(yǔ)言對(duì)齊的視覺特征可以幫助完成視覺任務(wù)。語(yǔ)義豐富是指不受領(lǐng)域限制地從大規(guī)模數(shù)據(jù)中學(xué)習(xí)特征。
在VL的第一個(gè)時(shí)代,相關(guān)科學(xué)研究工作的目的是解決具體的問題,而不是學(xué)習(xí)上述良好的特征。在第二個(gè)時(shí)代,研究人員基于圖像-文本對(duì)來訓(xùn)練模型,以獲得語(yǔ)言對(duì)齊的視覺特征。這個(gè)時(shí)代的一些研究成果采用檢測(cè)到的區(qū)域作為圖像特征,從而學(xué)習(xí)對(duì)象級(jí)別的特征。只有在第三個(gè)時(shí)代,研究人員才能處理大規(guī)模的數(shù)據(jù)集并使用蘊(yùn)含豐富語(yǔ)義信息的特征來預(yù)訓(xùn)練。
早期的 VL 方法是針對(duì)特定任務(wù)設(shè)計(jì)的。VL領(lǐng)域包含廣泛任務(wù),包括圖像說明,視覺問答,圖文匹配,視覺對(duì)話等。
本節(jié)中,我們?cè)敿?xì)介紹三個(gè)最常見的任務(wù):圖像說明、視覺問答和圖文匹配。我們總結(jié)了特定任務(wù)方法的發(fā)展是從全局表征到細(xì)粒度的以對(duì)象為中心的表征。
大多數(shù)VL任務(wù)有三個(gè)階段,包括全局向量表征和簡(jiǎn)單融合;網(wǎng)格特征表征和跨模態(tài)注意力機(jī)制和以對(duì)象為中心的特征表征和自底向上自頂向下的attention。這三個(gè)階段的代表工作如圖1所示。
圖1所示,這三個(gè)階段的任務(wù)具體方法。主要區(qū)別在于視覺representation的粒度和視覺與語(yǔ)言特征融合的方式。
任務(wù)定義: 圖像說明的目標(biāo)是為給定的圖像生成“標(biāo)題”,即用一句話總結(jié)圖像內(nèi)容。標(biāo)題通常包含感興趣的對(duì)象、對(duì)象的行為以及對(duì)象之間的位置關(guān)系。
方法: 深度學(xué)習(xí)出現(xiàn)之前,早期圖像說明方法主要基于規(guī)則。它們首先識(shí)別對(duì)象及其關(guān)系,然后根據(jù)預(yù)定義的規(guī)則生成標(biāo)題。這種早期的方法由于視覺識(shí)別器詞匯量有限以及基于規(guī)則的方法在處理人類語(yǔ)言中復(fù)雜場(chǎng)景的局限性的原因而效果有限。
深度學(xué)習(xí)技術(shù)的突破極大地增強(qiáng)了圖像說明功能。Seq2Seq在機(jī)器翻譯方面取得了巨大的成功,它利用文本編碼器對(duì)源語(yǔ)言的文本進(jìn)行編碼,利用文本解碼器從目標(biāo)語(yǔ)言生成文本。
在Seq2Seq的編碼器-解碼器結(jié)構(gòu)的基礎(chǔ)上,Xu等人提出用GoogleNet的圖像編碼器替代文本編碼器,并取得了當(dāng)時(shí)最前沿的性能。于是這種編碼-解碼的結(jié)構(gòu)開始流行起來,并被后續(xù)的工作廣泛采用。這個(gè)結(jié)構(gòu)稱為img2seq,如圖2所示。
早期研究采用CNN模型作為圖像編碼器進(jìn)行提取一種全局的CNN特性,將其作為初始隱藏狀態(tài)輸入文本解碼器。m-RNN和LRCN提出將全局CNN特征添加到LSTM解碼器的每一步。
圖2所示,img2seq結(jié)構(gòu)包含圖像編碼器(如CNN)和語(yǔ)言解碼器(如LSTM)。
全局CNN特征有一個(gè)明顯的弱點(diǎn),因?yàn)榻獯a器不能像人類那樣聚焦于圖像的重要區(qū)域。為解決這個(gè)問題,引入了注意機(jī)制。
Xu等人于2015年提出了一種將注意力機(jī)制引入特征的方法。假設(shè)CNN特征提取器的輸出特征圖形狀為(H, W, C),其中H, W為特征圖的高度和寬度,C為特征維數(shù)。feature map可以沿空間維度扁平化為H × W的C個(gè)緯度的網(wǎng)格特征。對(duì)于LSTM解碼器的每個(gè)cell,隱藏狀態(tài)都要關(guān)注網(wǎng)格特征,以決定關(guān)注哪個(gè)網(wǎng)格。
與卷積相比,注意機(jī)制具有以下優(yōu)點(diǎn)。它通過對(duì)重要的網(wǎng)格特征給予更高的attention權(quán)重,使模型能夠聚焦于圖像的某些部分。此外,該模型能夠?qū)W習(xí)與人類直覺高度相似的對(duì)齊方式。模型的可解釋性也可以通過可視化的attention分?jǐn)?shù)得到改善,這樣可能有助于排除網(wǎng)絡(luò)錯(cuò)誤。
然而,將一幅圖像分割成大小相同的網(wǎng)格只是一種執(zhí)行attention的樸素方法,因?yàn)榫W(wǎng)格與對(duì)象的對(duì)應(yīng)關(guān)系很差。為了解決這個(gè)問題,一些研究人員試圖將注意力與更有意義的區(qū)域聯(lián)系起來。
Anderson等人(2018)提出了一種自底向上和自頂向下的注意力方法(BUTD),將注意力與檢測(cè)模型獲得的顯著區(qū)域進(jìn)行對(duì)應(yīng)。BUTD使用在視覺基因組上預(yù)訓(xùn)練的Faster-RCNN模型提取區(qū)域特征。由于檢測(cè)到的對(duì)象區(qū)域通常包含有意義的視覺概念,且能夠與人類語(yǔ)言更好地匹配,因此BUTD顯著提高了圖像說明和VQA的性能。因此,預(yù)訓(xùn)練的檢測(cè)器在后續(xù)的VL研究中被廣泛采用。
注意力機(jī)制運(yùn)用的方式也有一些不同。例如,Lu等認(rèn)為因?yàn)橛行﹩卧~與視覺特征無關(guān),解碼器不需要一直保持關(guān)注視覺特征。因此,他們提議用一個(gè)門來決定注意力機(jī)制是否參與其中。AoA設(shè)計(jì)了一個(gè)特殊的“注意力疊加機(jī)制”的圖像說明任務(wù)。在標(biāo)準(zhǔn)注意力機(jī)制之后,它們將被關(guān)注的向量和query連接起來。然后由串聯(lián)向量生成信息向量和注意門,將信息向量與信息向量相乘得到輸出。
除上述工作,也有不運(yùn)用注意力機(jī)制的工作。例如,Neural Baby Talk首先生成一個(gè)句子模板,然后用圖像中檢測(cè)到的概念填充它。Cornia等人通過預(yù)測(cè)名詞塊的序列來生成一個(gè)句子。它們首先檢測(cè)區(qū)域,然后使用排序網(wǎng)絡(luò)對(duì)區(qū)域進(jìn)行排序。最后,每個(gè)區(qū)域?qū)⒈晦D(zhuǎn)換成一個(gè)名詞塊來組成句子。
綜上所述,早期圖像說明方法的發(fā)展主要有兩個(gè)方面,即視覺表征和語(yǔ)言解碼。視覺表征從圖像級(jí)的全局特征發(fā)展到細(xì)粒度和對(duì)象級(jí)的區(qū)域特征,語(yǔ)言解碼從LSTM發(fā)展到基于注意力機(jī)制的模型。
任務(wù)定義: 給定一個(gè)圖像-問題對(duì),視覺問答要求根據(jù)圖像回答一個(gè)問題。大多數(shù)研究都將視覺問答視為一個(gè)基于預(yù)定義答案集的分類問題。例如,VQA v2 有大約2K個(gè)預(yù)定義答案。
方法: 普遍的視覺問答是LSTM問題編碼器和VGG圖像編碼器的組合。輸出圖像潛入和問題嵌入,它們通過逐點(diǎn)相乘來簡(jiǎn)單地進(jìn)行融合。然后,融合向量經(jīng)過一個(gè)線性層和一個(gè)Softmax層,輸出選擇每個(gè)候選答案的概率。模型的體系結(jié)構(gòu)如圖3所示。視覺問答中的后續(xù)研究通常采用相同的方法原型。
圖3所示。vanilla VQA的體系結(jié)構(gòu)包含一個(gè)CNN模型來編碼輸入圖像和一個(gè)LSTM模型來編碼輸入問題。將編碼后的圖像和問題特征進(jìn)行點(diǎn)積合并,然后通過全連通層來預(yù)測(cè)候選答案的概率。
早期研究通常采用全局圖像表征和簡(jiǎn)單融合的方式。Malinowski等于2015提出將CNN圖像特征輸入到問題編碼器的每個(gè)LSTM 單元中。同年,Gao等使用了一個(gè)共享的LSTM來編碼問題和解碼答案。他們將CNN圖像特征與每個(gè)解碼器單元的輸出融合,逐字生成答案。
問題回答通常只與圖像的某些區(qū)域有關(guān)。因此,由于不相關(guān)區(qū)域帶來的噪聲,全局表征只會(huì)導(dǎo)致次優(yōu)解。Yang 等人于2016年提出了堆疊注意網(wǎng)絡(luò)(stacking Attention Network, SAN)將多個(gè)問題引導(dǎo)的注意層堆疊起來。在每一層中,問題的語(yǔ)義表示被用作對(duì)圖像網(wǎng)格的查詢。SAN是是一個(gè)驗(yàn)證視覺問答中注意力有效性的工作。Fukui等人同樣采用了網(wǎng)格特征,他們通過雙線性池化融合圖像和語(yǔ)言特征。
正如我們?cè)趫D像說明任務(wù)中所說,網(wǎng)格特征具有它的局限性。針對(duì)這個(gè)問題,Shih等人提出使用邊緣框定位出的區(qū)域特征作為視覺表征。BUTD預(yù)訓(xùn)練了一個(gè)強(qiáng)大的檢測(cè)器,并使用問題特征作為queries來關(guān)注區(qū)域特征。Lu等人認(rèn)為對(duì)文字的關(guān)注與對(duì)圖像的關(guān)注同等重要。因此,他們開發(fā)了一種聯(lián)合執(zhí)行文本引導(dǎo)的圖像注意力和圖像引導(dǎo)的文本注意力的共注意力方式。
除注意力以外,還有其他的模態(tài)融合策略。Ren等人將圖像特征視為語(yǔ)言標(biāo)記。它們將圖像嵌入與語(yǔ)言標(biāo)記連接起來作為L(zhǎng)STM的輸入。Kim等人提出了一種用于模態(tài)融合的元素乘法迭代方法,名為多模態(tài)殘差網(wǎng)絡(luò)。MUTAN提出了模式間參數(shù)化的雙線性相互作用。雖然融合圖像和語(yǔ)言特征的方法有很多,但注意力機(jī)制依舊是最常用的一種。
圖像問答的核心是獲取圖像和語(yǔ)言(問題)的聯(lián)合表征。該領(lǐng)域的研究人員通過多種方式來更好地編碼和融合圖像與語(yǔ)言,為后續(xù)的視覺學(xué)習(xí)表征VLP方法奠定了基礎(chǔ)。該領(lǐng)域大多數(shù)工作都是將圖像和語(yǔ)言獨(dú)立編碼,然后進(jìn)行融合,這類似于視覺學(xué)習(xí)表征VLP中的雙流方法。Ren等人將圖像嵌入視為一種語(yǔ)言標(biāo)記,類似于單流方法。
任務(wù)定義: 圖像-文本匹配 (ITM),或說圖文檢索,是視覺領(lǐng)域的基本課題之一。給定一個(gè)特定模態(tài) (視覺或語(yǔ)言) 的query ,它的目標(biāo)是從另一個(gè)模態(tài)中找到語(yǔ)義上最接近的目標(biāo)。根據(jù)query和目標(biāo)模式,它包含兩個(gè)子任務(wù): 圖像-文本檢索和文本-圖像檢索。
方法: 圖像-文本匹配的核心是計(jì)算圖像與文本之間的相似度或距離。一個(gè)被廣泛采用的模型是將圖像和文本映射到共享的嵌入空間,然后計(jì)算它們的相似性。所匹配出的圖像結(jié)果預(yù)期與句子的相似度最高。
早期方法主要采用全局特征對(duì)圖文信息進(jìn)行編碼。Kiros等提出了一種基于鉸鏈的三聯(lián)體排序損失的交叉視圖表示方法。Faghri等人考慮硬負(fù)樣本因素來提高性能。Karpathy等人提出“深度片段” (Deep Fragment),這是首次嘗試在圖像端和文本端都使用細(xì)粒度表示的方法。
“Deep Fragment”的體系結(jié)構(gòu)如圖4所示。與直接表示整個(gè)圖像和句子不同,該方法將每個(gè)圖像片段和句子片段映射到跨模態(tài)嵌入空間中。然后于不同模式之間排列片段。由于一個(gè)圖像區(qū)域可能與多個(gè)單詞相關(guān),他們會(huì)為每個(gè)單詞的嵌入找到最相似的區(qū)域。圖像與句子的相似度是對(duì)齊后的詞對(duì)與區(qū)域?qū)Φ南嗨贫戎汀?/span>
圖4所示。Deep fragment結(jié)構(gòu)概述。左:將檢測(cè)到的對(duì)象映射到片段嵌入空間。右:依賴樹關(guān)系被編碼為片段嵌入空間。
由于注意力機(jī)制在其他視覺學(xué)習(xí)任務(wù)中取得了巨大成功,Huang等2016年提出將注意力機(jī)制引入到圖文匹配(ITM)中。他們開發(fā)了一種上下文調(diào)節(jié)的注意力方案,以關(guān)注出現(xiàn)在圖像和文本中的實(shí)例對(duì)。Nam等2017年提出了一種雙注意力框架,該框架通過多個(gè)步驟來關(guān)注圖像和文本中的特定區(qū)域,并從這兩種模態(tài)中收集重要信息。
這些方法證明了注意力機(jī)制在ITM任務(wù)中的有效性。但是它們也存在局限性,比如它們是基于多步驟的方法,并且一次只能關(guān)注一個(gè)語(yǔ)義部分。Lee等人于2018提出了一種名為SCAN的交叉注意力算法,用于計(jì)算圖像和句子之間的相似性。為實(shí)現(xiàn)交叉注意力機(jī)制,它們將圖像表示為一組區(qū)域,將句子表示為一組單詞。交叉注意的核心思想是,既要用句子作為query來關(guān)注圖像區(qū)域,也要用圖像作為query來關(guān)注單詞。
簡(jiǎn)單來說,圖文匹配本質(zhì)上是計(jì)算圖像和文本之間的相似度的問題。早期研究將圖像和文本編碼成全局特征,并通過點(diǎn)積計(jì)算它們的余弦相似度。在隨后的工作中,采用了細(xì)粒度特征-目標(biāo)級(jí)特征來代表圖像,單詞級(jí)特征來代表語(yǔ)言。他們還開發(fā)了更復(fù)雜的算法來計(jì)算相似性,比如交叉注意力的方法。
在視覺-語(yǔ)言跨學(xué)科領(lǐng)域中,有許多我們無法詳細(xì)闡述的任務(wù)。因此,我們下面簡(jiǎn)單中列出了一些重要的任務(wù),包括:
文本-圖像生成: 給定一段文本,生成包含該文本內(nèi)容的圖像。關(guān)于這部分更多細(xì)節(jié)請(qǐng)查看文章的IV-B部分。
視覺對(duì)話: 給定一個(gè)圖像,一段對(duì)話歷史,和一個(gè)關(guān)于圖像的問題,回答這個(gè)問題。
視覺推理: 與要求回答有關(guān)輸入圖像問題的VQA任務(wù)類似,視覺推理要求進(jìn)一步理解圖像的能力。視覺推理任務(wù)通常包含足夠的關(guān)于圖像中的對(duì)象、問題結(jié)構(gòu)等的注釋。
視覺蘊(yùn)涵: 給定一幅圖像和一篇文本,判斷該圖像在語(yǔ)義上是否包含輸入文本。
短語(yǔ)基礎(chǔ)和參考表達(dá)式理解: 這兩個(gè)任務(wù)需要一個(gè)模型來輸出與文本對(duì)應(yīng)的邊界框。對(duì)短語(yǔ)基礎(chǔ)而言,文本是一組短語(yǔ); 對(duì)于引用表達(dá)理解而言,文本是一種表達(dá)。
在特定任務(wù)方法的時(shí)代,研究人員為不同的任務(wù)設(shè)計(jì)了特定的模型。盡管不同任務(wù)的模型差異很大,但它們遵循著相似的軌跡。它們都有三個(gè)階段,如圖1所示。這個(gè)時(shí)代的技術(shù)發(fā)展為VLP時(shí)代奠定了基礎(chǔ)。
預(yù)訓(xùn)練和微調(diào)范式已被廣泛應(yīng)用于多個(gè)領(lǐng)域和各種下游任務(wù)。利用流行的大規(guī)模預(yù)訓(xùn)練最重要的原因在于大量可用的數(shù)據(jù)集以及GPU的快速發(fā)展。在單模態(tài)的語(yǔ)言/視覺預(yù)訓(xùn)練成功的推動(dòng)下,研究人員開始探索語(yǔ)言和視覺的聯(lián)合表征,因此提出了跨模態(tài)VLP模型。
近年來VLP模型的興起主要是受到了語(yǔ)言模型中架構(gòu)設(shè)計(jì)和訓(xùn)練方法的啟發(fā)。其中最重要的突破之一是由Vaswani等人于2017開發(fā)的用于改善語(yǔ)言表征的Transformer。使用多個(gè)堆疊的注意層,Transformer可以以高并行性在全局范圍內(nèi)融合語(yǔ)言標(biāo)記上的信息,這有利于高效的表征和大規(guī)模的訓(xùn)練。
Transformer的一個(gè)成功應(yīng)用是BERT,它利用Transformer編碼器并引入了雙向屏蔽技術(shù),允許每個(gè)語(yǔ)言標(biāo)記雙向關(guān)注其他標(biāo)記。如圖5所示,訓(xùn)練是通過用一個(gè)特殊的[MASK]標(biāo)記(即掩模)替換一些文本標(biāo)記來進(jìn)行的,并使用其上下文信息來預(yù)測(cè)每個(gè)[MASK]。
該技術(shù)可以將語(yǔ)言表征訓(xùn)練看作是一個(gè)去噪過程,在去噪過程中,輸入的句子能夠?qū)W習(xí)去用一些有噪聲的標(biāo)記進(jìn)行自我重構(gòu)。這種去噪訓(xùn)練迫使存在[MASK]的標(biāo)記利用所有不存在[MASK]的信息,從而產(chǎn)生語(yǔ)境化的表達(dá)。
基于Transformer語(yǔ)言模型開發(fā)的體系結(jié)構(gòu)設(shè)計(jì)和掩模訓(xùn)練技術(shù)是各種跨模態(tài)開發(fā)背后的主要原則,這些開發(fā)促進(jìn)了最近VLP模型的激增。圖5(b)顯示了一個(gè)簡(jiǎn)單的跨模態(tài)BERT。與語(yǔ)言訓(xùn)練類似,它對(duì)圖像進(jìn)行標(biāo)記化,并使用一定的技術(shù)將圖像與語(yǔ)言標(biāo)記一起嵌入,這些在后面將詳細(xì)介紹。通常,會(huì)將標(biāo)記化的視覺特征和文本特征一起輸入帶有掩模語(yǔ)言訓(xùn)練的Transformer編碼器,以學(xué)習(xí)聯(lián)合表征。
圖5 (a)原始的單模態(tài)BERT,其中隱藏了一些語(yǔ)言符號(hào)進(jìn)行預(yù)測(cè),以訓(xùn)練語(yǔ)言表示。(b)具有多模態(tài)的改進(jìn)BERT,其中圖像和語(yǔ)言標(biāo)記都被輸入到一個(gè)類似BERT的Transformer模型中。
在本節(jié)中,我們將介紹VLP模型的主要組成部分。如圖6所示,VLP模型中主要有三大部分,即視覺嵌入(VE)、文本嵌入(TE)和模態(tài)融合(MF)模塊。VE和TE通常分別用圖像和文本進(jìn)行預(yù)訓(xùn)練,而MF則將VE和TE提取的特征,與圖像-文本的預(yù)訓(xùn)練進(jìn)行融合。
VLP的目標(biāo)是學(xué)習(xí)對(duì)象級(jí)別語(yǔ)言對(duì)齊,語(yǔ)義豐富的視覺表征。對(duì)象級(jí)別意味著學(xué)習(xí)后的表征是詳細(xì)的,并與對(duì)象對(duì)齊,而不是針對(duì)整個(gè)圖像。使用被檢測(cè)到物體的特征來表征圖像的研究成果是對(duì)象級(jí)的。語(yǔ)義豐富力求一種能夠泛化到廣泛語(yǔ)義概念的表征,并且需要從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)。
在海量數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練對(duì)于使用較小數(shù)據(jù)集的下游任務(wù)的性能提升至關(guān)重要,因?yàn)閷W(xué)習(xí)后的表征可以在下游任務(wù)中傳遞。VLP模型已被證明是非常有效的支持下游任務(wù)的方法。
圖6 VLP模型的體系結(jié)構(gòu)通常包括視覺嵌入(VE)、文本嵌入(TE)和模態(tài)融合(MF)。(a)為雙流模型,(b)為單流模型。在雙流模型中,模態(tài)融合是可選的,由語(yǔ)言和圖像編碼器之間的交互(通常是交叉注意)完成。在單流模型中,模態(tài)融合是在一個(gè)統(tǒng)一的編碼器(通常是多層變壓器)中完成的。
深度學(xué)習(xí)本質(zhì)上是一種統(tǒng)計(jì)數(shù)據(jù)驅(qū)動(dòng)的方法,旨在從已見數(shù)據(jù)中學(xué)習(xí)映射函數(shù),以便使用學(xué)習(xí)到的映射函數(shù)對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)。請(qǐng)注意,最終目標(biāo)是在新的數(shù)據(jù)上實(shí)現(xiàn)良好的性能。在統(tǒng)計(jì)學(xué)方面,這樣的目標(biāo)被表示為最小化整個(gè)數(shù)據(jù)空間的預(yù)期損失,該損失遵循固定但未知的分布。但是,由于分布是未知的,這種預(yù)期的損失最小化并不容易處理。
在實(shí)踐中,必須從該分布中采樣數(shù)據(jù),并將經(jīng)驗(yàn)損失定義為預(yù)期損失的代替。這聽起來可能很奇怪,但實(shí)際上是機(jī)器學(xué)習(xí)中常用的做法。例如,對(duì)于判斷輸入圖像是否有貓的圖像分類問題,最實(shí)用的方法是收集有貓和無貓的訓(xùn)練圖像,然后通過最小化在該訓(xùn)練集上定義的經(jīng)驗(yàn)損失來訓(xùn)練分類器。然而,有貓和無貓圖像的分布確實(shí)是未知的。
統(tǒng)計(jì)學(xué)習(xí)理論表明,對(duì)于從足夠多未知分布中采樣的獨(dú)立同分布(iid)數(shù)據(jù),經(jīng)驗(yàn)損失最小化結(jié)果收斂于預(yù)期損失最小化結(jié)果。也就是說,漸近地,可以使用iid樣本來逼近由未知分布定義的損失函數(shù)。然而,在實(shí)踐中,數(shù)據(jù)永遠(yuǎn)不足以代表未知的分布,因此會(huì)導(dǎo)致許多缺陷,例如使用新訓(xùn)練集時(shí)性能低下、容易受到對(duì)抗性攻擊等。
預(yù)訓(xùn)練允許人們利用無限量無標(biāo)簽(或帶有弱標(biāo)簽)的數(shù)據(jù)來學(xué)習(xí)符合下游任務(wù)的特征。如此大規(guī)模的數(shù)據(jù)集有助于更好的定義預(yù)期損失近似值,以便從數(shù)據(jù)中學(xué)習(xí)更穩(wěn)健和真實(shí)的規(guī)律。由于預(yù)訓(xùn)練和微調(diào)階段之間的共享模型,在非常有限(例如,few?shot)的監(jiān)督下,微調(diào)后學(xué)習(xí)到的特征被用于下游任務(wù)時(shí)能夠有很高的精度。這使得預(yù)訓(xùn)練和微調(diào)范式成為解決(或減輕)數(shù)據(jù)短缺問題的有效方案。
文本和圖像本質(zhì)上是關(guān)于維度和結(jié)構(gòu)的不同級(jí)別的信息。為解決這種模態(tài)差異,通常使用模態(tài)嵌入,即從每個(gè)模態(tài)中獨(dú)立提取特征,然后將特征映射到共享特征空間中。如圖6所示,模態(tài)嵌入涉及視覺嵌入和文本嵌入,兩者都包含標(biāo)記化過程和嵌入過程。視覺嵌入旨在遵循文本嵌入的原理,將圖像轉(zhuǎn)換為多個(gè)標(biāo)記,其特征級(jí)別為文本標(biāo)記。Bugliarello 等進(jìn)行的消融研究證明數(shù)據(jù)集和超參數(shù)的訓(xùn)練是許多不同VLP模型性能改進(jìn)的主要原因,并且還強(qiáng)調(diào)了模態(tài)嵌入的重要性。
1)文本標(biāo)記化和嵌入
在文本嵌入之前,文本應(yīng)該被標(biāo)記化。考慮到語(yǔ)言的離散化性質(zhì),早期的工作只是將每個(gè)單詞視為一個(gè)標(biāo)記。一項(xiàng)開創(chuàng)性的研究是Word2Vec,它提出了一個(gè)連續(xù)的CBOW和一個(gè)skip?gram模型來訓(xùn)練詞向量表征。Word2Vec具有良好的計(jì)算效率,可以擴(kuò)展到大型語(yǔ)料庫(kù)并產(chǎn)生高質(zhì)量的嵌入。
然而,盡管它的詞匯量高達(dá)一百萬左右,但這種方法由于稀有或未見過的單詞而存在詞匯量不足的問題,因此難以學(xué)習(xí)諸如“est”之類的單詞子單元。為解決這個(gè)問題,Sennrich等人提出了一種子單詞標(biāo)記化的方法,該方法使用字節(jié)編碼(BPE),將單詞分割成更小的單元。子單詞標(biāo)記化被廣泛用于包括BERT在內(nèi)的許多語(yǔ)言模型中。
大多數(shù)VLP模型采用來自預(yù)訓(xùn)練BERT的文本嵌入。由于BERT是使用Transformer編碼器進(jìn)行掩碼學(xué)習(xí)訓(xùn)練的,因此它具有很強(qiáng)的雙向表征能力。
2)視覺標(biāo)記化和嵌入
與離散并排列在單個(gè)維度中的語(yǔ)言標(biāo)記不同,圖像來自高維空間并具有相互關(guān)聯(lián)的像素值。因此,圖像標(biāo)記化通常比文本標(biāo)記化更為復(fù)雜?;旧?,圖像標(biāo)記化可以分為基于區(qū)域的、基于網(wǎng)格的和基于塊的,下面對(duì)它們分別介紹。
網(wǎng)格特征被卷積特征提取器直接從大小相等的圖像網(wǎng)格中提取出來。例如,Huang等人于2021采用網(wǎng)格特征作為其VLP模型的圖像嵌入。網(wǎng)格特征的優(yōu)勢(shì)主要有兩點(diǎn):第一,方便,因?yàn)樗恍枰A(yù)訓(xùn)練的目標(biāo)檢測(cè)器。第二個(gè)是除了顯著目標(biāo)之外,網(wǎng)格特征還包含可能對(duì)下游任務(wù)有用的背景。
區(qū)域特征由預(yù)訓(xùn)練的目標(biāo)檢測(cè)器提取。最近的VLP模型采用區(qū)域特征來學(xué)習(xí)對(duì)象級(jí)聯(lián)表征。特別是,基于BUTD的工作成果,大多數(shù)VLP模型采用在Visual Genome(VG)數(shù)據(jù)集上訓(xùn)練的Faster R?CNN作為區(qū)域特征嵌入。區(qū)域特征有三個(gè)基本組成部分,分別是邊界框、對(duì)象標(biāo)簽和RoI特征(RoI池化后的特征向量)。邊界框通常在VLP中用作位置指示符,通過變換編碼到與RoI特征相同的維度空間并添加到RoI特征中。對(duì)象標(biāo)簽在訓(xùn)練方法中被廣泛使用,例如Masked Region Classification,這些稍后將在III?D3中詳細(xì)闡述。區(qū)域特征的優(yōu)勢(shì)在于它們幫助VLP模型專注于圖像中有意義的區(qū)域。這些區(qū)域通常與下游任務(wù)密切相關(guān)。
塊特征通常通過在均勻分割的圖像塊上的線性投影來提取。塊特征和網(wǎng)格特征之間的主要區(qū)別在于,網(wǎng)格特征是從卷積模型的特征圖中提取的,而塊特征直接利用線性投影。塊特征的概念首先由Vision Transformer (ViT) 引入,然后被VLP模型采用。使用塊特征的優(yōu)點(diǎn)是高效。例如,ViLT將預(yù)訓(xùn)練速度提高了10倍,是很有競(jìng)爭(zhēng)力的結(jié)果。
圖像嵌入方法通常因不同的標(biāo)記化方案而異。網(wǎng)格特征和區(qū)域特征通常來自預(yù)訓(xùn)練的卷積模型,而塊特征可以簡(jiǎn)單地通過線性層嵌入。
VLP模型的核心是模態(tài)融合,它對(duì)模態(tài)內(nèi)和模態(tài)間融合進(jìn)行建模,以產(chǎn)生圖像和文本的上下文聯(lián)合表征。MF模式可以分為雙流建模和單流建模。VLP的一般結(jié)構(gòu)如圖6所示。
1)雙流建模:雙流建模旨在將視覺和語(yǔ)言映射到相同的語(yǔ)義空間中。它是模態(tài)融合的開創(chuàng)性方法。如圖6(a)所示,它采用兩個(gè)獨(dú)立的編碼器分別學(xué)習(xí)視覺和語(yǔ)言的高級(jí)表征。雙流設(shè)計(jì)允許網(wǎng)絡(luò)深度和架構(gòu)適應(yīng)每種模式。除了每種模態(tài)內(nèi)的模態(tài)融合外,一些研究還明確設(shè)計(jì)了兩個(gè)編碼器之間的模態(tài)間交互,以實(shí)現(xiàn)不同編碼階段的模態(tài)融合。
2)單流建模:單流建模旨在學(xué)習(xí)一種聯(lián)合表征。圖像和文本標(biāo)記被連接起來并輸入到Transformer中,如圖6(b)所示。大多數(shù)VLP模型都采用這種模態(tài)融合方案。單流建模執(zhí)行隱式的模內(nèi)和模間融合,不受雙流建模中融合階段的架構(gòu)設(shè)計(jì)的限制。
為學(xué)習(xí)視覺和語(yǔ)言的聯(lián)合表征,視覺語(yǔ)言通常會(huì)在大數(shù)據(jù)集上使用多個(gè)自監(jiān)督學(xué)習(xí)損失函數(shù)對(duì)模型進(jìn)行預(yù)訓(xùn)練。目前主要有三種預(yù)訓(xùn)練方法,分別是圖像文本匹配(Image Text Matching, ITM)、掩膜語(yǔ)言建模(mask Language Modeling, MLM)和掩膜視覺建模(mask Visual Modeling, MVM)。
1)圖文匹配:
ITM的目標(biāo)是預(yù)測(cè)一對(duì)圖像和文本是否匹配。ITM可以表述為一個(gè)二元分類任務(wù)。之前的工作在特殊令牌[CLS]的輸出上應(yīng)用sigmoid函數(shù)來預(yù)測(cè)輸入的圖像和文本是否匹配。損失函數(shù)為:
其中 表示一個(gè)語(yǔ)言符號(hào)序列, 表示視覺內(nèi)容。或 以表示圖像是被匹配 或未被匹配 。
2) 掩膜語(yǔ)言建模:
Chen 等人于2020年利用MLM 激勵(lì)模型學(xué)習(xí)語(yǔ)言符號(hào)與視覺內(nèi)容之間的隱含關(guān)系。目標(biāo)是根據(jù)已知的語(yǔ)言標(biāo)記和可視內(nèi)容重構(gòu)掩膜語(yǔ)言標(biāo)記。這個(gè)目標(biāo)可以表述為:
其中表示沒有第個(gè)單詞的句子。請(qǐng)注意,盡管通常采用BPE進(jìn)行語(yǔ)言分詞,但最小的掩碼單元是一個(gè)完整的單詞,而不是一個(gè)子單詞。這是因?yàn)橛捎谛畔⑿孤叮梢院苋菀椎貜闹車淖釉~中預(yù)測(cè)出子詞。
也有改進(jìn)版本的MLM。例如,Sun等人于2019年提出了知識(shí)掩膜語(yǔ)言模型,該模型執(zhí)行短語(yǔ)級(jí)掩膜和實(shí)體級(jí)掩膜,將短語(yǔ)和實(shí)體級(jí)知識(shí)集成到語(yǔ)言表征中。對(duì)于實(shí)體級(jí)掩膜,它們將命名的實(shí)體視為一個(gè)整體。例如,J.K.羅琳(J. K. Rowling) 包含三個(gè)符號(hào),是一個(gè)人名,應(yīng)該在實(shí)體級(jí)掩膜中一起被掩膜。短語(yǔ)級(jí)別掩膜將一組詞作為一個(gè)概念單位。它們掩膜了屬于一個(gè)短語(yǔ)的所有標(biāo)記,并同時(shí)預(yù)測(cè)它們。
3) 掩膜視覺建模:
受MLM的啟發(fā),MVM被設(shè)計(jì)用來通過重構(gòu)被掩膜的視覺內(nèi)容來學(xué)習(xí)更符合實(shí)際的視覺表示。由于圖像的信息密度低于語(yǔ)言的信息密度,MVM比MLM具有更大的挑戰(zhàn)性。在重構(gòu)缺失的單詞時(shí),需要對(duì)語(yǔ)言進(jìn)行復(fù)雜的理解。
相反,缺失的圖像塊(patch)可以在不需要跨模態(tài)理解的情況下從鄰近的patch中恢復(fù)。為克服這一差距,大多數(shù)工作都是掩蓋信息密度相對(duì)較高的目標(biāo)區(qū)域。其他工作如SOHO使用視覺字典(VD)來表征視覺領(lǐng)域更全面、更緊湊的語(yǔ)義,因此它們可以像MLM一樣應(yīng)用MVM。綜上所述,主要有四種MVM方案。
1) 掩膜區(qū)預(yù)測(cè)(MRP): MRP最小化掩膜區(qū)預(yù)測(cè)出的特征與由經(jīng)過訓(xùn)練的物體檢測(cè)器輸出之間的距離。
2) 掩膜區(qū)域分類(MRC): MRC需要一個(gè)模型來預(yù)測(cè)每個(gè)掩蔽區(qū)域的對(duì)象語(yǔ)義類別。
3) 帶KL-divergence的掩膜區(qū)域分類(MRC-KL): 由于MRC的目標(biāo)標(biāo)簽不準(zhǔn)確,MRC-KL采用軟標(biāo)簽作為監(jiān)督信號(hào),這是物體探測(cè)器在SoftMax后的原始輸出。
4) 用可視化字典進(jìn)行掩膜可視化建模(MVMVD): 與具有詞匯字典的語(yǔ)言模型類似,MVMVD需要一個(gè)可視化詞匯字典(VD)。MVMVD的目標(biāo)是重構(gòu)被屏蔽的VD令牌。
有兩點(diǎn)值得注意。首先,為了鼓勵(lì)跨模態(tài)融合,一些工作,如UNITERVL,在訓(xùn)練期間每次只屏蔽一個(gè)模態(tài)的令牌,以鼓勵(lì)被屏蔽的令牌對(duì)另一個(gè)模態(tài)進(jìn)行缺失信息的處理。其次,由于相鄰的圖像網(wǎng)格高度相關(guān),MVMVD傾向于映射到相同的VD令牌; 當(dāng)執(zhí)行重構(gòu)時(shí),模型可以直接復(fù)制周圍的令牌。
因此,所有映射到相同VD令牌的視覺嵌入向量在SOHO中一起被屏蔽。盡管有上述方法,但有效的視覺建模仍然是一個(gè)具有挑戰(zhàn)性的問題。一些VLP模型(如SOHO)的消融研究的結(jié)果表明,增加MVM任務(wù)只會(huì)對(duì)性能產(chǎn)生微小的額外改善。Cao等人于2020發(fā)現(xiàn),在下游任務(wù)中,VLP模型表現(xiàn)出關(guān)注文本信息而不是視覺信息的傾向。
圖7 VLP方法的總覽。研究成果按公布時(shí)間分類。我們還展示了每個(gè)作品來自的主要機(jī)構(gòu)的標(biāo)識(shí)。
本節(jié)在介紹了VLP模型的一般流程之后,總結(jié)了跨領(lǐng)域VLP的一些開創(chuàng)性工作。受NLP和CV預(yù)訓(xùn)練成功的啟發(fā),近年來VLP領(lǐng)域的研究大量涌現(xiàn),以尋求統(tǒng)一的跨模態(tài)表征。VLP研究成果的形勢(shì)如圖7所示。我們?cè)谶@一節(jié)中詳細(xì)闡述了一些有代表性的研究。
單流模型: VideoBERT是學(xué)習(xí)視頻和語(yǔ)言聯(lián)合表征的一項(xiàng)開創(chuàng)性工作。其主要思想是將可視的和文本的標(biāo)記輸入到構(gòu)建在BERT上的單流模型中。文本標(biāo)記通過自動(dòng)語(yǔ)音識(shí)別方法將視頻語(yǔ)音轉(zhuǎn)換為文本來提取,視覺標(biāo)記通過使用卷積主干從視頻片段中提取特征來獲取。VideoBERT能夠執(zhí)行廣泛的下游分類和生成任務(wù),包括視頻說明和零樣本掩膜動(dòng)/名詞預(yù)測(cè)。請(qǐng)注意,VideoBERT是使用烹飪視頻進(jìn)行的預(yù)訓(xùn)練,其中的內(nèi)容是有教學(xué)意義且高質(zhì)量的。它假設(shè)口語(yǔ)與視覺內(nèi)容是一致的,這就限制了它只能應(yīng)用于某些視頻(例如教學(xué)型視頻)。另一個(gè)限制其泛化性的問題是其精心設(shè)計(jì)的字幕文本模板,例如模板:now let’s [MASK] the [MASK] to the [MASK], and then [MASK] the [MASK],這只適用于烹飪視頻。
Li等人提出了一個(gè)名為VisualBERT的簡(jiǎn)易單流VLP模型。提取的視覺和文本標(biāo)記被直接組合并輸入到Transformer中,從而在Transformer里可以隱式地執(zhí)行跨模態(tài)融合。與VisualBERT類似,一些并行研究,如Unicoder VL、VL- bert 和UNITER也采用了單流架構(gòu)。這些VLP研究在以下幾個(gè)方面是相似的:1)它們都利用目標(biāo)檢測(cè)主干來計(jì)算圖像嵌入。2)它們都采用掩碼語(yǔ)言建模任務(wù)。3)均采用單流BERT架構(gòu)。但它們?cè)陬A(yù)訓(xùn)練的方法和數(shù)據(jù)集上存在差異。
雙流模型: ViLBERT和LXMBERT是將BERT擴(kuò)展到雙流VLP模型的開創(chuàng)性工作。它們?cè)贑onceptual Captions數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并利用預(yù)訓(xùn)練的Faster R-CNN模型來檢測(cè)區(qū)域作為視覺標(biāo)記。ViLBERT用兩個(gè)并行流分別處理視覺和文本標(biāo)記,它們可以在需要時(shí)通過跨注意層融合跨模態(tài)信息。換句話說,ViLBERT假設(shè)了視覺和語(yǔ)言的不同處理架構(gòu)。它的跨模態(tài)融合設(shè)計(jì)為兩個(gè)處理流程之間的稀疏和顯式融合。LXMBERT與ViLBERT的區(qū)別在于解耦模態(tài)內(nèi)和模態(tài)間的處理。更具體地說,視覺標(biāo)記和文本標(biāo)記在第一階段被分別編碼,然后輸入到跨模態(tài)編碼器以產(chǎn)生聯(lián)合表征。
其他融合方法: 從根本上說,單流建模和雙流建模在融合時(shí)間上有所不同,其中單流在早期融合不同的模態(tài),而雙流更喜歡在融合前提取每種模態(tài)的高級(jí)特征。SemVLP提出通過迭代訓(xùn)練來組合這兩種流行的建模架構(gòu)。這種方法利用了這兩種架構(gòu),并在低級(jí)和高級(jí)上執(zhí)行跨模態(tài)語(yǔ)義對(duì)齊。特別是,Transformer編碼器在兩種建模方法之間共享,在雙流編碼器中添加了一個(gè)額外的跨模態(tài)注意力模塊,這有助于語(yǔ)義對(duì)齊和減少參數(shù)。大多數(shù)VLP模型試圖將視覺和語(yǔ)言編碼為單獨(dú)的標(biāo)記,這些標(biāo)記通過模態(tài)融合顯式或隱式地相互作用。另一類VLP模型基于目標(biāo)檢測(cè)模型將視覺標(biāo)記附加到文本標(biāo)記。B2T2提出在文本標(biāo)記中融合檢測(cè)到的目標(biāo)的特征,在此基礎(chǔ)上在預(yù)訓(xùn)練中執(zhí)行MLM 和ITM。在B2T2中,標(biāo)記T可以表示為:
其中t是原始文本嵌入,是標(biāo)記為的檢測(cè)到的對(duì)象的數(shù)量, 是第 個(gè)對(duì)象的邊界框的嵌入,表示從邊界框中提取的視覺特征。B2T2還分析了融合對(duì)象和文本標(biāo)記的階段。結(jié)果表明了早期融合的有效性。
彌補(bǔ)模態(tài)差距的早期嘗試:為實(shí)現(xiàn)生成和理解任務(wù),Zhou等人提出了一種統(tǒng)一的視覺語(yǔ)言預(yù)訓(xùn)練方法。它引入了兩種掩碼方案,即雙向注意力掩碼和序列到序列掩碼,以分別增強(qiáng)理解和生成任務(wù)。值得注意的是,這種統(tǒng) 一的VLP方法僅在預(yù)訓(xùn)練期間采用MLM,并在圖像字幕和VQA方面取得了有競(jìng)爭(zhēng)力的表現(xiàn)。12?in?1將多任務(wù)訓(xùn)練擴(kuò)展到四個(gè)廣泛任務(wù),并在12個(gè)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,多任務(wù)訓(xùn)練可以持續(xù)提高下游任務(wù)的性能,并產(chǎn)生參數(shù)更少的更輕量級(jí)的模型。
VILLA基于UNITER的設(shè)計(jì),在嵌入級(jí)別將對(duì)抗訓(xùn)練引入了視覺和文本標(biāo)記。它通過在嵌入空間中添加擾動(dòng)作為正則化來執(zhí)行對(duì)抗性訓(xùn)練,并產(chǎn)生了不錯(cuò)的性能改進(jìn)。
受ERNIE的知識(shí)掩膜方案的啟發(fā),結(jié)構(gòu)化知識(shí)首先被納入ERNIE?ViL的VLP模型中。為了通過構(gòu)建場(chǎng)景圖來開發(fā)更好的跨模態(tài)語(yǔ)義對(duì)齊,ERNIE?ViL提出了場(chǎng)景圖預(yù)測(cè)任務(wù)來對(duì)圖中的對(duì)象、屬性和關(guān)系進(jìn)行建模,以學(xué)習(xí)對(duì)象級(jí)和屬性感知表示。將知識(shí)納入跨模態(tài)訓(xùn)練具有挑戰(zhàn)性,并且至今仍然是一個(gè)懸而未決的問題。
Grid & Patch features:雖然區(qū)域特征嵌入的流行促進(jìn)了VLP模型的訓(xùn)練,但它也限制了VLP模型的可擴(kuò)展性和泛化能力。經(jīng)分析,F(xiàn)aster R?CNN的區(qū)域特征的弱點(diǎn)如下所示:
類別數(shù)量有限:視覺特征受到在具有預(yù)定義對(duì)象類別的、相對(duì)較小的數(shù)據(jù)集上進(jìn)行訓(xùn)練的目標(biāo)檢測(cè)模型的限制。例如,BUTD中廣泛采用的Faster R?CNN 模型是在VG上訓(xùn)練的,其中有固定的1594 個(gè)對(duì)象類和524個(gè)屬性。
質(zhì)量低:由于Faster R?CNN 模型是在標(biāo)簽良好的小型數(shù)據(jù)集上訓(xùn)練的,因此區(qū)域特征經(jīng)常受到低質(zhì)量的影響。
缺乏上下文:區(qū)域特征在沒有任何背景信息的情況下提取屬于特定類別的RoI特征,導(dǎo)致忽略了這些區(qū)域特征之間的語(yǔ)義關(guān)系。實(shí)際上,這些語(yǔ)義關(guān)系很重要。
PixelBERT試圖打破這一限制,通過直接從像素特征中學(xué)習(xí)來充分利用視覺信息。為了降低計(jì)算成本和提高模型的魯棒性,他沒有將所有像素都用作視覺特征,而是在預(yù)訓(xùn)練期間隨機(jī)采樣100個(gè)像素。然而,實(shí)驗(yàn)結(jié)果表明,隨機(jī)采樣僅略微提高了性能,在下游任務(wù)中的VQA分?jǐn)?shù)低于0.5。
SOHO是另一項(xiàng)利用網(wǎng)格特征進(jìn)行跨模態(tài)理解的開創(chuàng)性工作。為了學(xué)習(xí)視覺上下文的語(yǔ)義全面表示,SOHO提出了一個(gè)學(xué)習(xí)用于視覺標(biāo)記化的VD。SOHO是通過首先從卷積網(wǎng)絡(luò)中獲取高級(jí)特征來學(xué)習(xí)VD的,然后根據(jù)特征相似性對(duì)這些特征進(jìn)行分組,并饋入移動(dòng)平均編碼器以動(dòng)態(tài)更新VD。
由于視覺嵌入是可訓(xùn)練的,SOHO是一個(gè)端到端的預(yù)訓(xùn)練框架,可以直接從像素中學(xué)習(xí),無需邊界框。通過訓(xùn)練過程中的動(dòng)態(tài)VD更新,VD中每個(gè)標(biāo)記的序列號(hào)可以像語(yǔ)言標(biāo)記一樣被視為一個(gè)標(biāo)簽,從而可以很自然地執(zhí)行掩碼視覺建模。對(duì)于預(yù)訓(xùn)練任務(wù),SOHO提出了一種新穎的MVMVD方法(在III?D3中描述)來同時(shí)掩蓋圖像中同一標(biāo)簽的所有視覺標(biāo)記,以避免任何信息泄漏。
上述基于區(qū)域或網(wǎng)格的圖像嵌入計(jì)算量很大,提取的高級(jí)特征阻止了跨模態(tài)信息的早期融合。受ViT的啟發(fā),ViLT采用圖像塊的簡(jiǎn)單線性投影作為視覺嵌入,將預(yù)訓(xùn)練速度加快了10倍,并且實(shí)驗(yàn)結(jié)果具有競(jìng)爭(zhēng)力。這意味著,相比于視覺嵌入,模態(tài)融合更可能是改進(jìn)VLP模型表征的關(guān)鍵。
改進(jìn)對(duì)齊表示:視覺語(yǔ)言對(duì)齊表示是VLP的基本目標(biāo)。為了實(shí)現(xiàn)這一目標(biāo),一些研究提出可以在VLP中采用額外的對(duì)象級(jí)數(shù)據(jù)。例如,許多VLP方法采用了RoI區(qū)域特征和檢測(cè)模型。然而,作為重要組成部分的檢測(cè)到的對(duì)象標(biāo)簽并未在VLP模型中被明確建模。為了利用這些附加信息,Oscar引入了對(duì)象標(biāo)簽作為錨點(diǎn),以幫助學(xué)習(xí)跨模態(tài)對(duì)齊的表征。這種學(xué)習(xí)過程在經(jīng)驗(yàn)上是自然的,因?yàn)闄z測(cè)到的對(duì)象標(biāo)簽經(jīng)常出現(xiàn)在和圖像配對(duì)的文本中,這有助于對(duì)齊視覺和語(yǔ)言。
此外,使用對(duì)象標(biāo)簽進(jìn)行訓(xùn)練有助于學(xué)習(xí)對(duì)象的共現(xiàn)(例如,和對(duì)象單詞會(huì)共同出現(xiàn)的單詞)。因此,Oscar在下游理解和生成任務(wù)上產(chǎn)生了顯著的改進(jìn)。然而,Oscar 的缺點(diǎn)也很明顯,它依賴于標(biāo)記良好的圖像字幕數(shù)據(jù)集,因此難以擴(kuò)大訓(xùn)練規(guī)模。
由于VLP模型受到不充分對(duì)齊的(圖像、字幕)對(duì)的限制,VIVO建議使用大量的(圖像、標(biāo)簽)對(duì)來增加預(yù)訓(xùn)練的程度。VIVO采用Hungarian匹配損失進(jìn)行掩碼標(biāo)簽預(yù)測(cè),這使得它可以進(jìn)行視覺詞匯學(xué)習(xí),提高模型描述下游任務(wù)中的新對(duì)象的泛化能力。它在NoCaps基準(zhǔn)測(cè)試中首次超過了人類的表現(xiàn)。更具體地說,它采用ResNeXt152?C4并合并了包括VG、COCO、Objects365和 OpenImagesV5的四個(gè)公共數(shù)據(jù)集用于大規(guī)模訓(xùn)練。 相比于VIVO和Oscar等VLP模型,VinVL有了顯著改進(jìn),并在NoCaps、圖像字幕和VQA排行榜上取得了最佳成績(jī)。
盡管研究者已經(jīng)在視覺語(yǔ)言聯(lián)合表示方面取得了令人鼓舞的進(jìn)展,但上述大多數(shù)研究主要集中在追求良好的跨模態(tài)對(duì)齊的對(duì)象級(jí)表示上。而且他們采取了一個(gè)門檻較高的假設(shè):假設(shè)圖像和文本對(duì)被很好地標(biāo)記。這項(xiàng)假設(shè)將訓(xùn)練數(shù)據(jù)集限制為相對(duì)較小的擁有“黃金標(biāo)簽”的數(shù)據(jù)集。例如,Conceptual Captions是廣泛用于VL預(yù)訓(xùn)練的最大公共數(shù)據(jù)集,它具有300萬個(gè)圖像?文本對(duì)。
為了使模型獲得更豐富的語(yǔ)義和更強(qiáng)的泛化能力,研究者非常需要更大的弱標(biāo)記數(shù)據(jù)集,例如網(wǎng)絡(luò)爬蟲數(shù)據(jù)集。CLIP和DALL?E將大規(guī)模網(wǎng)絡(luò)爬取數(shù)據(jù)用于預(yù)訓(xùn)練的第一個(gè)成功實(shí)踐案例。受CLIP和DALL?E成功的啟發(fā),最近有幾項(xiàng)研究工作進(jìn)一步構(gòu)建了基于更大數(shù)據(jù)集的更強(qiáng)大的模型。
本節(jié)旨在介紹使用大規(guī)模弱標(biāo)簽數(shù)據(jù)集訓(xùn)練的模型。本節(jié)分為兩部分。第一部分包括利用大規(guī)模數(shù)據(jù)集進(jìn)行視覺理解的工作,例如CLIP、ALIGN、SimVLM和Florence。第二部分包含基于諸如DALL?E、GODIVA、NUWA等大型數(shù)據(jù)集的視覺生成模型。
CLIP中的核心思想是訓(xùn)練方法。CLIP不像其他VLP方法那樣通過訓(xùn)練去預(yù)測(cè)掩模的視覺或文本標(biāo)記,而是學(xué)習(xí)識(shí)別成對(duì)的圖像和文本。CLIP的目標(biāo)是:在給定一批數(shù)量為N的(圖像?文本)對(duì)時(shí),CLIP應(yīng)能夠預(yù)測(cè)N × N個(gè)可能出現(xiàn)的對(duì)中哪些是匹配對(duì)(正樣本),哪些是非匹配對(duì)(負(fù)樣本)。經(jīng)過預(yù)訓(xùn)練后,CLIP可以通過使用類似于“a photo of”等短語(yǔ)加上類別名稱作為提示來告訴模型輸入圖像與哪些類別最相似,從而執(zhí)行零樣本圖像分類。與全監(jiān)督的基線相比,零樣本CLIP在27個(gè)數(shù)據(jù)集中的16個(gè)數(shù)據(jù)集上優(yōu)于基線。
與CLIP類似,ALIGN也采用了具有對(duì)比損失的雙編碼器模型執(zhí)行零樣本任務(wù)。它利用了一個(gè)更大的原始數(shù)據(jù)集,包含1.8B圖像?文本對(duì)。ALIGN在許多零樣本視覺任務(wù)上的表現(xiàn)優(yōu)于CLIP,這證明用更大的數(shù)據(jù)集訓(xùn)練會(huì)帶來更好的性能。
除了視覺任務(wù),ALIGN在圖像文本檢索任務(wù)上的表現(xiàn)也優(yōu)于之前的工作成果。SimVLM開發(fā)了一種新的VL預(yù)訓(xùn)練方法。它遵循一個(gè)簡(jiǎn)單的前綴語(yǔ)言建模目標(biāo),以自回歸的方式預(yù)測(cè)下一個(gè)標(biāo)記。它在多個(gè)VL任務(wù)上取得了有競(jìng)爭(zhēng)力的結(jié)果,并具有文本引導(dǎo)的零樣本學(xué)習(xí)能力。與之前采用粗略(圖像級(jí))表征和靜態(tài)(圖像)數(shù)據(jù)的工作不同,F(xiàn)lorence采用細(xì)粒度(對(duì)象級(jí))表征并擴(kuò)展到了動(dòng)態(tài)(視頻)數(shù)據(jù)。對(duì)于對(duì)象級(jí)表示,研究者將適配器Dynamic Head添加到了Florence中的圖像編碼器并使用額外的對(duì)象檢測(cè)數(shù)據(jù)集進(jìn)行訓(xùn)練。通過對(duì)9億對(duì)的圖像?文本對(duì)的預(yù)訓(xùn)練,F(xiàn)lorence在44個(gè)具有代表性的基準(zhǔn)中的大多數(shù)中取得了新的最先進(jìn)的結(jié)果。
除了零樣本分類,CLIP還可以幫助檢測(cè)。例如,ViLD提出了一種通過CLIP蒸餾的零樣本檢測(cè)器。其他研究表明,CLIP 可以學(xué)習(xí)那些更像來自人腦中的神經(jīng)元的多模態(tài)特征,并且它還可以幫助完成VL任務(wù)。
除了視覺理解,大規(guī)模弱標(biāo)記的圖文配對(duì)數(shù)據(jù)也可以輔助文本到圖像的生成。Ramesh等人(2021)開發(fā)了一種名為DALL?E的圖像生成系統(tǒng)。DALL?E使用離散變分自動(dòng)編碼器(dVAE)將圖像轉(zhuǎn)換為離散的視覺標(biāo)記,以便將一個(gè)(文本、圖像)對(duì)視為單個(gè)數(shù)據(jù)流。
在訓(xùn)練期間,文本圖像流被送到僅為解碼器的Transformer中。在其中應(yīng)用注意力掩碼時(shí),每個(gè)圖像標(biāo)記都可以看到所有的文本標(biāo)記。文本標(biāo)記之間的注意力掩碼是標(biāo)準(zhǔn)因果掩碼。圖像到圖像的注意力使用行、列或卷積注意力掩碼。在推理時(shí),給定文本標(biāo)記,生成過程是像在GPT中一樣以自回歸方式預(yù)測(cè)圖像標(biāo)記。DALL?E在四個(gè)方面展示了令人印象深刻的結(jié)果:創(chuàng)建動(dòng)物和物體的擬人化版本、組合不相關(guān)的概念、渲染文本以及對(duì)現(xiàn)有圖像應(yīng)用轉(zhuǎn)換。
受DALL?E訓(xùn)練方法的啟發(fā),Wu 等人(2021a)提出了一種名為GODIVA的方法來從文本中生成視頻。與DALL?E類似,GODIVA對(duì)視頻的每一幀進(jìn)行標(biāo)記,并將文本和視覺標(biāo)記順序連接為流來訓(xùn)練模型。DALL?E和GODIVA分別設(shè)計(jì)用于文本到圖像的生成和文本到視頻的生成,而Wu等人(2021b)提出了一個(gè)統(tǒng)一的視覺生成模型,該模型在文本到圖像、文本到視頻、視頻預(yù)測(cè)等8個(gè)下游任務(wù)上取得了最先進(jìn)的結(jié)果。
他們提出了一個(gè)能夠編碼的3D Transformer,它能夠?qū)λ腥N數(shù)據(jù)格式進(jìn)行編碼,包括文本(1D)、圖像(2D)和視頻(3D)。為了優(yōu)化視頻的效果,他們還設(shè)計(jì)了一個(gè)3D Nearby Attention來沿空間和時(shí)間軸應(yīng)用注意力。
在過去幾年中,我們見證了VLP模型如何逐漸使用大量弱標(biāo)記和更多樣化的數(shù)據(jù)。未來,模型和數(shù)據(jù)的規(guī)模都將不斷擴(kuò)大,從而實(shí)現(xiàn)更強(qiáng)的模態(tài)合作,甚至是統(tǒng)一表征。此外,結(jié)合知識(shí)可以進(jìn)一步增強(qiáng)VLP模型,從而使其獲得更好的泛化能力。在本節(jié)中,我們將討論這些未來趨勢(shì)。
除了使用VL數(shù)據(jù)集改進(jìn)跨模態(tài)任務(wù)外,模態(tài)合作技術(shù)正逐漸在預(yù)訓(xùn)練中被使用,從而提高單模態(tài)任務(wù)和多模態(tài)任務(wù)的性能。模態(tài)合作就是不同的模態(tài)互相幫助,以學(xué)習(xí)更好的表征。例如,用視覺數(shù)據(jù)改進(jìn)語(yǔ)言任務(wù),用單模態(tài)數(shù)據(jù)改進(jìn)跨模態(tài)任務(wù)。
利用視覺數(shù)據(jù)改進(jìn)語(yǔ)言任務(wù)
研究者已經(jīng)嘗試過利用視覺信息改進(jìn)語(yǔ)言學(xué)習(xí),并在廣泛的語(yǔ)言任務(wù)上進(jìn)行了探索,其中包括機(jī)器翻譯、語(yǔ)義解析和語(yǔ)言基礎(chǔ)等任務(wù)。這些研究探索是為特定的語(yǔ)言任務(wù)量身定制的,并且這些研究成果之間可能存在模態(tài)差異。
Tan和Bansal(2020年)提出了一種帶有視覺輔助的語(yǔ)言表示的通用預(yù)訓(xùn)練模型,其中引入了“vokenization”模型,以將視覺語(yǔ)言對(duì)齊從圖像說明數(shù)據(jù)集外推到純語(yǔ)言語(yǔ)料庫(kù)。更具體地說,使用圖像文本匹配對(duì)“vokenization”模型進(jìn)行訓(xùn)練,以構(gòu)建視覺圖像詞匯表,然后利用該詞匯表將僅語(yǔ)言數(shù)據(jù)集中的文本標(biāo)記映射到檢索到的得分最高的圖像。實(shí)驗(yàn)結(jié)果表明,它的性能相比自監(jiān)督語(yǔ)言模型有了額外的進(jìn)步。
2. 使用單模態(tài)數(shù)據(jù)改進(jìn)跨模態(tài)任務(wù)
為了解決數(shù)據(jù)短缺問題,一些VLP模型利用額外的單模態(tài)數(shù)據(jù)來提高表示能力。例如,在圖像?文本數(shù)據(jù)集中,文本通常很短,只帶有幾個(gè)標(biāo)記,這限制了文本的表征能力。因此,研究者在VL?BERT中添加了額外的語(yǔ)言語(yǔ)料庫(kù)來改進(jìn)跨模態(tài)任務(wù)中的語(yǔ)言部分。
由于Transformer架構(gòu),研究人員在單模態(tài)和多模態(tài)表征學(xué)習(xí)方面都取得了顯著進(jìn)展。在前面的部分中,我們討論了多模態(tài)表征和模態(tài)合作,它們以不同的方式連接視覺和語(yǔ)言。目前,該領(lǐng)域內(nèi)的一個(gè)更大的目標(biāo)是建立一個(gè)可以統(tǒng)一多種模態(tài)的通用表示模型。
在一項(xiàng)開創(chuàng)性的工作UNIMO中,一個(gè)統(tǒng)一的預(yù)訓(xùn)練模型被提出,它可以同時(shí)處理單模態(tài)和多模態(tài)的下游任務(wù),包括理解和生成。它使用了大量單模態(tài)和跨模態(tài)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,包括BookWiki(Zhu et al., 2015)和OpenWebText(語(yǔ)言數(shù)據(jù))、OpenImages(Krasin et al., 2017)和COCO (Lin et al., 2014)(圖像數(shù)據(jù))、COCO(Lin et al., 2014)、Visual Genome(Krishna et al., 2016) 、Conceptual Captions(Sharma et al., 2018)和SBU(Ordonez et al., 2011)(圖文數(shù)據(jù))。
因此,UNIMO在執(zhí)行許多單模態(tài)和多模態(tài)下游任務(wù)時(shí)的性能得到了大幅改進(jìn)。另一個(gè)有趣的研究成果是Gupta等人開發(fā)的通用視覺系統(tǒng),它可以用于一系列視覺和跨模態(tài)任務(wù)。
模型在執(zhí)行VL任務(wù)時(shí),會(huì)有許多任務(wù)需要依靠超出訓(xùn)練數(shù)據(jù)集的常識(shí)和事實(shí)信息才能夠完成。但是,大多數(shù)VLP模型沒有消耗額外知識(shí)的機(jī)制。
ERNIE提出了一種基于知識(shí)的多階段掩模策略。該方法沒有直接添加知識(shí)嵌入,而是將語(yǔ)言掩蔽在三個(gè)級(jí)別,即基礎(chǔ)級(jí)別、短語(yǔ)級(jí)別和實(shí)體級(jí)別。對(duì)于實(shí)體級(jí)屏蔽,模型會(huì)屏蔽整個(gè)實(shí)體而非子單詞。此類實(shí)體包括人員、位置、組織、產(chǎn)品等。還有一種將知識(shí)集成到VLP模型中的方法。
Shevchenko等人(2021)提出將知識(shí)嵌入直接注入視覺語(yǔ)言Transformer中。他們首先使用知識(shí)嵌入構(gòu)建知識(shí)庫(kù)(KB),然后將訓(xùn)練數(shù)據(jù)中的句子與知識(shí)嵌入進(jìn)行匹配。在訓(xùn)練期間,他們使用輔助損失來促使已學(xué)習(xí)到的表征與知識(shí)嵌入保持一致。盡管已經(jīng)有一些研究工作試圖將知識(shí)整合到VLP模型中,但為了完成該目標(biāo),仍有許多挑戰(zhàn)需要解決,例如如何有效利用具有高噪音的大型維基數(shù)據(jù)以及如何以可解釋的方式從知識(shí)中學(xué)習(xí)。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。