丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

本文作者: 我在思考中 2021-09-14 10:33
導(dǎo)語:琥珀的主要思想是對(duì)提詞器中的上下文(context)用連續(xù)向量進(jìn)行建模,而整個(gè)訓(xùn)練過程將僅僅端到端優(yōu)化這幾個(gè)上下文詞向量,而保持預(yù)訓(xùn)練參數(shù)不變。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

AI科技評(píng)論報(bào)道

是否還在為設(shè)計(jì)CLIP模型的提詞器(prompt)而煩惱??到底是“a photo of a [class]”還是“a [class] photo”??對(duì)于特定任務(wù)(例如食物分類或是衛(wèi)星圖像識(shí)別),如何添加符合語境的上下文(context)??用了本文提出的提詞優(yōu)化器CoOp(中文名:琥珀),這些問題通通不需要煩惱?。
提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展
文章鏈接:https://arxiv.org/abs/2109.01134

代碼鏈接:https://github.com/KaiyangZhou/CoOp

結(jié)合視覺和語言的預(yù)訓(xùn)練方法(Vision-Language Pretraining)最近成為了視覺表征學(xué)習(xí)的一種有前景的方向。區(qū)別于使用圖像和離散標(biāo)簽進(jìn)行學(xué)習(xí)的傳統(tǒng)分類器,以CLIP為代表的視覺語言預(yù)訓(xùn)練模型利用了兩個(gè)獨(dú)立的編碼器來對(duì)齊圖像和原始文本。在這種范式下,監(jiān)督來源變得更加靈活多樣且容易獲取(如圖片評(píng)論或網(wǎng)絡(luò)配圖文案都可以做圖片監(jiān)督)。更重要的是,模型變得十分容易零樣本(zero-shot)遷移到下游任務(wù)。這是因?yàn)橄掠稳蝿?wù)的類別不必一定屬于訓(xùn)練中離散標(biāo)簽的一種。只要提供下游任務(wù)的標(biāo)簽信息,通過適當(dāng)提詞器(prompt)生成的文本向量可以直接代替固定的離散標(biāo)簽。下圖展示了CLIP模型結(jié)構(gòu)。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

我們發(fā)現(xiàn)了在實(shí)踐中部署此類模型的主要挑戰(zhàn)是對(duì)提詞器的設(shè)計(jì),這是因?yàn)樵O(shè)計(jì)合適的提詞器需要專業(yè)領(lǐng)域的知識(shí),尤其是針對(duì)專業(yè)類別名要設(shè)計(jì)專門的語境(或稱作上下文,context)。同時(shí),提詞器的設(shè)計(jì)也需要花費(fèi)大量時(shí)間來調(diào)整,因?yàn)槲⑿〉拇朕o變化可能會(huì)對(duì)性能產(chǎn)生巨大影響(例如下圖a,在“a photo of [CLASS]”中的[CLASS]前加個(gè)“a”直接漲了將近6個(gè)點(diǎn)?!?。?。此外,不同的下游任務(wù)需要的不同設(shè)計(jì)(例如圖b-d中的“flower”,“texture”,和“satellite”)也進(jìn)一步阻礙了部署的效率。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

為了克服這一挑戰(zhàn),我們提出了一種名為上下文優(yōu)化 (Context Optimization,英文名:CoOp,中文名:琥珀) 的新方法。琥珀的主要思想是對(duì)提詞器中的上下文(context)用連續(xù)向量進(jìn)行建模,而整個(gè)訓(xùn)練過程將僅僅端到端優(yōu)化這幾個(gè)上下文詞向量,而保持預(yù)訓(xùn)練參數(shù)不變。此舉完全自動(dòng)化了提詞器的設(shè)計(jì)過程。下圖展示了琥珀的模型結(jié)構(gòu)。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

實(shí)驗(yàn)里我們使用了11個(gè)視覺數(shù)據(jù)集來驗(yàn)證琥珀的有效性:結(jié)果表明琥珀是一個(gè)十分高效的小樣本學(xué)習(xí)方法,平均每個(gè)類別只需要一到兩張圖片就可以擊敗基于手工提詞器的零樣本識(shí)別模型。當(dāng)每個(gè)類別的圖片有16張時(shí),琥珀比手工提詞器平均高出了大約17個(gè)百分點(diǎn)(最高可達(dá)50個(gè)百分點(diǎn)?)。不僅如此,琥珀還對(duì)領(lǐng)域泛化表現(xiàn)出了極強(qiáng)的魯棒性(見下圖,M指代琥珀的提詞器長(zhǎng)度)。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

此時(shí),讀者一定與我們一樣對(duì)琥珀學(xué)到的提詞器充滿興趣??上У氖?,當(dāng)我們?cè)谠~空間中尋找與優(yōu)化得到的詞向量距離最近的現(xiàn)實(shí)詞匯時(shí),我們很難找到有實(shí)際含義的詞,因?yàn)槲覀儼l(fā)現(xiàn)即便是最臨近的現(xiàn)實(shí)詞匯,其距離與優(yōu)化得到的詞向量仍然相距甚遠(yuǎn),并且在詞空間中,臨近的詞向量不一定具有相似的含義。下圖展示了5個(gè)數(shù)據(jù)集對(duì)應(yīng)的距離最優(yōu)解最近的16詞提詞器。這進(jìn)一步展示了人工設(shè)計(jì)的提詞器可能始終無法達(dá)到琥珀的效果。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

鑒于以上提詞器可視化的結(jié)果,我們大膽的推測(cè),在一些數(shù)據(jù)集上,一些無厘頭的提詞器,例如“makka pakka akka yakka ikka akka [class]”甚至可能比“a photo of a [class]”在某些數(shù)據(jù)集上有更好的效果?。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

提詞優(yōu)化器“琥珀”帶你用好CLIP!視覺-語言表征學(xué)習(xí)新進(jìn)展

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說