丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

本文作者: 我在思考中 2021-11-08 15:52
導(dǎo)語:多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

編輯 | 維克多

日前,第29屆ACM國際多媒體頂級(jí)會(huì)議(ACM International Conference on Multimedia, 簡(jiǎn)稱ACM Multimedia)已于10月20日至24日在成都舉辦,京東探索研究院憑借跨模態(tài)分析技術(shù)、多模態(tài)交互數(shù)字人技術(shù)分別斬獲最佳開源項(xiàng)目獎(jiǎng)及最佳演示獎(jiǎng)(Demo)。會(huì)上,IEEE Fellow、京東集團(tuán)副總裁梅濤當(dāng)選ACM Multimedia 2023大會(huì)共同主席(General Co-Chair)。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

最佳Demo獎(jiǎng):ViDA-MAN: Visual Dialog with Digital Humans

貢獻(xiàn):展示了一個(gè)完整的多模態(tài)數(shù)字人系統(tǒng),包含語音模塊、對(duì)話模塊、視覺模塊、驅(qū)動(dòng)模塊以及流模塊等。

最佳開源獎(jiǎng):X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

貢獻(xiàn):跨模態(tài)分析的多功能和高性能的代碼庫,統(tǒng)一了最先進(jìn)的視覺語言技術(shù)中的全面的高質(zhì)量模塊。



1

關(guān)于X-modaler和ViDA-Man

過去十年多媒體領(lǐng)域視覺和語言之間的跨模態(tài)分析出現(xiàn)了穩(wěn)定創(chuàng)新和突破的勢(shì)頭。然而,X-modaler出現(xiàn)之前,還沒有一個(gè)開源的代碼庫來支持以統(tǒng)一和模塊化的方式訓(xùn)練和部署眾多的跨模態(tài)分析的神經(jīng)網(wǎng)絡(luò)模型。京東探索研究院AI團(tuán)隊(duì)模態(tài)視覺分析代碼庫X-modaler是業(yè)界首個(gè)模塊化、標(biāo)準(zhǔn)化的跨模態(tài)視覺分析代碼庫,涵蓋了視覺語言領(lǐng)域各種前沿技術(shù),并支持各種多模態(tài)任務(wù)。它可以輕松復(fù)現(xiàn)視覺語言領(lǐng)域目前主流的技術(shù),促進(jìn)學(xué)術(shù)界在視覺語言領(lǐng)域的發(fā)展。同時(shí)也便于工業(yè)界集成跨模態(tài)視覺分析的模塊,推動(dòng)技術(shù)進(jìn)步。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

京東探索研究院跨模態(tài)視覺分析代碼庫X-modaler
系統(tǒng)化地集成了跨模態(tài)分析各大任務(wù)中最常用七大模塊(如編碼器模塊、跨模態(tài)交互模塊以及解碼器模塊等),每一個(gè)模塊也包含了各種前沿技術(shù)算法,例如跨模態(tài)交互模塊可以選擇傳統(tǒng)的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具體示意如下圖:

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

基于這七大模塊,X-modaler就可以輕松支持各種多模態(tài)任務(wù),如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval,同時(shí)也能很好地復(fù)現(xiàn)每個(gè)多模態(tài)任務(wù)中的前沿技術(shù),例如在image captioning的任務(wù)中X-modaler集成了京東AI團(tuán)隊(duì)從ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代碼庫支持的算法如下圖,后續(xù)將不斷加入更多最新技術(shù)的實(shí)現(xiàn),整個(gè)代碼庫包括使用文檔以及預(yù)訓(xùn)練模型均已開源(https://github.com/YehLi/xmodaler)。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

在傳統(tǒng)的AI認(rèn)知中,視覺領(lǐng)域、語音領(lǐng)域、自然語言領(lǐng)域等領(lǐng)域之前是獨(dú)立演進(jìn)的技術(shù)和應(yīng)用,可以認(rèn)為是單模態(tài)技術(shù),而人是一個(gè)看、聽、說多模態(tài)共同工作的智能體,所以多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。

京東探索研究院多模態(tài)交互數(shù)字人技術(shù)ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng),深入多模態(tài)交互技術(shù)研究,專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造?;谠摷夹g(shù)開發(fā)的多模態(tài)交互數(shù)字人形象引擎,能夠提供快速的形象定制能力,從外觀的數(shù)字化逐漸深入到行為的交互化、情緒的智能化。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng),深入多模態(tài)交互技術(shù)研究,專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造?;诂F(xiàn)有的人機(jī)對(duì)話技術(shù),創(chuàng)新性研究類人風(fēng)格的虛擬形象生成技術(shù),深度融合計(jì)算機(jī)視覺、自然語言與語音等多項(xiàng)AI技術(shù),結(jié)合泛文娛和智能客服場(chǎng)景,提供真人虛擬形象的新型擬人式交互新體驗(yàn)(項(xiàng)目主頁:https://ascust.github.io/vidaman/)。

獲獎(jiǎng)?wù)撐恼故玖艘粋€(gè)完整的多模態(tài)數(shù)字人系統(tǒng),包含語音模塊、對(duì)話模塊、視覺模塊、驅(qū)動(dòng)模塊以及流模塊等。先進(jìn)的ASR技術(shù)與基于多音色融合的TTS技術(shù)使數(shù)字人具備了出色聽以及說的能力;基于多技能、多回合的對(duì)話系統(tǒng)使數(shù)字人具備了多樣性的應(yīng)答能力。基于3D重構(gòu)技術(shù)以及神經(jīng)渲染技術(shù)的視覺模塊使數(shù)字人具備了逼真的外表以及自然的動(dòng)作。同時(shí)流式服務(wù)模塊將音視頻整合,讓系統(tǒng)具備低延遲的實(shí)時(shí)交互能力。各模塊并非獨(dú)立運(yùn)作,而是有機(jī)整合在一起,使得各模態(tài)數(shù)據(jù)真正實(shí)現(xiàn)融合。



2

京東為什么“看中”多模態(tài)技術(shù)

數(shù)字浪潮的推動(dòng)讓人工智能技術(shù)已經(jīng)實(shí)現(xiàn)從不可用到可用,AI產(chǎn)品化時(shí)期,諸如智能語音識(shí)別技術(shù)、智能圖片處理技術(shù)、基于用戶興趣的算法引擎推薦、智能審核技術(shù)、AR/VR技術(shù)、5G技術(shù)等成為了AI落地的抓手,掀起了科技創(chuàng)新的新浪潮。梅濤表示,獲獎(jiǎng)技術(shù)早已服務(wù)于京東云打造的虛擬數(shù)字人、拍照購、搭配購等多個(gè)產(chǎn)品,并開始在產(chǎn)業(yè)化、商業(yè)化項(xiàng)目中廣泛應(yīng)用。

例如,這些技術(shù)已大規(guī)模應(yīng)用于正在如火如荼展開的京東11.11。如,基于計(jì)算機(jī)視覺以圖搜圖的搜索應(yīng)用,輔助以語音對(duì)話交互技術(shù)的“拍照購”和“搭配購”功能已在剛剛拉開帷幕的京東11.11中大放異彩,通過拍照或截圖方式,直接匹配搭配好的時(shí)尚單品,打造“一站加購”、“一鍵買齊”的購物新體驗(yàn),幫助商家強(qiáng)種草、高轉(zhuǎn)化。

今年京東11.11期間,針對(duì)商品營銷內(nèi)容推出的智能寫作服務(wù)“達(dá)人寫作”,形成一篇百余字商品文案僅需300毫秒,5分鐘可以創(chuàng)作出1000篇文案,覆蓋近3000個(gè)商品品類,累計(jì)生成3,000萬AI內(nèi)容,相比于人工撰寫內(nèi)容點(diǎn)擊轉(zhuǎn)化率超過40%,成本降低93.2%。

除京東內(nèi)部應(yīng)用之外,這些獲得國際學(xué)術(shù)界頂尖榮譽(yù)的領(lǐng)先技術(shù)正在通過京東云這個(gè)統(tǒng)一平臺(tái)輸出對(duì)外賦能各行各業(yè)。比如,基于多模態(tài)交互數(shù)字人技術(shù)研發(fā)的“虛擬數(shù)字人”能助力京東云智能客服產(chǎn)品提升智能接待、服務(wù)和虛擬助手的體驗(yàn)。比如,京東云智能客服業(yè)務(wù)與某銀行合作,打造了全國第一個(gè)交互式數(shù)字人項(xiàng)目“數(shù)字柜員”,有別于播報(bào)式數(shù)字人,“數(shù)字柜員”涉及VTM虛擬坐席交互,利用AI技術(shù),實(shí)現(xiàn)用虛擬人替代真人柜員辦理業(yè)務(wù)、把控風(fēng)險(xiǎn)。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

可以看到,京東AI技術(shù)之所以能取得如此優(yōu)異的成績(jī),是其在真實(shí)復(fù)雜場(chǎng)景的有效實(shí)踐和千錘百煉。作為京東集團(tuán)對(duì)外技術(shù)輸出的窗口,京東云不僅是政府、企業(yè)、家庭數(shù)字化轉(zhuǎn)型全生命周期合伙人,并基于人工智能、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、區(qū)塊鏈、隱私計(jì)算等技術(shù),通過數(shù)智化全鏈條技術(shù)服務(wù),助力千行百業(yè)數(shù)字化轉(zhuǎn)型,激發(fā)產(chǎn)業(yè)無限可能。



3

關(guān)于ACM Multimedia

ACM Multimedia是計(jì)算機(jī)科學(xué)領(lǐng)域中多媒體領(lǐng)域的首要國際會(huì)議,1993年以來每年召開一次,已成為多媒體領(lǐng)域頂級(jí)盛典,大會(huì)致力于推動(dòng)多媒體的研究和應(yīng)用。

ACM Multimedia 2009 曾在北京舉辦,ACM Multimedia 2021 是該會(huì)議第二次在中國舉辦。

參考鏈接:
1. X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics, ACM Multimedia 2021.
2. ViDA-Man: Visual Dialog with Digital Human, ACM Multimedia 2021.
3. Unsupervised Person Image Generation with Semantic Parsing Transformation,CVPR 2019.
4. Unpaired Person Image Generation with Semantic Parsing Transformation, TPAMI 2020.
5. Down to the Last Detail: Virtual Try-on with Fine-grained Details. ACM MM 2020.
6. Boosting Image Captioning with Attributes, ICCV 2017.
7. Exploring Visual Relationship for Image Captioning, ECCV 2018.
8. X-Linear Attention Networks for Image Captioning, CVPR 2020.

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會(huì)共同主席,京東“深耕”多模態(tài)技術(shù)獲最佳獎(jiǎng)項(xiàng) | ACM MM 2021

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說