丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給石松
發(fā)送

1

人工智能的想象力在哪里?微軟的這個(gè)機(jī)器人畫家告訴你答案

本文作者: 石松 編輯:李帥飛 2018-01-19 18:40
導(dǎo)語:厲害了,微軟研究員開發(fā)的類人工智能繪圖機(jī)器人應(yīng)用能夠從文字生成圖片。

雷鋒網(wǎng)按:人工智能能夠?qū)崿F(xiàn)什么?毫無疑問它可以幫助我們實(shí)現(xiàn)很多事情,但微軟最近開發(fā)的一項(xiàng)人工智能技術(shù)刷新了我們對(duì)于人工智能的認(rèn)知?;谟?jì)算機(jī)識(shí)別和自然語言處理,微軟開發(fā)出一種可以根據(jù)用戶描述來繪圖的機(jī)器人,它甚至可以幫助用戶補(bǔ)全未必描述的細(xì)節(jié)。目前微軟已經(jīng)通過官方博客公布了這一成果,雷鋒網(wǎng)對(duì)這篇博客進(jìn)行了不改變?cè)獾木幾g。

人工智能的想象力在哪里?微軟的這個(gè)機(jī)器人畫家告訴你答案

試想一下,你手中拿著稿紙和畫筆,被要求畫一幅關(guān)于鳥的照片,這只鳥要有黃色的身體,黑色的翅膀和短短的鳥喙。你大概會(huì)先畫出鳥的大概輪廓,之后檢查修改一下,繼續(xù)想想黃色的身體部分,然后用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀,最終檢查一下,畫上短短的有些發(fā)亮的鳥喙。為了使之更生動(dòng)形象,你或許會(huì)畫上鳥所棲息的樹干。

如今,機(jī)器人也可以如你一樣做到這一點(diǎn)了!

微軟研究實(shí)驗(yàn)室正在開發(fā)的新型人工智能技術(shù)能夠從字幕式的文本描述中截取單個(gè)的詞語生成圖像。網(wǎng)站 arXiv.org 上發(fā)表的一篇研究報(bào)告稱,根據(jù)行業(yè)標(biāo)準(zhǔn)測(cè)試的結(jié)果,這項(xiàng)技術(shù)產(chǎn)生的圖像質(zhì)量與之前的文本到圖像生成技術(shù)相比,提高了將近三倍。

研究人員簡單地稱之為繪圖機(jī)器人,該技術(shù)可以生成從普通的田園風(fēng)光(如放牧家畜)到荒謬無意義的(如浮動(dòng)的雙層巴士)所有圖像。每幅圖像都包含了文字描述中沒有提及的細(xì)節(jié),表明該人工智能技術(shù)擁有一種人造的想象力。

“如果你用 Bing 搜索一只鳥,你會(huì)得到一張鳥的圖片。但是在這里,圖片是由計(jì)算機(jī)逐個(gè)像素地從頭開始創(chuàng)建的,”位于微軟在華盛頓州雷蒙德市的研究實(shí)驗(yàn)室,深度學(xué)習(xí)技術(shù)中心的首席研究員和研究主管 Xiaodong He表示?!斑@些鳥在現(xiàn)實(shí)世界中可能不會(huì)存在——它們只是表明了計(jì)算機(jī)對(duì)鳥類想像力的一個(gè)方面”。

這項(xiàng)繪圖機(jī)器人技術(shù)完成了他和他的同事在過去五年中,探索過的計(jì)算機(jī)視覺和自然語言處理的交叉學(xué)科研究。他們從自動(dòng)編寫照片字幕 —— CaptionBot ——的技術(shù)開始,然后轉(zhuǎn)向另外一種技術(shù),回答人類對(duì)圖像提出的問題,例如對(duì)象的位置或?qū)傩?,這點(diǎn)對(duì)盲人特別有用。

這些研究工作需要訓(xùn)練機(jī)器學(xué)習(xí)模型來識(shí)別對(duì)象,完成行為和自然語言間的交互。

“現(xiàn)在我們要用文字來生成圖像,”該組織的博士后研究員,論文合著者 Qiuyuan Huang 表示, “所以,這就是一個(gè)循環(huán)?!?/span>

圖像生成是一個(gè)比圖像字幕更具挑戰(zhàn)性的任務(wù),團(tuán)隊(duì)中的副研究員 Pengchuan Zhang 補(bǔ)充說,因?yàn)檫@個(gè)過程需要繪圖機(jī)器人想像沒有包含在標(biāo)題中的細(xì)節(jié)。他說:“這意味著你需要運(yùn)行人工智能的機(jī)器學(xué)習(xí)算法來想象一些圖像中的缺失部分?!?/span>

細(xì)致的圖像生成

微軟繪圖機(jī)器人的核心是一種被稱為“生成對(duì)抗網(wǎng)絡(luò)”(Generative Adversarial Network,GAN)的技術(shù)。網(wǎng)絡(luò)由兩個(gè)機(jī)器學(xué)習(xí)模型組成,一個(gè)從文本描述生成圖像,另一個(gè)稱為鑒別器,使用文本描述來判斷生成圖像的真實(shí)性。發(fā)生器試圖通過假照片騙過鑒別器,同時(shí)鑒別器進(jìn)行判斷。二者一同作用,將發(fā)生器不斷完美。

微軟的繪圖機(jī)器人在包含對(duì)應(yīng)圖像和標(biāo)題的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,這些允許模型學(xué)習(xí)如何將單詞與這些單詞的可視化圖片表示相匹配。例如, GAN 學(xué)會(huì)在標(biāo)題說鳥的時(shí)候生成鳥的圖像,并且同樣學(xué)習(xí)鳥的圖像應(yīng)該是什么樣的。他說:

這是我們相信機(jī)器可以學(xué)習(xí)的根本原因。

當(dāng)從簡單的文字描述(例如藍(lán)鳥或常青樹)產(chǎn)生圖像時(shí), GAN 可以很好地工作,但在更復(fù)雜的文本描述中效果不佳,例如具有綠色的冠,黃色的翅膀和紅色腹部的鳥。這是因?yàn)檎麄€(gè)句子作為發(fā)生器的單一輸入。其中詳細(xì)的信息發(fā)生了丟失。因此,生成的圖像是一種模糊的帶綠色和微黃色的鳥,而不是與描述中緊密匹配。

在人類的繪畫過程中,我們反復(fù)提到文本,并密切關(guān)注描述我們正在繪制的圖像區(qū)域和單詞描述。為了捕捉這種人的特質(zhì),研究人員創(chuàng)建了他們所謂的 attentional GAN或 AttnGAN,它們?cè)跀?shù)學(xué)上模擬了人類關(guān)注的概念。它是通過將輸入文本分解為單個(gè)單詞并將這些單詞與圖像的特定區(qū)域相匹配來實(shí)現(xiàn)的。

“注意是一個(gè)人的概念,我們用數(shù)學(xué)來進(jìn)行計(jì)算?!彼忉屨f。

該模型還從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到人類稱為常識(shí)的東西,并且利用這個(gè)學(xué)習(xí)的概念來填充留在想象中圖像的細(xì)節(jié)。例如,由于訓(xùn)練數(shù)據(jù)中的許多鳥類圖像顯示了坐在樹枝上的鳥, AttnGAN 通常使鳥棲息在樹枝上,除非文本另有規(guī)定。

“從數(shù)據(jù)來看,機(jī)器學(xué)習(xí)算法學(xué)習(xí)鳥站在樹枝上應(yīng)該屬于這類常識(shí),”Zhang 說。作為一項(xiàng)測(cè)試,該團(tuán)隊(duì)為漫畫圖像提供了繪圖機(jī)器人所需的字幕,例如“一輛紅色的雙層巴士漂浮在湖面上”。它生成了一個(gè)模糊的,飄逸的雙層巴士圖像,類似于兩層甲板船或雙層甲板船,漂浮在群山環(huán)繞的湖上。該圖像表明,關(guān)于船只能漂浮在湖泊上和公共汽車的文本描述之間,機(jī)器人內(nèi)部有一個(gè)爭(zhēng)斗。

“我們可以控制我們描述的東西,看看機(jī)器如何作出反應(yīng)?!?他解釋說,“我們可以干涉和測(cè)試機(jī)器到底學(xué)到了什么東西。這臺(tái)機(jī)器已經(jīng)具有一些背景常識(shí),但它仍然可以按照你所要求的運(yùn)行,有時(shí)候,這似乎有點(diǎn)荒謬可笑?!?/span>

實(shí)際應(yīng)用方面

這項(xiàng)文本到圖像的生成技術(shù)可以運(yùn)用到實(shí)際應(yīng)用中,可以作為畫家和室內(nèi)設(shè)計(jì)師的草圖助手,或作為語音控制的照片美化工具。伴隨更強(qiáng)大的計(jì)算能力,他想象這項(xiàng)技術(shù)可以生成基于電影劇本的動(dòng)畫電影,為電影制作人減少一些需要人工的成本。

但就目前來看,這項(xiàng)技術(shù)還不完善。對(duì)圖像進(jìn)行仔細(xì)檢查后,幾乎總能發(fā)現(xiàn)瑕疵,例如藍(lán)鳥喙,而不是黑色的,水果和基因突變的香蕉長在一起。這些缺陷清楚地表明,是電腦而不是人類創(chuàng)造了這些圖像。盡管如此, AttnGAN 圖像的質(zhì)量比以前最好的 GAN 圖像質(zhì)量提高了近 3 倍,并且這是通往增強(qiáng)人類自身能力的類人工智能道路上的一個(gè)里程碑 。

“因?yàn)槿斯ぶ悄芎腿祟惿钤谕粋€(gè)世界,他們之間必須找到一種互相交流的方式?!彼忉尩?,“語言和視覺是人類與機(jī)器交流的兩個(gè)最重要的途徑?!?/span>

除了微軟的 Xiaodong He,  Pengchuan Zhang and Qiuyuan Huang,合作者還包括前微軟實(shí)習(xí)生利理海大學(xué)的Tao Xu和杜克大學(xué)的 Zhe Gan,羅格斯大學(xué)的 Han Zhang,理海大學(xué)的 Xiaolei Huang。

有關(guān)參考資料

1.閱讀關(guān)于 AttnGAN 的研究論文

2.了解更多關(guān)于微軟在視覺和語言智能方面的 AI 研究成果

3.查看 CaptionBotSeeing AI 這兩個(gè)應(yīng)用

4.數(shù)十年的計(jì)算機(jī)視覺研究,“Swiss Army Knife”

Via blogs.microsoft.com,由雷鋒網(wǎng)編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注,解讀最新科技資訊
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說