0
隨著神經(jīng)網(wǎng)絡體系結(jié)構(gòu)、深度學習和機器學習研究的快速發(fā)展,以及不斷增加的硬件+軟件資源,很多特別棒的演示項目數(shù)量正以令人眼花繚亂的速度增長。
從人工智能生成的藝術(shù)品到實時跟蹤人類運動甚至更進一步,我們總結(jié)了一些我們最喜歡的深度學習項目,并附帶了視覺演示。
毫無疑問,我們可以找到和強調(diào)的項目數(shù)不勝數(shù),但希望這份清單能讓你對研究人員、從業(yè)者,甚至藝術(shù)家在 2019 年用機器學習和深度學習創(chuàng)造的東西有一個高層次的了解。
一個有趣(也許并不奇怪)的注意是,這些演示很多都是使用了生成對抗網(wǎng)絡來創(chuàng)建的:它們自然會產(chǎn)生很好的視覺效果,而且體驗很好。
為了補充演示,我嘗試在可用的地方提供鏈接資源(論文、代碼、項目頁面、完整視頻等)。
帶樣式轉(zhuǎn)換的 wikiart+StyleGAN
——Gene Kogan
在這里,我們基本上看到了將樣式轉(zhuǎn)換與 StyleGAN 相結(jié)合時可能出現(xiàn)的情況。我們將參考圖像的樣式直接應用到潛在的空間圖像。
至少在該項目的 GANs 部分,Gene 分叉并使用 Nvidia 的回購協(xié)議來促進 GANs 的逐步增長:
統(tǒng)一的 3D 姿態(tài)估計
—— Yukihiko Aoyagi
將 3D 姿態(tài)估計與 3D 開發(fā)平臺和 unity 這樣的渲染引擎結(jié)合起來,就可以實現(xiàn)像這樣迷人的 AR 項目。通過將這兩種強大的技術(shù)結(jié)合起來,AR 對象可以更精確地跟蹤三維空間中的人體運動。
提示,這個項目暫時只支持單人姿態(tài)。
twitter 網(wǎng)址:https://twitter.com/yukihiko_a
建筑機器翻譯
——Erik Swahn
該項目以對象的視頻幀作為輸入,輸出現(xiàn)代建筑效果圖。這是一個有趣的機器翻譯應用。
twitter 網(wǎng)址:https://twitter.com/erikswahn
這里是代碼——找不到直接的源代碼,所以如果有人知道在哪里可以找到它,請在注釋中給我留言:
消除圖像和視頻中的汽車
——Chris Harris
Chris 可能沒有我們對這個演示印象深刻。A Vanilla Sky——esque 的項目,通過車輛檢測網(wǎng)絡屏蔽在城市街道上移動和停放的車輛,并在檢測到的車輛上添加 AR 模糊效果。
twitter:https://twitter.com/kozmoharris/status/1125390364691640321
這里有一個詳細的概述,討論如何做這個項目以及相關(guān)的原因。網(wǎng)址:http://harrischris.com/article/biophillic-vision-experiment-1
有靈感嗎?Fritz AI 擁有自己創(chuàng)建的優(yōu)秀項目和將 itt 部署到 mobile 所需的工具、專業(yè)知識和資源。從 Fritz AI 開始,教你的設備去看,去聽,去感覺,去思考。
用 gan 將圖像轉(zhuǎn)換為看不見的域
——Ming-Yu Liu, NVIDIA
摘要:
從少數(shù)樣本中提取新對象的特征并歸納總結(jié),我們尋求 few-shot,無監(jiān)督的圖像到圖像的翻譯算法。我們的模型通過將對抗性訓練方案與一種新的網(wǎng)絡設計相結(jié)合來實現(xiàn)這種 few-shot 生成能力。
twitter:https://twitter.com/liu_mingyu
項目頁面:
網(wǎng)址:https://nvlabs.github.io/FUNIT/?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1905.01723?source=post_page-----e74d7d347c2----------------------
無限模式
——Alex Mordintsev
Alex 在谷歌工作,他是 DeepDream 的創(chuàng)始人,這是一個計算機視覺程序,它使用神經(jīng)網(wǎng)絡來發(fā)現(xiàn)和創(chuàng)建圖像中的模式。這些無限循環(huán)經(jīng)常是夢幻的,甚至是幻覺。我?guī)缀跽J為這些是移動墻紙。他在下面的 twitter 上有一些,所以一定要按照鏈接查看。
twitter:https://twitter.com/zzznah/status/1125393901815238656
這篇文章在谷歌的實驗中探索了這個項目,并討論了它是如何與 Pinar&Viola,一個數(shù)字藝術(shù)組合合作的:
從單張圖片進行完整的 3d 家庭試鏡
—— Angjoo Kanazawa
最近,我們看到對嘗試體驗的興趣激增,像古馳(gucci)這樣的零售商正在探索如何讓他們的用戶在自己家(或在地鐵上,或在工作中)舒適地使用他們的產(chǎn)品。
但這些體驗只會和支撐它們的 3D 表示一樣好。該項目引入了「像素對齊隱式函數(shù)(PIFu)」,這是一種高效的隱式表示,它將二維圖像的像素與其對應的三維對象的全局上下文局部對齊。
twitter:https://twitter.com/akanazawa
項目頁面:
網(wǎng)址:https://shunsukesaito.github.io/PIFu/?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1905.05172?source=post_page-----e74d7d347c2----------------------
GANs+像素藝術(shù)
——Max Braun
一個有趣的人工智能藝術(shù)項目,將一個 GAN 組合在一個無限循環(huán)中,在 eBoy 數(shù)據(jù)集上進行訓練。對于那些不熟悉的人,eBoy 創(chuàng)建可重用的像素對象,并使用這些對象來創(chuàng)建藝術(shù)品、制作玩具等。
twitter:https://twitter.com/maxbraun
代碼:
網(wǎng)址:https://github.com/maxbbraun/eboygan?source=post_page-----e74d7d347c2----------------------
Colab Notebook:
eBoy:
網(wǎng)址:http://hello.eboy.com/eboy/?source=post_page-----e74d7d347c2----------------------
花更少的時間搜索,更多的時間建設。報名參加每周一次的深度學習活動,深入了解最新的新聞、最佳教程和最重要的項目。
軌跡預測
——由 deeplearning.ai 發(fā)布,來自 Carnegie Melon, Google AI 和 Stanford 的研究
在人類活動跟蹤領(lǐng)域,預測人們將要移動到哪里是一個非常有趣的項目。這樣的應用比比皆是,從理解零售業(yè)中的客戶行為到群體分析等等。更進一步的說,這個演示包括對特定人活動(如交通、工作等)的性質(zhì)和背景的預測。
論文:
網(wǎng)址:https://arxiv.org/abs/1902.03748?source=post_page-----e74d7d347c2----------------------
以橙汁為切入點走進 AR 世界
——キヨ
這是一個令人驚奇的,關(guān)于如何利用增強技術(shù)將富有想象力的數(shù)字世界與現(xiàn)實世界中的物體融為一體的項目。雖然找不到任何底層代碼或項目頁面,但是這個演示顯示了 AR+ML 在釋放這些想象力和藝術(shù)體驗方面的潛力。
學著忘記一張臉的模型
——posted by Joseph Reisinger
下面 tweet 中的引用很好地總結(jié)了這個項目。我們看到了很多演示,展示了一個神經(jīng)網(wǎng)絡生成新的、真實照片的人和圖像。但在這里,我們看到的過程是相反的——解構(gòu)一個生成的肖像,網(wǎng)絡的神經(jīng)元被一個接一個地切斷。
twitter:https://twitter.com/josephreisinger/status/1138250263934857217
使用 tensorflow.js 進行身體部位分割
——Google Developers
在 Google I/O 2019,這個來自 tensorflow 團隊的演示展示了實時運動跟蹤和圖像分割。為了讓這種體驗實時工作,他們運行兩個身體部位分割模型,將它們匹配起來,運行動態(tài)時間扭曲,然后播放和編碼視頻。以 Tensorflow Lite 的 GPU 加速為特色。
twitter:https://twitter.com/googledevs
用姿態(tài)估計把自己變成 3D 化身
——青絵
這種體驗結(jié)合了姿態(tài)估計和 AR,將用戶轉(zhuǎn)化為怪物(或任何 3D 角色化身)。這個演示在這個詞最字面的意義上是變革性的。最讓人印象深刻的也許是移動跟蹤的精確性和精確性——化身與用戶的移動非常匹配。還有一些很酷的用戶體驗,包括一個基于手勢的轉(zhuǎn)換機制,以及一個整潔的聲音效果,同時化身正在生成。
twitter:https://twitter.com/aoepng
利用目標檢測跟蹤垃圾和其他人行道障礙物
——Paula Piccard
最讓我印象深刻的是被檢測到的性質(zhì)——攝像機移動的速度,以及瞬時檢測。這種應用程序有可能改變我們對所謂「智慧城市」的看法。
twitter:https://twitter.com/Paula_Piccard
用 GANs 畫出逼真的風景
——作者 Kevin Lim
如果你觀看此演示,你會注意到左側(cè)的人造繪圖看起來像你在諸如 MS Paint 之類的舊應用程序中看到的東西。如何將這些粗糙的景觀生成和渲染為照片級真實風景是值得注意的。這類應用程序會錯使我認為我實際上是一個藝術(shù)家!
twitter:https://twitter.com/_kevinlim
神經(jīng)網(wǎng)絡延時(GAN)
——作者 Spiros Margaris
很難找到這個項目的作者,但它的新奇性和可重復性有著令人難以置信的吸引力。
它的 YouTube 視頻描述是這樣的:
左邊是源臉,Theresa May。下一個步驟是學習她的臉,然后使用它的學習到的模型重建她的照片。接下來是目標臉和它正在建立的模型。最后,在最右邊的第五欄(lol)是對 Theresa May 臉部的再現(xiàn),需要與目標臉部的位置和表情相匹配。
youtube 視頻:https://www.youtube.com/channel/UCkMQyMq7xVjtMP2nl3uAQjg
從單個圖像進行反向場景渲染
——Will Smith
摘自論文摘要:
我們展示了如何訓練一個完全卷積的神經(jīng)網(wǎng)絡來從單個的,不受控制的圖像進行逆向渲染。該網(wǎng)絡以 rgb 圖像為輸入,利用回歸反射率計算法向光照系數(shù)。
twitter:https://twitter.com/WillSmithVision
代碼和實踐:
網(wǎng)址:https://github.com/YeeU/InverseRenderNet?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1811.12328?source=post_page-----e74d7d347c2----------------------
基于粒子效應的 ARKit 3 人體分割
——Laan Labs
另一個非常吸引人的視覺演示,是將增強現(xiàn)實效果與深度學習結(jié)合起來。在這里,laan labs(一家專營邊緣技術(shù)的精品 ML/CV 店)在一個人體分割模型上應用了一種溶解粒子效應。
twitter:https://twitter.com/laanlabs
用 YOLO 實時檢測手指
——Andrew Mendez
Andrew 在這個演示中很好地描述了引擎蓋下的情況,展示了 iOS 上令人印象深刻的實時結(jié)果。正如 Andrew 所提到的那樣,有很多可能加入到這個基線體驗 AR,進行手指跟蹤等等。
twitter:https://twitter.com/AndrewMendez19
使用 GPT-2 在移動應用程序中生成文本
——Hugging Face
在 Hugging Face 上的人們已經(jīng)在 transformer 和其他 nlp 架構(gòu)上取得了令人難以置信的進展。不僅僅是服務器端,他們還致力于模型蒸餾,努力將這些功能強大的語言模型嵌入到設備中。這個演示特別關(guān)注文本的自動生成完成。
twitter:https://twitter.com/julien_c
試一下吧:
網(wǎng)址:https://transformer.huggingface.co/?source=post_page-----e74d7d347c2----------------------
權(quán)重未知的神經(jīng)網(wǎng)絡
——hardmaru
與權(quán)重無關(guān)的神經(jīng)網(wǎng)絡的想法令人信服,它讓我們質(zhì)疑與底層架構(gòu)相比,權(quán)重參數(shù)有多重要。摘要很好地揭示了這種動態(tài):
并非所有的神經(jīng)網(wǎng)絡體系結(jié)構(gòu)都是平等的,有些在某些任務上比其他的要好得多。但是,與神經(jīng)網(wǎng)絡的結(jié)構(gòu)相比,神經(jīng)網(wǎng)絡的權(quán)值參數(shù)有多重要?在這項工作中,我們質(zhì)疑在沒有學習任何權(quán)重參數(shù)的情況下,單靠神經(jīng)網(wǎng)絡架構(gòu)能在多大程度上對給定任務的解進行編碼。
twitter:https://twitter.com/hardmaru
項目頁面:
網(wǎng)址:https://weightagnostic.github.io/?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1906.04358?source=post_page-----e74d7d347c2----------------------
MediaPipe:一個結(jié)合了深度學習和傳統(tǒng) CV 管道的框架
——Google AI 發(fā)布,作者 Diakopoulos
MediaPipe 是 Google 將傳統(tǒng) CV 任務與深度學習模型相結(jié)合的相對較新的管道。這個新的框架真的為更沉浸式和互動性 AR 體驗打開了大門。
twitter:https://twitter.com/ddiakopoulos
github:
網(wǎng)址:https://github.com/google/mediapipe?source=post_page-----e74d7d347c2----------------------
博客和案例:
全三維姿態(tài)估計:身體、手和臉
——CMU,HCI Research 發(fā)布
該項目代表了第一種使用單目視圖輸入捕獲整個三維運動的方法。該技術(shù)生成一個三維可變形網(wǎng)格模型,然后用于重建全身姿態(tài)。從視覺的角度來看,這個等式的「total」部分對我們來說印象最深刻。以這種方式重建面部、身體和手的姿態(tài)的能力,讓一個真正令人驚嘆的演示成為可能。
twitter:https://twitter.com/HCI_Research
代碼:
項目頁面:
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。