谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

本文作者：楊曉凡

編輯：郭奕欣

2018-01-13 10:27

導(dǎo)語：非常多研究成果，以及大度地與全世界分享這些成果

雷鋒網(wǎng) AI 科技評論按：進(jìn)入2018 年已經(jīng)一周多了，而精彩紛呈的 2017 年（和元旦假期）還仿佛就在昨天。今天，谷歌大腦（Google Brain）負(fù)責(zé)人 Jeff Dean 也代表整個谷歌大腦團(tuán)隊發(fā)出了對 2017 年的回顧總結(jié)。

作為頂級 AI 研究機(jī)構(gòu)的谷歌大腦不僅資源豐富、人員眾多、研究方向廣泛、論文產(chǎn)量高，而且他們的研究成果還通過整個谷歌的產(chǎn)品和谷歌大腦團(tuán)隊自己開放出的項目和資源深刻地影響著整個世界。相信你也和雷鋒網(wǎng) AI 科技評論一樣希望能夠總體回顧一下 2017 年中谷歌大腦的種種成果，以及看看他們?nèi)绾卧u價自己的工作。我們把這篇總結(jié)文（兩篇中的第一篇）全文翻譯如下。

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

谷歌大腦團(tuán)隊的工作目標(biāo)是通過科學(xué)研究和系統(tǒng)工程不斷推進(jìn)頂級 AI 系統(tǒng)的發(fā)展，這也是整個谷歌的 AI 戰(zhàn)略的一部分。2017 年的時候谷歌大腦也發(fā)出過一篇對 2016 年工作的總結(jié)文章，這之后谷歌大腦團(tuán)隊也在持續(xù)不斷地向著自己「讓機(jī)器更智能」的長期研究目標(biāo)進(jìn)發(fā)，也和谷歌和 Alphabet 內(nèi)的許多團(tuán)隊合作，把研究結(jié)果應(yīng)用到真正地改善人類的生活中去。

這次谷歌對 2017 年成果的總結(jié)分為了上下兩篇，這篇是第一篇，包含基礎(chǔ)研究成果、開源軟件和數(shù)據(jù)集更新，以及新的機(jī)器學(xué)習(xí)硬件。在稍后的下篇中會詳細(xì)介紹一些具體應(yīng)用領(lǐng)域中的研究，機(jī)器學(xué)習(xí)可以在其中帶來很大影響，這些領(lǐng)域比如醫(yī)療保健、機(jī)器人、一些基礎(chǔ)自然科學(xué)領(lǐng)域，同時也會介紹谷歌大腦在創(chuàng)造性、公平和包容性方面的努力，以及介紹一下這個團(tuán)隊。

核心研究內(nèi)容

谷歌大腦團(tuán)隊的關(guān)注重點是，通過科學(xué)研究增進(jìn)自己對機(jī)器學(xué)習(xí)領(lǐng)域新問題的理解以及解決它們的能力。2017 年中谷歌的研究主題包括以下這些：

自動機(jī)器學(xué)習(xí)（AutoML）

自動化機(jī)器學(xué)習(xí)的目標(biāo)是開發(fā)出一些技巧，讓計算機(jī)自動解決新的機(jī)器學(xué)習(xí)問題，不再需要人類機(jī)器學(xué)習(xí)專家參與每一個新的問題的解決。如果人類想要打造真正智能的系統(tǒng)的話，這肯定會是不可或缺的基礎(chǔ)能力之一。谷歌大腦開發(fā)了自動設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu)的新方法，其中同時運用了強(qiáng)化學(xué)習(xí)和演化算法兩類技術(shù)，并把這項工作拓展到了「自動化機(jī)器學(xué)習(xí)在 ImageNet 分類和檢測中達(dá)到頂尖表現(xiàn)」論文中（https://arxiv.org/pdf/1707.07012.pdf ）。這項研究同時也展現(xiàn)了如何自動學(xué)習(xí)優(yōu)化算法和高效的激活函數(shù)。谷歌大腦團(tuán)隊現(xiàn)在正在與谷歌云 AI 團(tuán)隊積極協(xié)作，目標(biāo)是讓谷歌的客戶們也都可以使用這種技術(shù)，同時也把谷歌對這種技術(shù)的探索拓展到更多方向上去。

神經(jīng)網(wǎng)絡(luò)搜索技術(shù)探索出的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)

自動機(jī)器學(xué)習(xí)學(xué)習(xí)到的網(wǎng)絡(luò)進(jìn)行物體檢測

語音理解和生成

另一個研究主題是開發(fā)新的技術(shù)提高計算機(jī)系統(tǒng)理解和生成人類語音的能力。其中，谷歌大腦也和谷歌語音團(tuán)隊合作，開發(fā)出了數(shù)種端到端語音識別技術(shù)的改善方法，把谷歌生產(chǎn)環(huán)境中的語音識別系統(tǒng)單詞錯誤率相對降低了16%。這項研究很有意思的一點是，本來中有很多獨立的研究路線在進(jìn)行，而這項研究讓它們匯總到了一起。

（包括以下這些論文：

https://arxiv.org/abs/1712.01769
https://arxiv.org/abs/1712.01818
https://arxiv.org/pdf/1712.01541
https://arxiv.org/abs/1711.01694
https://arxiv.org/pdf/1712.01807
https://arxiv.org/abs/1712.05382
https://arxiv.org/abs/1705.05524
https://arxiv.org/abs/1712.01864
https://arxiv.org/abs/1712.01996

）

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

端到端 Listen-Attend-Spell 語音識別模型中的組件

谷歌大腦團(tuán)隊也和谷歌的機(jī)器理解團(tuán)隊的研究同事們協(xié)作，共同開發(fā)了新的文本到語音生成方法（Tacotron 2），它大大提升了語音生成的質(zhì)量。類似可聽電子書那種專業(yè)水準(zhǔn)的錄制語音，平均主觀分?jǐn)?shù)得分 MOS 是4.58分，之前最好的電腦生成語音系統(tǒng)得分在4.34，而這個新模型的得分為 4.53，已經(jīng)很接近人類的水平。

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

Tacotron 2 的模型架構(gòu)

新的機(jī)器學(xué)習(xí)算法和應(yīng)用方法

谷歌大腦的研究人員們持續(xù)開發(fā)著新的機(jī)器學(xué)習(xí)算法和應(yīng)用手段，包括膠囊 capsules 的研究（顯式地尋找激活特征之間的一致性，作為執(zhí)行視覺任務(wù)時評估各種不同的帶噪聲假設(shè)的手段）、專家們的稀疏門組合（這可以讓大模型的計算效率仍然保持很高，https://arxiv.org/abs/1701.06538 ）、超越網(wǎng)絡(luò)（用一個模型的權(quán)重生成另一個模型的權(quán)重，https://openreview.net/pdf?id=rkpACe1lx ）、新類型的多模態(tài)模型（可以用同一個模型對語音、視覺、文本等不同輸入做多任務(wù)學(xué)習(xí)）、基于注意力機(jī)制的模型（作為卷積和循環(huán)模型的替代方案）、符號化和非符號化的學(xué)習(xí)到的優(yōu)化模型（http://proceedings.mlr.press/v70/bello17a/bello17a.pdf ，https://arxiv.org/abs/1703.04813 ）、一種通過離散變量做反向傳播的方法（https://arxiv.org/abs/1611.01144 ），以及一些強(qiáng)化學(xué)習(xí)算法的新的改進(jìn)方案（https://arxiv.org/pdf/1702.08892.pdf ）。

用于計算機(jī)系統(tǒng)的機(jī)器學(xué)習(xí)

用機(jī)器學(xué)習(xí)方法取代傳統(tǒng)計算機(jī)系統(tǒng)中啟發(fā)式方法的想法也讓谷歌大腦成員們覺得非常有意思。谷歌大腦已經(jīng)展示了在把計算圖映射到一組計算設(shè)備上的任務(wù)中，強(qiáng)化學(xué)習(xí)模型選擇的放置方法要比人類專家的選擇更好（https://arxiv.org/abs/1706.04972 ）。和其它谷歌研究院的同事一起，谷歌大腦這項研究「聊一聊學(xué)習(xí)得到的索引架構(gòu)」中展現(xiàn)了神經(jīng)網(wǎng)絡(luò)可以比 B 樹、哈希表、Bloom filters 等傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)更快、更節(jié)省空間地建立完成索引任務(wù)。谷歌大腦相信，這僅僅是探索機(jī)器學(xué)習(xí)在核心計算機(jī)系統(tǒng)中應(yīng)用的開始，Jeff Dean 在 NIPS workshop 上進(jìn)行的「Machine Learning for Systems and Systems for Machine Learning」演講中也描繪了他們的設(shè)想。

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

學(xué)習(xí)到的模型可以作為索引結(jié)構(gòu)

隱私和安全

機(jī)器學(xué)習(xí)和安全、隱私之間的互動也一直是谷歌大腦的研究重點。在獲得 ICLR 2017 最佳論文獎的論文中，他們展示了應(yīng)用機(jī)器學(xué)習(xí)時可以帶有差分隱私保障。谷歌大腦也繼續(xù)對對抗性樣本做了更多的探索，包括真實世界中的對抗性樣本（https://arxiv.org/abs/1607.02533 ），以及如何在訓(xùn)練過程中生成大規(guī)模的對抗性樣本以便讓模型對它們更魯棒（https://arxiv.org/abs/1611.01236 ）。

理解機(jī)器學(xué)習(xí)系統(tǒng)

在深度學(xué)習(xí)展現(xiàn)出驚人成果的同時，理解它為什么能奏效、什么時候不能奏效也是很重要的一件事。在另一篇 ICLR 2017 獲獎?wù)撐闹校雀璐竽X的研究人員們展現(xiàn)出目前的機(jī)器學(xué)習(xí)理論框架無法解釋深度學(xué)習(xí)方法的喜人成果。他們也發(fā)現(xiàn)，優(yōu)化方法找到的局部極小值點的「平坦性」和泛化能力的優(yōu)秀程度之間的關(guān)系并不如人們一開始認(rèn)為的那么緊密（https://arxiv.org/abs/1703.04933 ）。為了更好地理解深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的訓(xùn)練是如何進(jìn)行的，谷歌大腦發(fā)布了一系列論文分析隨機(jī)矩陣，因為這也是多數(shù)訓(xùn)練方法的起始點（https://arxiv.org/abs/1710.06570 ）。另一個理解深度學(xué)習(xí)的重要途徑是更好地測量模型的表現(xiàn)，在近期一篇比較各種 GANs 方法的論文中，谷歌大腦展現(xiàn)了好的實驗設(shè)計、統(tǒng)計嚴(yán)謹(jǐn)性的重要性，并且發(fā)現(xiàn)許多對生成式模型的熱門增強(qiáng)方法都沒能真的改進(jìn)模型表現(xiàn)（https://arxiv.org/abs/1711.10337 ）。谷歌大腦希望這項研究能在魯棒實驗研究方面作為其它研究者可以參考的樣例。

谷歌大腦也在研究可以讓機(jī)器學(xué)習(xí)系統(tǒng)具備更好的可解釋性的方法（https://arxiv.org/abs/1711.00867 ）。2017 年三月，谷歌大腦和 OepnAI、DeepMind、YC Research 等機(jī)構(gòu)一起聯(lián)合創(chuàng)立上線了 Distill 博客 http://distill.pub/ ，這是一個新的開放的在線科技文獻(xiàn)展示平臺，專注于幫助人類理解機(jī)器學(xué)習(xí)。它對機(jī)器學(xué)習(xí)概念的清晰解釋、文章中精彩且具備互動性的可視化工具都已經(jīng)讓它獲得了不少贊譽(yù)，比如下面這篇 CNN 激活特征可視化。在上線后的第一年中，Distill 上就已經(jīng)發(fā)表了許多嘗試?yán)斫飧鞣N機(jī)器學(xué)習(xí)方法的內(nèi)在運行原理的文章，很給人帶來啟迪，谷歌大腦也非常期待 2018 年可預(yù)計的更多、更好的文章。

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

CNN 特征可視化

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

如何高效使用 t-SNE https://distill.pub/2016/misread-tsne/

用于機(jī)器學(xué)習(xí)研究的開放數(shù)據(jù)集

MNIST、CIFAR-10、ImageNet、SVHN、WMT 這樣的開放數(shù)據(jù)集極大地推動了整個機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展。谷歌大腦和谷歌研究院也在過去的一年中共同積極開源了許多用于機(jī)器學(xué)習(xí)研究的有意思的新數(shù)據(jù)集，提供了更大的有標(biāo)注數(shù)據(jù)集供開放訪問，包括：

YouTube-8M：標(biāo)注為 4716 個不同類別的七百萬個 YouTube 視頻
YouTube-Bounding Boxes：含有 5 百萬個邊界框的 21 萬個 YouTube 視頻
Speech Commands Dataset：數(shù)千個人說的簡短控制詞匯
AudioSet：2 百萬個 10 秒長的 YouTube 視頻，標(biāo)注為了 527 個不同的聲音事件
AVA：5.7 萬個短視頻中標(biāo)注了一共 32 萬個動作標(biāo)簽
Open Images：標(biāo)記為 6000 個分類的 9 百萬張帶有創(chuàng)意共享許可的圖像
Open Images with Bounding Boxes：600 個不同類別的圖像中帶有 120 萬個邊界框

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

YouTube-Bounding Boxes 數(shù)據(jù)集中的樣例。視頻的分段采樣速率為 1 幀/秒，我們關(guān)注的物體都被邊界框圈了起來

TensorFlow 以及開源軟件

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

一張 TensorFlow 使用者分布的世界地圖

谷歌大腦團(tuán)隊一直就有編寫工具來幫助更好地做機(jī)器學(xué)習(xí)研究、更好地在谷歌的各個產(chǎn)品里部署機(jī)器學(xué)習(xí)系統(tǒng)的傳統(tǒng)。2015 年 11 月，谷歌大腦開源了自己的第二代機(jī)器學(xué)習(xí)框架 TensorFlow，希望整個機(jī)器學(xué)習(xí)大家庭可以共享谷歌在機(jī)器學(xué)習(xí)軟件工具方面的這一筆投資。2017 年 2 月，TensorFlow 1.0 發(fā)布,11 月，TensorFlow 1.4 發(fā)布，都帶來了意義重大的改進(jìn)：便于交互命令式編程的 Eager execution、TensorFlow 程序的編譯優(yōu)化器 XLA，以及為移動和嵌入式設(shè)備設(shè)計的 TensorFlow Lite。預(yù)編譯的 TensorFlow 庫如今已經(jīng)被超過 180 個國家的用戶下載了超過一千萬次，GitHub 上的開源項目（https://github.com/tensorflow/tensorflow ）也已經(jīng)有了超過 1200 個貢獻(xiàn)者。

2017 年 2 月，谷歌大腦首次舉辦了 TensorFlow 開發(fā)者峰會，有超過 450 人到山景城參會，全球還有超過 6500 人觀看了線上直播，其中有 35 個國家都在當(dāng)?shù)嘏e辦了超過 85 場集體觀看活動。所有的演講都有錄像（https://www.youtube.com/playlist?list=PLOU2XLYxmsIKGc_NBoIhTn2Qhraji53cv ），其中包括了新特性、使用 TensorFlow 的技巧，以及觀察揭秘 TensorFlow 的底層的抽象等等內(nèi)容。2018 年 3 月 30 日谷歌大腦會再在舊金山灣地區(qū)舉行一場峰會。（雷鋒網(wǎng) AI 科技評論也會保持關(guān)注）

11 月時，TensorFlow 也迎來了自己開源后的第二個紀(jì)念日。看到圍繞 TensorFlow 建立起的活躍的、不斷發(fā)展的開發(fā)者和用戶的大家庭，谷歌大腦的成員們也都覺得非常滿足。TensorFlow 目前是 GitHub 上排名第一的機(jī)器學(xué)習(xí)平臺，也是 GitHub 上所有開源項目的前五名。大小企業(yè)和組織都在使用 TensorFlow，和 TensorFlow 相關(guān)的 GitHub 項目也有超過 2.4 萬個。如今，許多研究論文在發(fā)布時也會帶有開源的 TensorFlow 實現(xiàn)來支持他們的實驗結(jié)果，不僅讓別人更好理解他們所提的模型，也便于重現(xiàn)或者拓展他們的工作成果。

TensorFlow 也從其它谷歌研究團(tuán)隊的開源的相關(guān)工作中有所受益，比如 TensorFlow 中的輕量級生成式模型庫 TF-GAN，一組用于格式模型的估計器 TensorFlow Lattice，以及 TensorFlow 物體檢測 API。TensorFlow 的開源項目中包含的模型也越來越多、越來越廣。

除了 TensorFlow，谷歌大腦還發(fā)布了深度學(xué)習(xí) API deeplearn.js，它也是開源的，而且?guī)в杏布铀伲梢詿o需下載和安裝就直接在瀏覽器中運行。deeplearn.js 的主頁就有一組很棒的示范例子，包括可以用自己電腦攝像頭訓(xùn)練的計算機(jī)視覺模型 Teachable Machine、一個基于實時神經(jīng)網(wǎng)絡(luò)的鋼琴合成器以及性能展示工具 Performance RNN。在 2018 年，谷歌大腦會繼續(xù)努力，讓 deeplearn.js 環(huán)境直接運行 TensorFlow 的模型變得可能。

TPU

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

云TPU最高可以帶來 180 TFlops 的機(jī)器學(xué)習(xí)加速能力

從大約 5 年前開始，谷歌大腦的研究人員們意識到深度學(xué)習(xí)將會強(qiáng)烈地改變對硬件需求。深度學(xué)習(xí)計算的計算強(qiáng)度非常高，不過它也有兩個獨特的特點：很大程度上都是由稠密線性代數(shù)操作（矩陣乘法、向量操作等等）組成，而且降低計算精度不會帶來很大影響。他們意識到，可以利用這兩個特點構(gòu)建專用的硬件，就能夠以非常高的效率構(gòu)建運行神經(jīng)網(wǎng)絡(luò)。谷歌大腦向谷歌的硬件平臺團(tuán)隊提供了設(shè)計輸入，然后由他們設(shè)計并生產(chǎn)出了谷歌的第一代 TPU。這是一種單芯片 ASIC，專門設(shè)計用來加速深度學(xué)習(xí)模型的推理過程。第一代的 TPU 已經(jīng)部署在谷歌的數(shù)據(jù)中心中三年了，它支持了所有谷歌搜索請求、谷歌翻譯、谷歌照片中的圖像理解、李世石和柯潔對戰(zhàn) AlphaGo 等等許許多多的研究和生產(chǎn)用途背后的深度學(xué)習(xí)模型運行。2017 年 6 月時谷歌大腦在 ISCA 2017 上發(fā)表了論文，數(shù)據(jù)表明第一代 TPU 要比同時代的 GPU 或者 CPU 競爭對手快 15 倍到 30 倍，同時每瓦性能更要高出 30 倍到 80 倍（https://arxiv.org/abs/1704.04760 ）。

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

云 TPU 集群（TPU Pod）可以提供最高 11.5PFlops 的機(jī)器學(xué)習(xí)加速能力

谷歌大腦 2017 總結(jié)上篇：基礎(chǔ)研究進(jìn)展迅速，開放資源遍地開花

用 ImageNet 訓(xùn)練 ResNet-50 的實驗結(jié)果表明，隨著 TPU 數(shù)量增加，性能增加也幾乎是理想線性的

推理任務(wù)很重要，而訓(xùn)練過程的加速其實是一個更重要的問題，同時也更難解決。5 月份在谷歌 I/O 大會公布的第二代 TPU 是一個集成的完整系統(tǒng)（定制 ASIC 芯片、電路板以及芯片互聯(lián)），它的設(shè)計目標(biāo)是能夠同時加速訓(xùn)練和推理過程。谷歌大腦展示了單塊設(shè)備的配置模式，以及多設(shè)備組成的深度學(xué)習(xí)超級計算機(jī)集群 TPU Pod。谷歌大腦也宣布，這些第二代 TPU 將在谷歌云平臺上作為谷歌云 TPU 向客戶提供。同時，谷歌大腦也公開了 TensorFlow 研究云（TFRC），這個項目將會給有意愿向全世界分享他們的研究成果的研究者免費提供 1000 個云 TPU 組成的計算集群的使用權(quán)。在 12 月份，谷歌大腦也展示了另一項成果，他們在 22 分鐘內(nèi)在云 TPU 集群上用 ImageNet 訓(xùn)練了 ResNet-50 模型并且達(dá)到了很高精度，這項工作在以往的典型工作站上可能需要花費好幾天的時間。在谷歌大腦看來，把研究過程中的測試時間縮短到這種程度將會大幅度提高谷歌以及所有使用云 TPU 的團(tuán)隊的生產(chǎn)力。對云 TPU、TPU 集群或者 TensorFlow 研究云感興趣的讀者可以在 g.co/tpusignup 注冊后了解更多信息。谷歌大腦非常期待可以讓更多的工程師和研究人員在 2018 年用上 TPU！

（本篇結(jié)束。下篇中會介紹醫(yī)療保健、機(jī)器人、多個自然科學(xué)研究領(lǐng)域以及創(chuàng)意領(lǐng)域中的機(jī)器學(xué)習(xí)的具體研究案例，以及介紹谷歌大腦在公平性和包容性方面的研究工作。敬請期待）

via GoogleBlog.com，雷鋒網(wǎng) AI 科技評論編譯。文章中所提的研究成果的具體細(xì)節(jié)歡迎閱讀我們的往期報道文章。

效果超過SGD和Adam，谷歌大腦的「神經(jīng)網(wǎng)絡(luò)優(yōu)化器搜索」自動找到更好的訓(xùn)練優(yōu)化器

Jeff Dean兩年AMA全盤點：26個關(guān)于谷歌大腦和機(jī)器學(xué)習(xí)未來的問題（下）

Jeff Dean兩年AMA全盤點：26個關(guān)于谷歌大腦和機(jī)器學(xué)習(xí)未來的問題（上）

Jeff Dean撰文：谷歌大腦是如何完成科研使命的？

谷歌大腦顛覆深度學(xué)習(xí)混亂現(xiàn)狀，要用單一模型學(xué)會多項任務(wù)

谷歌大腦撰文解析 AutoML：神經(jīng)網(wǎng)絡(luò)如何自行設(shè)計神經(jīng)架構(gòu)？ | Google I/O 2017

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。