為什么 PyTorch 這么火？一線開發(fā)者這樣說

本文作者： AI研習(xí)社

2017-05-10 15:49

導(dǎo)語：專業(yè)人士怎么說？

編者按：2017 年初，F(xiàn)acebook 在機器學(xué)習(xí)和科學(xué)計算工具 Torch 的基礎(chǔ)上，針對 Python 語言發(fā)布了一個全新的機器學(xué)習(xí)工具包 PyTorch。一經(jīng)發(fā)布，這款開源工具包就受到了業(yè)界的廣泛關(guān)注和討論，經(jīng)過幾個月的發(fā)展，目前 PyTorch 已經(jīng)成為從業(yè)者最重要的研發(fā)工具之一。PyTorch 為什么如此受歡迎，研究人員是出于怎樣的考慮選擇了 PyTorch？針對這些問題，我們今天不妨來看看專業(yè)人士怎么說。

以下內(nèi)容轉(zhuǎn)載自饒錦峰在知乎上的問答，雷鋒網(wǎng)已或授權(quán)。饒錦峰先后就讀于浙江大學(xué)和美國馬里蘭大學(xué)的計算機科學(xué)學(xué)院，曾于微軟和谷歌實習(xí)，研究方向是深度神經(jīng)網(wǎng)絡(luò)和自然語言處理等。

PyTorch比較吸引我的特性有以下幾點：

1. 支持Python。之前用Lua寫代碼不要太痛苦（用 Torch 時），各種功能性函數(shù)沒有。舉個例子，Lua里面最主要的數(shù)據(jù)結(jié)構(gòu)是table(類似于Python語言里面的dict)，table里元素是通過key的形式來訪問的。很多情況下我想訪問table里面有多少個元素，這要是在python或者java里面就是table.size()一句話就能搞定的，但放在Lua里面，唯一可行的方案就是像下面這樣：

function tablelength(T)
local count = 0
for _ in pairs(T) do count = count + 1 end
return countend

2. 支持autograd。不用自己去定義和數(shù)學(xué)推導(dǎo)back-propagation. 這個還是比較實用的，記得很早的時候，torch里面還沒有計算cosine similarity的函數(shù)，得自己定義cosine的forward和backward函數(shù)，又溫習(xí)了一遍微積分=_=不過自己寫backward也是有好處的，這是一個很好的學(xué)習(xí)過程，對你理解深度學(xué)習(xí)的原理有很大的幫助。當你的代碼出錯了的時候，你能有個比較清晰的思路從哪里開始debug.

3. 更容易debug。無論是Torch還是PyTorch的底層都是一個C語言實現(xiàn)的庫函數(shù)。在寫深度學(xué)習(xí)的代碼的時候最痛苦的一塊可能就是debug了。當結(jié)果出現(xiàn)問題的時候你不知道你是因為你的hyper-parameter設(shè)得不對，還是模型定義的時候出錯了，或者是某一層layer計算的時候出錯了和整個模型的assumption就不適合這個數(shù)據(jù)集。要找出原因只能不斷的簡化模型并且試錯，這時候PyTorch能夠逐層打印出計算結(jié)果就顯得非常靈活了（簡直是NN debug的救星）。雖然其他一些工具Keras也能支持顯示每層layer的output，但是依賴于一些輔助函數(shù)，寫起來也比較麻煩。

4. 支持動態(tài)圖的創(chuàng)建。現(xiàn)在的深度學(xué)習(xí)平臺在定義模型的時候主要用兩種方式：static computation graph(靜態(tài)圖模型) 和 dynamic computation graph(動態(tài)圖模型)。絕大部分平臺都采用的是static的定義方式，包括TensorFlow, Theano, Caffe，Keras等。靜態(tài)圖定義的缺陷是在處理數(shù)據(jù)前必須定義好完整的一套模型，能夠處理所有的邊際情況。比如在聲明模型前必須知道整個數(shù)據(jù)中句子的最大長度。相反動態(tài)圖模型(現(xiàn)有的平臺比如PyTorch, Chainer, Dynet)能夠非常自由的定義模型。舉個例子，傳統(tǒng)的LSTM往往處理一個句子的時候都是以word為單位，然后利用word2vec來初始化詞向量。但是往往有一些很奇怪的詞在vocabulary里是找不到的，也就是沒法用word2vec初始化詞向量。這時候你可能想用characer-level(字符)級別的表示來初始化那個單詞，就需要借助動態(tài)圖模型的定義了。簡單來說動態(tài)圖模型允許你在運行程序的時候動態(tài)去修正你的模型結(jié)構(gòu)，來處理各種奇奇怪怪的邊角輸入，這在學(xué)術(shù)研究的時候的靈活性就體現(xiàn)出來了。

為什么 PyTorch 這么火？一線開發(fā)者這樣說

上圖左邊為靜態(tài)圖的計算框架，右邊為動態(tài)圖的框架 [1]。靜態(tài)圖需要在處理數(shù)據(jù)前定義好一套完整的模型；而動態(tài)圖模型允許用戶先定義好一套基本的框架再根據(jù)數(shù)據(jù)來實時修正模型。

5. 和 LuaJIT 相比降低了大概30%-50%的內(nèi)存使用率，而且 LuaJIT 是有 2G 的內(nèi)存上限的(這個有時候很麻煩)。另外謝謝評論區(qū)的@peng sun補充，LuaJIT的內(nèi)存上限是指lua內(nèi)部的數(shù)據(jù)結(jié)構(gòu)，比如table, string等，不包括用戶定義的數(shù)據(jù)結(jié)構(gòu)，比如torch.Tensor之類等，不然把word embedding load到內(nèi)存里就炸了。。有時候為了避免內(nèi)存溢出的情況，會用Lua 5.1編譯，而不用LuaJIT。關(guān)于Lua 編譯器和LuaJIT的區(qū)別，可以參看這個帖子：What makes LuaJIT faster than Lua?

補充一點是，目前版本在效率上比Torch慢5%，可能是因為創(chuàng)建動態(tài)圖的時候多耗時了. 在PyTorch網(wǎng)站上有個帖子討論和Torch的比較，可以看看：Roadmap for torch and pytorch

其他一些我會考慮的點：

1. 遷移成本。作為Torch用戶，我已經(jīng)很習(xí)慣它的一套開發(fā)流程了，也能夠比較高效的實現(xiàn)定義的模型了。如果要遷移到PyTorch平臺，需要學(xué)習(xí)下里面的一些函數(shù)定義和使用，不想換平臺的時候太麻煩。

2. 社區(qū)支持。作為一個新開發(fā)的平臺，PyTorch的社區(qū)支持還是比較弱的，還沒有什么開源的代碼和模型。我不知道有多少老Torch用戶去轉(zhuǎn)移到PyTorch上面去，但是有一個良好的社區(qū)環(huán)境是需要長時間的積累的。

在選擇一個深度學(xué)習(xí)平臺上，我會主要考慮易用性，學(xué)習(xí)成本和社區(qū)環(huán)境。舉個例子就Torch而言，社區(qū)環(huán)境很好，但學(xué)習(xí)成本和易用性上要打個折扣，我想這是很多新用戶可能不會選擇Torch的原因，也是PyTorch開發(fā)的一部分初衷吧（降低學(xué)習(xí)成本和提高易用性來吸引更多的新用戶）。就PyTorch而言，剛開始開放出來社區(qū)支持還不是很強，不過最近一段時間口碑上去得很快，社區(qū)的增長也比較迅速。

總體來說我還是很喜歡 PyTorch 的編程模式的，非常好用，推薦 researcher 使用。相反，如果只是想了解一下深度學(xué)習(xí)，并且快速開發(fā)出一套簡單實用的深度學(xué)習(xí)模型，推薦 Keras+TensorFlow 作為入門工具(API簡單+文檔全+社區(qū)強)。

--------------------------------

最后貼一張Andrej Karpathy博客里各深度學(xué)習(xí)平臺使用比例的圖：

為什么 PyTorch 這么火？一線開發(fā)者這樣說

圖片來源：http://t.cn/R6g0QFB

[1] Chainer: a Next-Generation Open Source Framework for Deep Learning, Tokui, Seiya and Oono, Kenta and Hido, Shohei and Clayton, Justin, NIPS 2015, Learning System workshop.

TensorFlow & 神經(jīng)網(wǎng)絡(luò)算法高級應(yīng)用班” 要開課啦！

從初級到高級，理論 + 實戰(zhàn)，一站式深度了解 TensorFlow！

本課程面向深度學(xué)習(xí)開發(fā)者，講授如何利用 TensorFlow 解決圖像識別、文本分析等具體問題。課程跨度為 10 周，將從 TensorFlow 的原理與基礎(chǔ)實戰(zhàn)技巧開始，一步步教授學(xué)員如何在 TensorFlow 上搭建 CNN、自編碼、RNN、GAN 等模型，并最終掌握一整套基于 TensorFlow 做深度學(xué)習(xí)開發(fā)的專業(yè)技能。

兩名授課老師佟達、白發(fā)川身為 ThoughtWorks 的資深技術(shù)專家，具有豐富的大數(shù)據(jù)平臺搭建、深度學(xué)習(xí)系統(tǒng)開發(fā)項目經(jīng)驗。