丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給劉鵬
發(fā)送

0

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

本文作者: 劉鵬 編輯:楊曉凡 2018-05-09 18:40
導(dǎo)語:去年的評測中英偉達(dá) Tesla V100 尚能不懼谷歌 TPUv1 的挑戰(zhàn),但是現(xiàn)在谷歌 TPU 二代來了,英偉達(dá) Tesla V100 尚能戰(zhàn)否?

雷鋒網(wǎng)按:谷歌去年年中推出的 TPUv1 一度讓英偉達(dá)感受到威脅將近,而現(xiàn)在的谷歌 TPU 二代 TPUv2 則著著實實得將這份威脅變成了現(xiàn)實,去年的評測中英偉達(dá) Tesla V100 尚能不懼谷歌 TPUv1 的挑戰(zhàn),但是現(xiàn)在谷歌 TPU 二代來了,英偉達(dá) Tesla V100 尚能戰(zhàn)否?

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

以下為 RiseML 對谷歌 TPUv2 和英偉達(dá) Tesla V100 的對比評測,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI 科技評論將其內(nèi)容編譯如下。

谷歌在 2017 年為加速深度學(xué)習(xí)開發(fā)了一款的定制芯片,張量處理單元 v2 (TPUv2)。TPUv2 是谷歌在 2016 年首次公開的深度學(xué)習(xí)加速云端芯片 TPUv1 的二代產(chǎn)品,被認(rèn)為有著替代英偉達(dá) GPU 的潛在實力。RiseML 此前撰寫過一篇谷歌 TPUv2 的初體驗,并隨后收到了大家「將谷歌 TPUv2 與英偉達(dá) V100 GPU 進(jìn)行對比評測」的大量迫切要求。

但是將這兩款深度學(xué)習(xí)加速芯片進(jìn)行公平而又有意義的對比評測并非易事。同時由于這兩款產(chǎn)品的對業(yè)界未來發(fā)展的重要程度和當(dāng)前深度詳細(xì)評測的缺失,這讓我們深感需要自行對這兩款重磅云端芯片進(jìn)行深度評測。我們在評測過程中也盡可能地站在芯片對立雙方傾聽不同意見,因此我們也同時與谷歌和英偉達(dá)的工程師建立聯(lián)系并讓他們在本次評測文草稿階段留下各自的意見。以上措施使得我們做出了針對 TPUv2 和 V100 這兩款云端芯片的最全面深度對比評測。

實驗設(shè)置

我們用四個 TPUv2 芯片(來自一個 Cloud TPU 設(shè)備)對比四個英偉達(dá) V100 GPU,兩者都具備 64GB 內(nèi)存,因而可以訓(xùn)練相同的模型和使用同樣的批量大小。該實驗中,我們還采用了相同的訓(xùn)練模式:四個 TPUv2 芯片組成的一個 Cloud TPU 來運行一種同步數(shù)據(jù)并行分布式訓(xùn)練,英偉達(dá)一側(cè)也是同樣利用四個 V100 CPU。

模型方面,我們決定使用圖像分類的實際標(biāo)準(zhǔn)和參考點在 ImageNet 上訓(xùn)練 ResNet-50 模型。雖然 ResNet-50 是可公開使用的參考實例模型,但是現(xiàn)在還沒有能夠單一的模型實現(xiàn)支持在 Cloud TPU 和多個 GPU 上進(jìn)行模型訓(xùn)練。

對于 V100,英偉達(dá)建議使用 MXNet 或者 TensorFlow 的實現(xiàn),可以在 Nvidia GPU Cloud 平臺上的 Docker images 中使用它們。然而,我們發(fā)現(xiàn) MXNet 或者 TensorFlow 實現(xiàn)直接拿來使用的話,在多 GPU 和對應(yīng)的大訓(xùn)練批量下并不能很好地收斂。這就需要加以調(diào)整,尤其是在學(xué)習(xí)率的設(shè)置方面。

作為替代,我們使用了來自 TensorFlow 的 基準(zhǔn)庫(benchmark repository),并在 tensorflow/tensorflow:1.7.0-gpu, CUDA 9.0, CuDNN 7.1.2 下在 Docker image 中運行它。它明顯快過英偉達(dá)官方推薦的 TensorFlow 實現(xiàn),而且只比 MXNet 實現(xiàn)慢 3%。不過它在批量下收斂得很好。這就有助于我們在同樣平臺(TensorFlow 1.7.0)下使用相同框架,來對兩個實現(xiàn)進(jìn)行比較。

云端 TPU 這邊,谷歌官方推薦使用來自 TensorFlow 1.7.0 TPU repository 的 bfloat16 實現(xiàn)。TPU 和 GPU 實現(xiàn)利用各個架構(gòu)的混合精度訓(xùn)練計算以及使用半精度存儲最大張量。

針對 V100 的實驗,我們在 AWS 上使用了四個 V100 GPU(每個 16 GB 內(nèi)存)的 p3.8xlarge 實例(Xeon E5-2686@2.30GHz 16 核,244 GB 內(nèi)存,Ubuntu 16.04)。針對 TPU 實驗,我們使用了一個小型 n1-standard-4 實例作為主機(Xeon@2.3GHz 雙核,15GB 內(nèi)存,Debian 9),并為其配置了由四個 TPUv2 芯片(每個 16 GB 的內(nèi)存)組成的云端 TPU(v2-8)。

我們進(jìn)行了兩種不同的對比實驗,首先,我們在人工合成自然場景(未增強數(shù)據(jù))下,觀察了兩者在每秒圖像處理上的原始表現(xiàn),具體來說是數(shù)據(jù)吞吐速度(每秒處理的圖像數(shù)目)。這項對比與是否收斂無關(guān),而且確保 I / O 中無瓶頸或無增強數(shù)據(jù)影響結(jié)果。第二次對比實驗,我們觀察了兩者在 ImageNet 上的準(zhǔn)確性和收斂性。

數(shù)據(jù)吞吐速度結(jié)果

我們在人工合成自然場景(未增強數(shù)據(jù))下,以每秒圖像處理的形式觀測了數(shù)據(jù)吞吐速度,也就是,在不同批量大小下,訓(xùn)練數(shù)據(jù)也是在運行過程中創(chuàng)造的。同時需要注意,TPU 的官方推薦批量大小是 1024,但是基于大家的實驗要求,我們還在其他批量大小下進(jìn)行了兩者的性能測試。

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

在生成的數(shù)據(jù)和沒有數(shù)據(jù)增強的設(shè)置下,在各種批量大小下測試兩者的每秒圖像處理性能表現(xiàn)。批量大小為「global」總計的,即 1024 意味著在每個步驟中每個 GPU / TPU 芯片上的批量大小為 256

當(dāng)批量大小為 1024,兩者在數(shù)據(jù)吞吐速度中并無實際區(qū)別!谷歌 TPU 有約 2% 的輕微領(lǐng)先優(yōu)勢。大小越小,兩者的性能表現(xiàn)會越降低,這時 GPU 就表現(xiàn)地稍好一點。但如上所述,目前這些批量大小對于 TPU 來說并不是一個推薦設(shè)置。

根據(jù)英偉達(dá)的官方建議,我們還在 MXNet 上使用 GPU 做了一個實驗,使用的是 Nvidia GPU Cloud 上提供的 Docker image (mxnet:18.03-py3) 內(nèi)的 ResNet-50 實現(xiàn)。在批量大小為 768 時(1024 太大),GPU 能每秒處理 3280 張圖像。這比上面 TPU 最好的性能表現(xiàn)還要快 3%。但是,就像上面那樣,在批量大小同為 168 時,多 GPU 上 MXNet 收斂得并不好,這也是我們?yōu)槭裁搓P(guān)注兩者在 TensorFlow 實現(xiàn)上的表現(xiàn)情況,包括下面提及的也是一樣。

云端成本

現(xiàn)在 Google Cloud 已經(jīng)開放了云端 TPU(四個 TPUv2 芯片)。只有在被要求計算時,云端 TPU 才會連接到 VM 實例。云端測試方面,我們考慮使用 AWS 來測試英偉達(dá) V100(因為 Google Cloud 當(dāng)前仍不支持 V100)?;谏厦娴臏y試結(jié)果,我們總結(jié)出了兩者在各自平臺和 provider 上的每秒處理圖像數(shù)量上的花費成本(美元)。

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

每秒圖像處理上的成本(美元)

在上表所示的成本下,云端 TPU 顯然是個贏者。然而,當(dāng)你考慮長期租用或者購買硬件(云 TPU 現(xiàn)在還沒有辦法買到),情況可能會不同。以上情況還包括當(dāng)租用 12 個月時的情況(在 AWS 上的 p3.8xlarge 保留實例的價格(無預(yù)付款))。這種租用情況將明顯得將價格降低至每 1 美元處理 375 張圖像的成本。

GPU 這邊有一個更有意思的購買選項可以考慮,例如 Cirrascale 就提供了四個 V100 GPU 服務(wù)器的月租服務(wù),月租金 7500 美元(約 10.3 美元/小時)。但是由于硬件會因 AWS 上的硬件配置(CPU 種類,內(nèi)存以及 NVLink 支持等等)的不同而改變,而以 benchmarks 為基準(zhǔn)的對比評測要求的是直接的對比(非云端租用)。

正確率和收斂

除報告兩者的原始性能之外,我們還想驗證計算(computation)是「有意義」的,也就是指,實現(xiàn)收斂至好的結(jié)果。因為我們比較的是兩種不同的實現(xiàn),所以一些誤差是在預(yù)料之中的。因此,這是一項不僅僅是關(guān)于硬件速度,還會涉及到實現(xiàn)質(zhì)量的對比評測。TPU 的 ResNet-50 實現(xiàn)中加入了非常高計算強度的圖像預(yù)處理過程,這實際上犧牲了一部分?jǐn)?shù)據(jù)吞吐速度。谷歌給出的實現(xiàn)中就是這樣設(shè)計的,稍后我們也會看到這種做法確實獲得了回報。

我們在 ImageNet 數(shù)據(jù)集上訓(xùn)練模型,訓(xùn)練任務(wù)是將一張圖像分類至如蜂鳥,墨西哥卷餅或披薩的 1000 個類別。這個數(shù)據(jù)集由訓(xùn)練用的 130 萬張圖像(約 142 GB)以及 5 萬張用于驗證的圖像(約 7 GB)組成。

我們在批量大小為 1024 的情況下,對模型進(jìn)行了 90 個時期的訓(xùn)練,并將數(shù)據(jù)驗證的結(jié)果進(jìn)行了比較。我們發(fā)現(xiàn),TPU 實現(xiàn)始終保持每秒處理 2796 張圖像的進(jìn)程,同時 GPU 實現(xiàn)保持每秒處理 2839 張。這也是根據(jù)上面數(shù)據(jù)吞吐速度結(jié)果所得的區(qū)別,我們是在未進(jìn)行數(shù)據(jù)增強和使用生成的數(shù)據(jù)的情況下,對 TPU 和 GPU 進(jìn)行的原始速度比較。

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

兩個實現(xiàn)在進(jìn)行了 90 個時期訓(xùn)練后的首位準(zhǔn)確率(即只考慮每張圖像具有最高可信度的預(yù)測情況下)

如上圖所示,TPU 實現(xiàn) 進(jìn)行了 90 個時期訓(xùn)練后的首位準(zhǔn)確率比 GPU 多 0.7%。這在數(shù)值上可能看起來是很小的差別,但是在兩者已經(jīng)非常高的水平上進(jìn)行提升是極度困難的,以及在兩者在實際應(yīng)用場景中,即便是如此小差距的提升也將最終導(dǎo)致在表現(xiàn)產(chǎn)生天壤之別。

讓我們來看一下在不同的訓(xùn)練時期模型學(xué)習(xí)識別圖像的首位準(zhǔn)確率。

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

設(shè)置了驗證的兩個 實現(xiàn)的首位準(zhǔn)確率

上表中放大圖部分首位準(zhǔn)確率的劇烈變化,與 TPU 和 GPU 這兩個 實現(xiàn)上模型的學(xué)習(xí)速率是相吻合的。TPU 實現(xiàn)上的收斂過程要好于 GPU,并在 86 個時期的模型訓(xùn)練后,最終達(dá)到 76.4% 的首位準(zhǔn)確率,但是作為對比,TPU 實現(xiàn)則只需 64 個模型訓(xùn)練時期就能達(dá)到相同的首位準(zhǔn)確率。TPU 在收斂上的提升貌似歸功于更好的預(yù)處理和數(shù)據(jù)增強,但還需要更多的實驗來確認(rèn)這一點。

基于云端的解決方案成本

最后,在需要達(dá)到一定的精確度的情況下,時間和金錢成本最為關(guān)鍵。我們假設(shè)精確度 75.7%(GPU 實現(xiàn)可實現(xiàn)的最高精確度)為可接受的解決方案,我們就可以計算出,基于要求的模型訓(xùn)練時期和模型圖像每秒處理的訓(xùn)練速度,達(dá)到該精確度的所需成本。這還包括計算模型在某個訓(xùn)練時期節(jié)點上花費的時間和模型初始訓(xùn)練所需的時間。

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

首位準(zhǔn)確率達(dá)到 75.7% 的金錢成本(保留 12 個月的使用周期)

正如上表所示,云端 TPU 允許用戶在 9 個小時內(nèi)并且花費 55 美元,就能在 ImageNet 上從零開始訓(xùn)練模型精確度至 75.7%,花費 73 美元能將模型收斂訓(xùn)練至 76.4%。雖然V100 與 TPU 的運行速度同樣,但V100 花費價格過高以及其收斂實現(xiàn)更慢,所以采用 TPU是明顯更具性價比的解決方案。

需要再一次說明的是,我們本次所做的對比評測的結(jié)果取決于實現(xiàn)的質(zhì)量以及云端服務(wù)器的標(biāo)價。

另外一項兩者的有趣對比將會是基于兩者在能量功耗上的比較。然而,我們現(xiàn)在還無法得知任何公開的 TPUv2 能量功耗信息。

總結(jié)

基于我們的實驗標(biāo)準(zhǔn),我們總結(jié)出,在 ResNet-50 上四個 TPUv2 芯片(即一個云端 TPU)和四個 GPU 的原始運行速度一樣快(2% 的實驗誤差范圍內(nèi))。我們也期待將來能通過對軟件(TensorFlow 或 CUDA)優(yōu)化來提升兩者在平臺上的運行性能和改善實驗誤差。

在特定問題實例上達(dá)到特定的精確度的兩者實際運用中,時間和云端成本最為關(guān)鍵。以目前的云端 TPU 定價,配合高水平的 ResNet-50 實現(xiàn),在 ImageNet 上達(dá)到了令人欽佩的準(zhǔn)確率對時間和金錢成本(僅花費 73 美元就能訓(xùn)練模型達(dá)到 76.4%的精確度)。

將來,我們還將采用來自其他領(lǐng)域的不同網(wǎng)絡(luò)架構(gòu)作為模型的基準(zhǔn)以進(jìn)行更深度的評測。還有一個有趣的實驗點是,對于給定的硬件平臺,想要高效地利用硬件資源需要花費多少精力。舉例來說,混合精度的計算可以帶來明顯的性能提升,然而在 GPU 和 TPU 上的實現(xiàn)和模型表現(xiàn)卻是迥異的。

最后,感謝弗萊堡大學(xué)的 Hannah Bast、卡耐基梅隆大學(xué)的 David Andersen、Tim Dettmers 和 Mathias Meyer 對本次對比評測草稿文的研讀與矯正。

via RiseML Blog,雷鋒網(wǎng) AI 科技評論編譯。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

【評測】谷歌TPU二代來了,英偉達(dá)Tesla V100尚能戰(zhàn)否?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說