0
本文作者: 宗仁 | 2016-08-19 17:38 |
進行深度學習的訓練向來不被認為是CPU的強項,但是以CPU研發(fā)見長的英特爾并不甘心屈服于這個定位,在過去的幾年里,英特爾及其合作伙伴一直在探索用CPU來進行快速有效的深度學習開發(fā)的方法。代號KNL的Xeon Phi至強芯片是英特爾的努力嘗試之一,同時在深度學習算法的改進上,英特爾也做了一些努力。
近日,在美國舊金山舉行的IDF16大會上,與英特爾聯合宣布啟動了KNL試用體驗計劃的浪潮集團副總裁、技術總監(jiān)胡雷鈞做了基于英特爾至強融合處理器KNL和FPGA上的深度學習的試用體驗報告。報告介紹了高性能計算和深度學習發(fā)展的趨勢、深度學習在高性能計算平臺上的挑戰(zhàn)和解決辦法、大規(guī)模深度學習平臺的系統(tǒng)設計、多核設備和機群系統(tǒng)的算法設計(包括KNL和FPGA各自的技術分析) 4部分的內容。下面我們從摩爾定律的演變開始,看企業(yè)在實踐過程中,如何基于英特爾至強融合處理器KNL和FPGA,搭建最佳的深度學習算法。
1965年摩爾定律提出后,我們開始依次進入1965-2005年的單核CPU時代;2006至如今的多核CPU時代;2012至如今的多核英特爾MIC時代。
高性能計算設備聯手大數據提升深度學習的發(fā)展的同時,深度學習也在促進新的高性能計算模型的發(fā)展。歸根結底,我們把深度學習現在的成功歸功于三方面:1)大量標簽數據樣本的出現:圖片(10億級)/語音(10萬小時以上)。2)好的算法,模型,軟件的出現: 算法:DNN/CNN/RNN 軟件:Caffe/TensorFlow/MXNet 3)高性能計算樣本的激勵:AlphaGo可視為典型例子。
具體表現為兩方面,其一,大規(guī)模深度學習平臺的系統(tǒng)設計。比如離線訓練要求的:高性能;在線識別要求的:低功耗。其二,多核設備和機群系統(tǒng)的算法設計問題。比如,多核設備異構細粒度并行算法;機群系統(tǒng)的分布式以及粗粒度并行算法。這些都是不容易解決的問題。
上述的挑戰(zhàn)之一,大規(guī)模深度學習平臺的系統(tǒng)設計問題,具體分為兩種:
離線訓練平臺特點:計算機密集型/交流密集型——使用KNL平臺最合適。
在線識別平臺特點:高吞吐量,低功耗——使用FPGA平臺最合適。
最終呈現出來的完整深度學習平臺,就是KNL+FPGA 機群+OPA網絡+Lustre存儲 (由Linux和Clusters演化而來, 可以看做一個解決海量存儲問題而設計的全新文件系統(tǒng))的全新結合體。
在我們的浪潮—Intel中國并行計算實驗室里,KNL/FPGA技術研究;HPC/深度學習應用;第一代 Xeon Phi Book三個方向的探索正如火如荼地進行著。
下面詳細介紹具體應用實踐中(SKA【平方公里陣列望遠鏡】的數據處理軟件Gridding、大規(guī)模線性方程組求解器GMRES和開源深度學習并行計算框架Caffe-MPI的KNL版本)的高性能計算平臺和其算法表現。
它是英特爾第二代MIC架構,基于X86 架構的多核計算:擁有最多72核,總計288線程。目前有3個產品模型:包括處理器;協處理器;KNL-F。支持大規(guī)模記憶和高速寬帶:DDR4:384 GB,90+GB/s。MCDRAM: 16GB, 500GB/s。
KNL技術的優(yōu)勢:高性能、高應用可適性、高可擴展性、可編程。
性能:1KNL/2 CPU=6.88X 。(疊加)擴展效率:95%
Caffe有許多用戶,在中國非常流行。在數據規(guī)模很大的情況下,一個節(jié)點通常需要很長的時間去訓練。這就要求,Caffe的前饋計算,權重計算,網絡更新可在并行機群環(huán)境中處理。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。