1
本文作者: 三川 | 2017-02-27 14:46 |
一張圖看懂?dāng)?shù)據(jù)科學(xué)
72 核的英特爾 Xeon Phi,數(shù)據(jù)處理速度趕上 GPU?
Linux 4.10 的三大改進之處
GitHub 邀請更多開發(fā)者參與其開源指南
每日推薦文章:如何設(shè)置 Linux 虛擬機進行機器學(xué)習(xí)開發(fā)?
這幾天,該圖在國外 LinkedIn 的開發(fā)者圈子中頻頻曝光。它標題為“什么是數(shù)據(jù)科學(xué)?”,將數(shù)據(jù)科學(xué)知識體系以盡可能簡單、結(jié)構(gòu)化的方式呈現(xiàn)出來,降低入門者梳理知識點的難度。雷鋒網(wǎng)提醒,這張圖由于力求簡潔而有所疏漏,并沒有覆蓋所有核心知識點。比如美國數(shù)據(jù)科學(xué)家 Vincent Granville 就指出,他認為該圖還可以加入 automated data science 。后者指的是機器到機器、或設(shè)備到設(shè)備之間的信息傳遞以及自動交易,比如廣告網(wǎng)絡(luò)中自動購買關(guān)鍵詞的算法。
由于經(jīng)過多重轉(zhuǎn)載,最初發(fā)布者已不可考。
前天,美國數(shù)據(jù)服務(wù)商 Kx Systems 再次以跑分來秀肌肉——宣傳自家數(shù)據(jù)處理工具的優(yōu)越性。由于本次跑分使用了英特爾的旗艦機器學(xué)習(xí) CPU,事情變得有些意思。
雷鋒網(wǎng)了解到,此次評測使用了他們開發(fā)的 q 語言和 kdb+ 數(shù)據(jù)庫, 運行于英特爾為并行計算而專門優(yōu)化的旗艦 72 核 Xeon Phi 處理器平臺,來處理 11 億次紐約出租車運營的數(shù)據(jù)集(2009-至今)。
Kx 宣布:
"我們的數(shù)據(jù)處理速度,超出其它 CPU 技術(shù)不止四個量級,可與基于 GPU 的代碼‘相提并論’。對于大多數(shù)數(shù)據(jù)科學(xué)家來說,他們需要快速載入、分析大型數(shù)據(jù)集,CPU 仍然是主流的選擇。有的數(shù)據(jù)科學(xué)家為了更快的速度轉(zhuǎn)到 GPU 平臺。但他們往往發(fā)現(xiàn):編寫基于 GPU 的代碼,為數(shù)據(jù)分析任務(wù)增添了額外的復(fù)雜性,并且推高了資源需求。因此無法在基于 CPU 的 kdb+/q 數(shù)據(jù)處理,與其他基于 GPU 的技術(shù)之間做公平對比。"
當(dāng)然,這只是 Kx 的一家之言,也只是一個獨立的案例,未必能夠客觀反映 Xeon Phi 的運算性能(更關(guān)鍵的問題還有性價比)。在 GPGPU (GPU 通用計算)浪潮之下,CPU 在人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)和大數(shù)據(jù)處理中到底會擔(dān)任何種角色,尚待我們進一步觀察。
詳情:
Kx Systems:https://kx.com/2017/01/25/kx-1-1-billion-taxi-ride-benchmark-highlights-advantages-kdb-architecture/
虛擬 GPU
針對 GPU 在虛擬機環(huán)境運行的低效問題,英特爾此前發(fā)布了一系列處理器擴展包:GVT-G。Linux 4.10 版本內(nèi)核,終于加入了對 GVT-G 的原生支持。
更好的緩存控制技術(shù)
加入對英特爾 Cache Allocation Technology(CAT)技術(shù)的支持,并加入新系統(tǒng)工具 “perf c2c”。后者將改善在 NUMA 環(huán)境下,多個線程同時修改內(nèi)存中的同一部段帶來的效率問題。這兩者都只支持英特爾 CPU。
Writeback 管理
KernelNewbies.org 評論道:“從誕生之日起,Linux 把內(nèi)存數(shù)據(jù)同步到硬盤的方法一直很差勁?!倍@將在 4.10 版本得到改善。導(dǎo)致系統(tǒng)延遲的運算,將會遭到節(jié)流,以讓位于其它線程。
詳情:http://www.infoworld.com/article/3174088/linux/3-little-things-in-linux-410-that-will-make-a-big-difference.html
更多關(guān)于 perf c2c:https://joemario.github.io/blog/2016/09/01/c2c-blog/
雷鋒網(wǎng)此前報道,GitHub 發(fā)布開源指南 “Open Source Guides”,指點開發(fā)者如何參與新項目。日前在與 InfoQ 的對話中,GitHub 開源部門負責(zé)人 Brandon Keepers 表示,這份指南本身就是一個開源項目,希望能反映出社區(qū)的呼聲和多年實踐中總結(jié)的智慧。GitHub 希望更多開發(fā)者參與進來,提出開源指南的改進建議,分享他們的經(jīng)驗與技巧。
http://m.ozgbdpf.cn/news/201702/7CV4bGMMWttx1I3U.html
澳大利亞機器學(xué)習(xí)專家 Jason Brownlee,再次為大家奉上 ML 干貨教程。相比 Windows 和 Mac OS,在 Linux 平臺上進行機器學(xué)習(xí)開發(fā)具有許多天然優(yōu)勢,尤其在開發(fā)工具方面。
本教程基于 Python,分為三部分:
下載安裝 VirtualBox。
下載 Fedora Linux,然后在虛擬機中安裝
安裝 Python 3 機器學(xué)習(xí)環(huán)境。
地址:http://machinelearningmastery.com/linux-virtual-machine-machine-learning-development-python-3/
相關(guān)文章:
微軟劍橋聯(lián)合推出 DeepCoder 系統(tǒng);谷歌工程師用“買芒果”理論解釋機器學(xué)習(xí) |開發(fā)者頭條
百度將 HPC 技術(shù)引入深度學(xué)習(xí);卡巴斯基操作系統(tǒng);AMD Ryzen 預(yù)售等 | AI 開發(fā)者頭條
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。