丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給恒亮
發(fā)送

0

MIT用GPU處理可視化數(shù)據(jù)庫,速度較CPU提升100倍

本文作者: 恒亮 2017-01-13 18:25
導(dǎo)語:一種全新的分析型數(shù)據(jù)庫和可視化管理平臺:MapD。

作為電子計算機(jī)系統(tǒng)中一個非常重要的協(xié)處理器,GPU從1990年代第一次出現(xiàn)以來,就一直在專職負(fù)責(zé)圖形渲染和處理的相關(guān)工作。然而隨著時間的推移,技術(shù)和需求的不斷變化,GPU已經(jīng)逐漸走出了這種定位。特別是近幾年,憑借突出的并行運算能力和高性能的內(nèi)存使用效率,GPU已經(jīng)被廣泛應(yīng)用于高級實驗室仿真和深度學(xué)習(xí)編程等諸多的需要高強(qiáng)度運算的非圖形處理領(lǐng)域。

MIT計算機(jī)科學(xué)和人工智能實驗室(CSAIL)的前任研究員Todd Mostak就將GPU應(yīng)用在了數(shù)據(jù)庫領(lǐng)域。他將傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)中的運算核心——CPU替換為GPU,研發(fā)出了一種全新的分析型數(shù)據(jù)庫和一個基于地理位置可視化的數(shù)據(jù)管理平臺,名為MapD。

據(jù)Todd Mostak介紹,MapD一共有兩大特點。一是運算速度快:MapD可以在1毫秒的時間內(nèi)處理數(shù)以億計的數(shù)據(jù)點(data points),相比傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)快了100倍。二是可視化:正如名稱里“Map”(地圖)所表達(dá)的,MapD可以實時地將所有處理過的數(shù)據(jù)點以地理信息圖表的方式展現(xiàn)出來,例如在世界地圖上標(biāo)記出當(dāng)前的Twitter話題活躍度(如下圖所示,這里是MapD系統(tǒng)一個名為 Tweetmap 的實現(xiàn)樣例)。

MIT用GPU處理可視化數(shù)據(jù)庫,速度較CPU提升100倍

自從去年3月份發(fā)布第一個商用版本以來,MapD以GPU高速管理數(shù)據(jù)庫的方式已被各行業(yè)的用戶廣泛接受,目前包括Verizon等美國電信巨頭,以及媒體、財經(jīng)和廣告業(yè)的各大公司都是MapD的忠實用戶。甚至在今年10月,專門為美國中央情報局(CIA)服務(wù)的風(fēng)險投資公司In-Q-Tel也投資了MapD,宣稱他們需要MapD為美國情報系統(tǒng)研發(fā)具有特定數(shù)據(jù)處理能力的版本。

Todd Mostak表示:“CIA掌握著大量的地理空間數(shù)據(jù),他們需要對這些數(shù)據(jù)進(jìn)行有效的組織、可視化以及實時查詢。對于情報系統(tǒng)來說,這幾乎是一種剛需?!?/p>

  將GPU作為真正的處理核心

一般來說,GPU是專為并行計算而設(shè)計的專用協(xié)處理器,通常其內(nèi)部都集成了數(shù)千個高速運算核心,可以并行處理計算機(jī)屏幕上每個像素點的單獨顯色以渲染整個圖像。并且,由于GPU通常都可以直接搭配高帶寬存儲器協(xié)同工作,因此通常都比使用一般RAM的CPU的運算速度快一個數(shù)量級。

目前,雖然一些數(shù)據(jù)庫已經(jīng)使用了GPU,但他們普遍存在一個重要的設(shè)計缺陷。Todd Mostak表示:“目前大部分的數(shù)據(jù)庫管理方案都是將數(shù)據(jù)庫存儲在CPU一側(cè),當(dāng)接到用戶的數(shù)據(jù)請求時,再將數(shù)據(jù)搬移到GPU一側(cè)進(jìn)行處理,然后再將處理結(jié)果移回CPU進(jìn)行存儲。也就是說,GPU并非真正的系統(tǒng)核心。這種機(jī)制決定了:即使你通過GPU加快了數(shù)據(jù)處理速度,但把處理結(jié)果搬回CPU的過程仍然浪費了太多時間。”

與此不同的是,Todd Mostak將GPU作為了MapD系統(tǒng)的真正核心。MapD并沒有像傳統(tǒng)系統(tǒng)那樣將數(shù)據(jù)全部存儲在CPU一側(cè),而是利用高速緩存機(jī)制將盡量多的數(shù)據(jù)直接存儲在多內(nèi)核協(xié)同工作的GPU一側(cè),這樣一來就避免了數(shù)據(jù)搬移過程中浪費的大量時間,大大提升了運算效率。

在MapD系統(tǒng)中,每個GPU都有自己的緩沖池,即利用高速緩存機(jī)制將最常訪問的數(shù)據(jù)直接存儲在GPU一側(cè),而不再是硬盤。這樣一來,在數(shù)據(jù)庫需要反復(fù)查詢同一個數(shù)據(jù)點時(這種場景在實際應(yīng)用中非常常見),MapD就可以直接從GPU一側(cè)的高帶寬存儲器中直接訪問數(shù)據(jù),而不是從CPU或硬盤。

Todd Mostak表示,通過這種機(jī)制,MapD可以提供相比傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)快兩到三個數(shù)量級的性能。

  強(qiáng)大的數(shù)據(jù)處理能力

MIT用GPU處理可視化數(shù)據(jù)庫,速度較CPU提升100倍

MapD曾分析過一個被認(rèn)為是大規(guī)模數(shù)據(jù)分析能力基準(zhǔn)測試的龐大數(shù)據(jù)集合,即高達(dá)12億條數(shù)據(jù)記錄的紐約市出租車數(shù)據(jù)集。通過一家第三方測試機(jī)構(gòu)的測試,MapD的運行速度比許多先進(jìn)的CPU數(shù)據(jù)庫管理系統(tǒng)快74倍,許多數(shù)據(jù)查詢?nèi)蝿?wù)甚至能夠在毫秒內(nèi)完成。(如上圖所示為紐約市出租車數(shù)據(jù)集合的分析截圖)

在其他示例中,MapD的表現(xiàn)也同樣出色。例如,通過“Tweetmap”,用戶可以搜索所有Twitter上的熱門話題,并查看這些話題在世界各地實時的地理位置分布。在另一幅美國地圖中,用戶還可以通過MapD查看2001年以來美國所有的政治捐款,并以不同顏色標(biāo)明不同的政黨(例如紅色代表共和黨,藍(lán)色代表民主黨)。

MIT用GPU處理可視化數(shù)據(jù)庫,速度較CPU提升100倍

總體上說,不同行業(yè)的客戶對MapD系統(tǒng)的具體需求也不同,但本質(zhì)都是通過其高速的數(shù)據(jù)處理能力和基于地理位置的展示能力協(xié)助他們做出合理的商業(yè)決策。例如金融服務(wù)機(jī)構(gòu)和對沖基金可以通過該系統(tǒng)來監(jiān)控欺詐行為和做出投資決策;廣告代理商們可以通過該系統(tǒng)來評估客戶們對各種廣告的不同反饋; 社交媒體公司則可以通過該系統(tǒng)追蹤全球用戶的使用情況。

美國電信巨頭Verizon也是MapD的用戶之一,他們每周都會利用MapD系統(tǒng)對8500萬用戶更換SIM卡的行為展開分析。此前在使用傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)時,這種分析通常要耗費好幾個小時,因為效率太低,因此只能好幾個月分析一次。近期,Verizon就通過MapD系統(tǒng)的每周分析報告發(fā)現(xiàn)了一個隱藏多年的Bug,這一Bug導(dǎo)致每年有上百萬次無意義的SIM卡更換,不但大大浪費了服務(wù)資源,更造成了用戶的反感。

Todd Mostak說:“MapD這次可幫Verizon省了一大筆錢,但更重要的在于用戶體驗的提升,因為通常來說,頻繁地更換SIM卡畢竟不是什么值得高興的事?!?/p>

  從論文寫作到MapD

研發(fā)MapD系統(tǒng)的最初想法來自于2012年,那時Todd Mostak正在哈佛大學(xué)寫他的政治學(xué)碩士論文,過程中需要查詢大量的歷史資料。

使用以CPU作為處理核心的數(shù)據(jù)庫系統(tǒng)做這些資料查詢顯然不是一件輕松愉快的工作。很多次,Todd Mostak在睡覺之前敲入一個查詢命令,結(jié)果第二天醒來發(fā)現(xiàn)系統(tǒng)提示參數(shù)輸入錯誤,這種酸爽的用戶體驗簡直讓人崩潰。按照Todd Mostak的原話來說就是:“那是一個令人沮喪的經(jīng)歷?!?/p>

恰好,當(dāng)時Todd Mostak選修了由MIT數(shù)據(jù)庫研發(fā)組教授的CSAIL數(shù)據(jù)庫課程。當(dāng)時的授課教師有兩位:一位是數(shù)據(jù)庫領(lǐng)域的布道者M(jìn)ichael Stonebraker,他是MIT計算機(jī)科學(xué)的兼職教授,創(chuàng)立了Postgres、Ingres和Vertica等諸多流行的數(shù)據(jù)庫系統(tǒng);另一位是Sam Madden,他是MIT電氣工程和計算機(jī)科學(xué)的教授,現(xiàn)在是MapD的特聘顧問。

為了加快論文進(jìn)度,Todd Mostak通過自己在CSAIL數(shù)據(jù)庫課程中學(xué)到的知識,自己研發(fā)了一個簡易的數(shù)據(jù)庫系統(tǒng),也就是MapD的早期雛形。這一系統(tǒng)當(dāng)時令CSAIL數(shù)據(jù)庫課程的導(dǎo)師們印象深刻,當(dāng)然也大大加快了Todd Mostak的論文進(jìn)度。2013年,在論文最終順利通過之后,導(dǎo)師們邀請Todd Mostak以研究員的身份加入CSAIL,進(jìn)一步完善MapD。

在Sam Madden導(dǎo)師的鼓勵下,Todd Mostak開始在MIT的工業(yè)聯(lián)絡(luò)計劃(ILP)中公開展示MapD。那時開始有公司找到Todd Mostak,并表示愿意出高價購買他的研究成果。Todd Mostak說:“當(dāng)時,我對他們說這只是一個純粹的學(xué)術(shù)研究項目。雖然并沒有出售,但這件事開始讓我思考一個更普遍的問題,即如何實時地從大數(shù)據(jù)中獲取有效信息?!?/p>

2014年1月,Todd Mostak正式推出了MapD系統(tǒng),并加入了ILP計劃中的初創(chuàng)公司社區(qū),在那里可以與其他眾多MIT附屬的初創(chuàng)公司建立聯(lián)系或者合作,從那時開始Todd Mostak打算把MapD系統(tǒng)與地圖結(jié)合起來,以可視化的方式展示信息。

此后,成立于馬薩諸塞州劍橋的MapD開始逐漸步入正軌。2014年3月,MapD在Nvidia舉辦的一場初創(chuàng)公司大數(shù)據(jù)計算比賽中贏得了10萬美元獎金(現(xiàn)在Nvidia已經(jīng)成為了MapD的合作伙伴)。當(dāng)年秋天,MapD又從Nvidia和Google那里獲得了200萬美元的種子輪融資,2015年又獲得了1000萬美元的A輪融資。

現(xiàn)在,MapD已經(jīng)在舊金山新總部展開了新一輪的擴(kuò)張。在越來越多的企業(yè)開始通過云端啟用GPU編程的大趨勢下,MapD希望在舊金山收獲更多的客戶。Todd Mostak表示:“我相信在舊金山我們能收獲更多的用戶,我甚至覺得MapD才剛剛成立?!?span style="color: rgb(255, 255, 255);">雷鋒網(wǎng)雷鋒網(wǎng)

來源:MIT,雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

MIT用GPU處理可視化數(shù)據(jù)庫,速度較CPU提升100倍

分享:
相關(guān)文章

編輯

歡迎交流,微信:whl123465
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說