丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給恒亮
發(fā)送

0

數(shù)據(jù)整理太繁瑣?MIT發(fā)布能化零為整的分析系統(tǒng)

本文作者: 恒亮 2017-01-21 10:48
導(dǎo)語:近期,一支國際化的科研團隊發(fā)布了一個全新的大數(shù)據(jù)分析系統(tǒng)——Data Civilizer。

數(shù)據(jù)整理太繁瑣?MIT發(fā)布能化零為整的分析系統(tǒng)

2016年美國CrowdFlower公司從業(yè)內(nèi)80位數(shù)據(jù)科學(xué)家那里得到的調(diào)查結(jié)果顯示,他們平均花費在數(shù)據(jù)收集和整理上的時間占到整個數(shù)據(jù)分析過程的80%,而只有余下20%的時間才是真正用來分析數(shù)據(jù)的。

這就是我們通常所說的數(shù)據(jù)分析過程,其實有一大部分時間都用在了前期的數(shù)據(jù)的收集和整理上。那么收集和整理又為什么如此耗時呢?

隨著數(shù)字化和信息化的深入,目前的可用數(shù)據(jù)并非集中于一點,而是廣泛分布在各種文件、電子表格、分布式數(shù)據(jù)庫、數(shù)據(jù)湖和其他軟件系統(tǒng)之中,數(shù)據(jù)科學(xué)研究者需要從各種渠道獲取這些數(shù)據(jù),過濾其中的有效部分,再將數(shù)據(jù)組織成便于處理的格式,這一系列的過程都需要耗費大量的精力和時間。

為此,一支國際化的科研團隊近期發(fā)布了一個全新的大數(shù)據(jù)分析系統(tǒng)——Data Civilizer,試圖解決這一難題。該系統(tǒng)免去了一定程度的整理過程,可以自動識別不同數(shù)據(jù)表格之間的內(nèi)在聯(lián)系,并允許用戶以類似查詢數(shù)據(jù)庫的方式直接操作這些零散的數(shù)據(jù)表格。更重要的是,用戶還可以將這些查詢結(jié)果重新組織成一個有序的新數(shù)據(jù)庫,以便進行后續(xù)的分析和處理。

這里之所以稱Civilizer系統(tǒng)的研發(fā)團隊是一支國際化的團隊,是因為其主要成員并非來自同一個實驗室或者同一所高校,甚至并非同一個國家。例如:來自CSAIL的博士后Dong Deng和Raul Castro Fernandez(他們同時也是論文的主要作者),上文提到的Sam Madden教授,以及其他6位來自柏林技術(shù)大學(xué)、南洋理工大學(xué)、滑鐵盧大學(xué)和卡塔爾計算機研究所的科研人員。另外值得一提的是,盡管并沒有參與論文的撰寫,但來自麻省理工學(xué)院電氣工程和計算機科學(xué)系的副教授、2014圖靈獎獲得者Michael Stonebraker同樣也為這項研究做出了貢獻。

麻省理工學(xué)院電氣工程和計算機科學(xué)教授,CSAIL大數(shù)據(jù)教研室主任Sam Madden表示:“當(dāng)前,由于有成千上萬的數(shù)據(jù)被分散在各種軟件系統(tǒng)中,因此要組織一個龐大的數(shù)據(jù)集非常困難。Civilizer系統(tǒng)可以幫助數(shù)據(jù)科學(xué)家快速找到包含相關(guān)信息的數(shù)據(jù)表格,并將這些表格集合在一起,創(chuàng)建一個完整的數(shù)據(jù)庫,從而大大提高了大數(shù)據(jù)分析的效率?!?/p>

逐列分析

Civilizer系統(tǒng)假定其處理的所有數(shù)據(jù)都按照表格的形式組織。但正如Sam Madden所說,由于將數(shù)據(jù)轉(zhuǎn)換為表格的技術(shù)在大數(shù)據(jù)領(lǐng)域并不是什么高新的技術(shù),因此這一點并非新研究的重點。類似的,雖然Civilizer的系統(tǒng)原型可以從各種不同類型的文件中提取表格數(shù)據(jù),但配合現(xiàn)有程序?qū)?shù)據(jù)進行處理卻并非研究者的首要任務(wù)?!斑@部分只是工程上的工作,而并非科研上的?!盨am Madden教授表示。

Civilizer系統(tǒng)的核心優(yōu)勢在于逐列分析所有的數(shù)據(jù)表格,然后得到每一列的統(tǒng)計概要。對于數(shù)值數(shù)據(jù),概要中可以包括該數(shù)值出現(xiàn)的頻率、數(shù)值的范圍、數(shù)值的基數(shù)、以及每列包含的不同數(shù)值的個數(shù)等。對于文本數(shù)據(jù),概要將包含每列中出現(xiàn)頻率最高的詞匯,以及不同詞匯的個數(shù)統(tǒng)計。此外,Civilizer系統(tǒng)還將對每個出現(xiàn)的詞匯和包含這些詞匯的表格生成一個索引目錄。

此后,系統(tǒng)將對比所有列的統(tǒng)計概要,根據(jù)概要內(nèi)容識別具有高度相似性的列(例如具有相似的數(shù)值范圍、相似的詞匯集合的列),并將這些單獨的列兩兩一組,組成一個一個的“列對”。Civilizer會為每個列對分配彼此相似的權(quán)值,并在權(quán)值的基礎(chǔ)上生成一個能夠反映列與列之前的連接關(guān)系、表格與表格之間的連接關(guān)系的映射圖。

自動識別相關(guān)性

這里可以通過一個例子來說明Civilizer系統(tǒng)的查詢能力:假設(shè)一家制藥公司有一些包含藥物品牌名的表格,一些包含藥物化學(xué)成分的表格,以及一些包含藥物內(nèi)部代號的表格。我們不妨稱這些表格為1類,2類和3類?,F(xiàn)在假定1和2從未出現(xiàn)在同一個表格中,但至少有一份表格反映1和3的對應(yīng)關(guān)系,以及反映2和3的對應(yīng)關(guān)系。那么當(dāng)用戶利用Civilizer對所有這些表格展開分析時,對1類的查詢結(jié)果也可以包含2類中的信息。

需要指出的是,Civilizer系統(tǒng)的識別結(jié)果也有可能是錯誤的。但系統(tǒng)允許用戶丟棄不恰當(dāng)?shù)牟樵兘Y(jié)果,保留有效的數(shù)據(jù)。數(shù)據(jù)被裁減之后,用戶還可以將結(jié)果保存為一個獨立的數(shù)據(jù)文件,方便后續(xù)的使用。

Merck制藥公司的高級信息分析師Iain Wallace表示:“Civilizer的技術(shù)非常有趣,它或許能幫助數(shù)據(jù)科學(xué)家解決由于可用數(shù)據(jù)越來越多而引發(fā)的一個重要問題:究竟哪些數(shù)據(jù)集應(yīng)該被納入分析之列。而且組織機構(gòu)越龐大,這個問題就越嚴(yán)重?!?/p>

Sam Madden教授表示:“目前我們正在探索如何將Civilizer系統(tǒng)作為各種化學(xué)和生物學(xué)數(shù)據(jù)集之上的協(xié)調(diào)層。因為這些數(shù)據(jù)集通常需要將化合物、疾病和搜索目標(biāo)聯(lián)系在一起。一個典型例子就是當(dāng)用戶從一個化合物表格中找到某種特定的化合物后,常常還需要根據(jù)這種化合物在其他表格中搜索更多的附加信息。Civilizer系統(tǒng)允許用戶對所有列數(shù)據(jù)進行全文搜索,并自動識別出相關(guān)列。通過Civilizer,我們可以方便地添加額外數(shù)據(jù)源,并快速更新之前的分析結(jié)果?!?/p>

civilize意為使之文明、使之開化,MIT將新系統(tǒng)命名為Data Civilizer,意思很明顯,是希望通過這個系統(tǒng)讓大數(shù)據(jù)處理變得更簡單方便,為開發(fā)者簡化數(shù)據(jù)的預(yù)處理過程,把更多精力和時間放在真正的數(shù)據(jù)分析過程中。我們希望以MIT的這項最新研究成果為起點,未來可以出現(xiàn)更多類似的數(shù)據(jù)處理工具,推動數(shù)據(jù)科學(xué)更快的向前發(fā)展。雷鋒網(wǎng)雷鋒網(wǎng)

來源:mit,雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

數(shù)據(jù)整理太繁瑣?MIT發(fā)布能化零為整的分析系統(tǒng)

分享:
相關(guān)文章

編輯

歡迎交流,微信:whl123465
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說