丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給陳彩嫻
發(fā)送

0

格式機(jī)器可讀、Kaggle 上免費(fèi)使用,arXiv 發(fā)布集成170萬(wàn)篇論文數(shù)據(jù)庫(kù)

本文作者: 陳彩嫻 2020-09-01 16:51
導(dǎo)語(yǔ):170萬(wàn)篇arXiv論文集成為一個(gè)格式機(jī)器可讀的數(shù)據(jù)庫(kù),并將該數(shù)據(jù)庫(kù)托管到了Kaggle上供用戶免費(fèi)使用。數(shù)據(jù)庫(kù)包括論文標(biāo)題、作者、類(lèi)別、摘要、全文pdf

格式機(jī)器可讀、Kaggle 上免費(fèi)使用,arXiv 發(fā)布集成170萬(wàn)篇論文數(shù)據(jù)庫(kù)

茫茫滄海尋一粟——想必這是許多學(xué)者在使用arXiv網(wǎng)站搜索論文時(shí)的痛苦心聲。
不過(guò)現(xiàn)在arXiv給大家?guī)?lái)了一個(gè)好消息:他們將 170萬(wàn)篇arXiv論文集成為一個(gè)格式機(jī)器可讀的數(shù)據(jù)庫(kù),并將該數(shù)據(jù)庫(kù)托管到了Kaggle上供用戶免費(fèi)使用。數(shù)據(jù)庫(kù)包括論文標(biāo)題、作者、類(lèi)別、摘要、全文pdf等論文相關(guān)信息。

       格式機(jī)器可讀、Kaggle 上免費(fèi)使用,arXiv 發(fā)布集成170萬(wàn)篇論文數(shù)據(jù)庫(kù)

arXiv 論文數(shù)據(jù)庫(kù)Kaggle地址:https://www.kaggle.com/Cornell-University/arxiv

1


arXiv:從一個(gè)論文存儲(chǔ)庫(kù)轉(zhuǎn)變?yōu)橐粋€(gè)知識(shí)共享平臺(tái)
近30年來(lái),arXiv網(wǎng)站為公眾和研究人員提供了獲取學(xué)術(shù)論文的可靠途徑。論文類(lèi)型多樣,從物理學(xué)到計(jì)算機(jī)科學(xué)、再到介于兩者之間的各類(lèi)學(xué)術(shù)內(nèi)容,涵蓋數(shù)學(xué)、統(tǒng)計(jì)學(xué)、電氣工程、定量生物學(xué)和經(jīng)濟(jì)學(xué)等熱門(mén)學(xué)科。無(wú)論是鉆研單一領(lǐng)域的學(xué)生、尋求跨學(xué)科研究的教授還是服務(wù)公共事業(yè)的社會(huì)研究者,都能在arXiv上搜集到有利的信息。
然而,arXiv網(wǎng)站所收錄的論文數(shù)量十分龐大,為用戶的閱讀帶來(lái)明顯的壓力。另一方面,arXiv 本身也由于過(guò)分依賴 LaTex 而出現(xiàn)一系列缺陷,包括:1)使用 LaTeX 進(jìn)行排版的方式局限于單個(gè)社區(qū),其界面、語(yǔ)言、使用方式對(duì)不會(huì)編程或者只用過(guò) WYSIWYG 編輯器的人來(lái)說(shuō)比較陌生;2)網(wǎng)站上的論文一直以pdf格式交換、閱讀,但大多數(shù)pdf文檔不支持在線編輯,以致許多論文無(wú)論在網(wǎng)頁(yè)上閱讀、討論與共享;3)論文所承載的信息可發(fā)現(xiàn)率低;4)arXiv的論文與數(shù)據(jù)獨(dú)立存在,論文數(shù)據(jù)無(wú)法共享。雷鋒網(wǎng)
其中第三點(diǎn)缺陷所造成的不利影響,正如arXiv 科技總監(jiān)Steinn Sigurdsson所指出的,由于數(shù)據(jù)集的龐大,讀者很可能會(huì)忽略一些重要的發(fā)現(xiàn)、關(guān)聯(lián)知識(shí)、創(chuàng)新工具或視角。這些被忽略的信息也許能幫助研究人員產(chǎn)生一些關(guān)于原有研究主題與跨學(xué)科領(lǐng)域的新的見(jiàn)解,有更多新發(fā)現(xiàn)與創(chuàng)造力。雷鋒網(wǎng)
而 Kaggle 作為數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師搜集數(shù)據(jù)集、閱讀公開(kāi)筆記和進(jìn)行競(jìng)賽的平臺(tái),可以讓研究人員利用該平臺(tái)上豐富的數(shù)據(jù)探索工具,輕松地與他人共享相關(guān)論文文本和輸出。雷鋒網(wǎng)
arXiv的執(zhí)行董事 Presani 指出,將arXiv 論文數(shù)據(jù)庫(kù)托管到Kaggle上供用戶自由訪問(wèn),將放大這些論文本身的價(jià)值,因?yàn)檫@不僅僅給讀者提供了一個(gè)通過(guò)閱讀論文學(xué)習(xí)的平臺(tái),更是讓論文本身承載的數(shù)據(jù)和信息以機(jī)器可讀的方式在研究者之間共享、傳播和交流。
他進(jìn)一步表示,arXiv 要想從一個(gè)論文存儲(chǔ)庫(kù)轉(zhuǎn)變?yōu)橐粋€(gè)知識(shí)共享平臺(tái),就要求他們不斷創(chuàng)新展示知識(shí)與解釋知識(shí)的方式。而Kaggle的用戶可以幫助突破創(chuàng)新的局限性,為科研界相互協(xié)作提出一種新途徑。

2


arXiv 發(fā)布 Kaggle 論文數(shù)據(jù)庫(kù)的初衷
arXiv 方面表示,此舉的初衷是希望能推動(dòng)新用例的產(chǎn)生,幫助研究人員探索更多結(jié)合面向應(yīng)用的多模態(tài)特征的機(jī)器學(xué)習(xí)技術(shù),包括趨勢(shì)分析法、論文推薦引擎、類(lèi)別預(yù)測(cè)、同被引網(wǎng)絡(luò)、知識(shí)圖譜構(gòu)建和語(yǔ)義搜索接口等。
Google 的COVID-19 Research Explorer就是這樣一個(gè)基于特定語(yǔ)料庫(kù)進(jìn)行語(yǔ)義搜索的用例。這個(gè)工具可幫助研究人員精讀擁有190,000+篇關(guān)于COVID-19的研究論文的資料庫(kù)——COVID-19數(shù)據(jù)集。基于此類(lèi)數(shù)據(jù)集的接口使用了先進(jìn)的自然語(yǔ)言理解(NLU)技術(shù)來(lái)了解用戶查詢的目的。這個(gè)數(shù)據(jù)集能為復(fù)雜的科學(xué)問(wèn)題提供更多相關(guān)數(shù)據(jù)和證據(jù),大大提高了研究效率。
而他們發(fā)布這個(gè)機(jī)器可讀的arXiv數(shù)據(jù)集,就是希望其能推動(dòng)該領(lǐng)域的研究者開(kāi)發(fā)出能夠處理此類(lèi)新的語(yǔ)料庫(kù)的相似的自然語(yǔ)言理解工具。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

格式機(jī)器可讀、Kaggle 上免費(fèi)使用,arXiv 發(fā)布集成170萬(wàn)篇論文數(shù)據(jù)庫(kù)

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)