丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給聰聰
發(fā)送

0

多模態(tài)語料庫 “書生·萬卷” 1.0發(fā)布,面向行業(yè)開源

本文作者: 聰聰 2023-08-24 16:49
導語:語料庫包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,數(shù)據(jù)總量超過2TB。

國產(chǎn)大模型時代,高質(zhì)量、開源、可信數(shù)據(jù)的重要性不言而喻,但它的稀缺性也是 AI 同行有目共睹的。

為了改變這一現(xiàn)狀,OpenDataLab 聯(lián)合大模型語料數(shù)據(jù)聯(lián)盟構(gòu)建了“書生·萬卷”數(shù)據(jù)集,旨在為學術界及產(chǎn)業(yè)界提供更符合主流中文價值對齊的高質(zhì)量大模型多模態(tài)預訓練語料。雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,“書生·萬卷” 1.0 版本已經(jīng)于8 月14日正式發(fā)布。

書生·萬卷1.0 是書生·萬卷多模態(tài)語料庫的首個開源版本,包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,數(shù)據(jù)總量超過2TB?;诖竽P蛿?shù)據(jù)聯(lián)盟構(gòu)建的語料庫,上海AI實驗室對其中部分數(shù)據(jù)進行細粒度清洗、去重以及價值對齊,形成了書生·萬卷1.0,具備多元融合、精細處理、價值對齊、易用高效等四大特征。

多元融合方面,書生·萬卷1.0包含文本、圖文、視頻等多模態(tài)數(shù)據(jù),范圍覆蓋科技、文學、媒體、教育、法律等多個領域,在訓練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。

精細處理方面,書生·萬卷1.0經(jīng)歷了語言甄別、正文抽取、格式標準化、基于規(guī)則及模型的數(shù)據(jù)過濾與清洗、多尺度去重、數(shù)據(jù)質(zhì)量評估等精細化數(shù)據(jù)處理環(huán)節(jié),因而能更好地適配后續(xù)的模型訓練需求。

價值對齊方面,研究人員在書生·萬卷1.0的構(gòu)建過程中,著眼于內(nèi)容與中文主流價值觀的對齊,通過算法與人工評估結(jié)合的方式,提升了語料的純凈度。

易用高效方面,研究人員在書生·萬卷1.0采用統(tǒng)一格式,并提供詳細的字段說明和工具指導,使其兼顧了易用性和效率,可快速應用于語言、多模態(tài)等大模型訓練。

目前,書生·萬卷1.0已被應用于書生·多模態(tài)、書生·浦語大模型的訓練。通過對高質(zhì)量語料的“消化”,書生系列模型在語義理解、知識問答、視覺理解、視覺問答等各類生成式任務都表現(xiàn)出不錯的性能。

據(jù)了解,書生·萬卷文本數(shù)據(jù)集1.0 由來自網(wǎng)頁、百科、書籍、專利、教材、考題等不同來源的清洗后預訓練語料組成,數(shù)據(jù)總量超過5億個文檔,數(shù)據(jù)大小超過1TB。該語料將html、text、pdf、epub等多種格式的數(shù)據(jù)統(tǒng)一處理為字段統(tǒng)一的jsonl格式,并經(jīng)過細粒度的清洗、去重、價值對齊,從而形成一份安全可信、高質(zhì)量的預訓練語料。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

多模態(tài)語料庫 “書生·萬卷” 1.0發(fā)布,面向行業(yè)開源

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說