0
本文作者: 黃楠 | 2023-07-12 10:20 |
數(shù)據(jù)的重要性之于人工智能技術(shù)發(fā)展長(zhǎng)期存在。但在大模型以前,鮮少有人能預(yù)見它背后巨大的想象力。
作為智能飛躍中的關(guān)鍵一環(huán),ChatGPT 火爆全球后,“模型-用戶數(shù)據(jù)-模型迭代-用戶數(shù)據(jù)”的飛輪式迭代,令人們對(duì)數(shù)據(jù)的熱情上了一個(gè)新臺(tái)階。據(jù)OpenAI 披露,此前 GPT-3.5 的文本語(yǔ)料多達(dá) 45TB,相當(dāng)于 472 萬(wàn)套中國(guó)四大名著,而 GPT-4 在 GPT-3 和 GPT-3.5 訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上又增加了多模態(tài)數(shù)據(jù)。
大小企業(yè)對(duì)數(shù)據(jù)的火熱反映到實(shí)際的市場(chǎng)環(huán)境上,是數(shù)據(jù)庫(kù)企業(yè)融資數(shù)量的增加、向量數(shù)據(jù)庫(kù)的用量陡然增長(zhǎng)、以及細(xì)分賽道模型的批量推出......數(shù)據(jù)壁壘,成為大模型落地故事里企業(yè)競(jìng)爭(zhēng)力的代名詞。
不過,在經(jīng)歷近半年的浪潮后,市場(chǎng)對(duì)大模型的感知正在降溫。近日,知名投資人朱嘯虎和傅盛在朋友圈的一番隔空爭(zhēng)論,給大模型行業(yè)再添了盆冷水。在朱嘯虎看來(lái),基于大模型做應(yīng)用,護(hù)城河太低、價(jià)值非常單薄。
當(dāng)市場(chǎng)回歸冷靜,人們終于有時(shí)間開始思考:數(shù)據(jù)真的是大模型的壁壘嗎?
「卷」起來(lái)的數(shù)據(jù)
歸根結(jié)底,大模型在今天展現(xiàn)出強(qiáng)大的能力,得益于背后的海量數(shù)據(jù)、蘊(yùn)含了豐富的“人類”知識(shí)和智能,通過大模型技術(shù)將其提煉出來(lái),用神經(jīng)網(wǎng)絡(luò)去表達(dá)復(fù)雜數(shù)據(jù)的背后規(guī)律。
而 GPT 系列開啟了一個(gè)新的時(shí)代,即我們不再需要提前標(biāo)注數(shù)據(jù)了,只需將大規(guī)模的語(yǔ)料準(zhǔn)備好,神經(jīng)網(wǎng)絡(luò)就能自己調(diào)整參數(shù)、并學(xué)習(xí)到一個(gè)穩(wěn)定狀態(tài)。
就目前來(lái)看,幾乎每一次大模型能力的提升,預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、數(shù)據(jù)類型等多個(gè)方面都起到了關(guān)鍵性作用。
2020 年,一個(gè)重要的研究工作發(fā)現(xiàn),模型效果與模型的參數(shù)量、數(shù)據(jù)量和計(jì)算量之間存在冪律發(fā)展規(guī)律“Scaling Laws”,模型參數(shù)量、數(shù)據(jù)量指數(shù)性增長(zhǎng)、計(jì)算量增加,模型在測(cè)試集上的 loss 呈現(xiàn)指數(shù)性降低,模型性能效果越好。
也即是說(shuō),在給定計(jì)算量且參數(shù)規(guī)模較小的情況下,增大模型的參數(shù)量對(duì)模型性能的影響,遠(yuǎn)高于數(shù)據(jù)和訓(xùn)練步數(shù)對(duì)模型的貢獻(xiàn)。
圖源:Large Language Models: A New Moore's Law?
因此,業(yè)界對(duì)大模型性能形成了一種普遍的認(rèn)知,即模型的參數(shù)越多、容量越大,模型的性能表現(xiàn)越好。
而事實(shí)上,前段時(shí)間所發(fā)布不少大模型的表現(xiàn),正在不斷挑戰(zhàn)這一“參數(shù)”定律。
比如 Meta 在 2 月份開發(fā)的 LLaMA,其訓(xùn)練數(shù)據(jù)是 GPT-3 的 4.7 倍,其中 LLaMA-13B 雖然在規(guī)模上相較于 OpenAI 的 GPT-3.5(175B)和 Meta 復(fù)現(xiàn)的開源大模型 OPT 小了十幾倍,但其表現(xiàn)能力在大部分基準(zhǔn)上均超過后者;而LLaMA-65B 更是與 DeepMind 的 Chinchilla-70B、以及谷歌 5400 億參數(shù)的 PaLM-540B 在表現(xiàn)上旗鼓相當(dāng)。
可以看到,更多的數(shù)據(jù)對(duì)大模型性能的影響有關(guān)鍵性作用。
不僅如此,智源研究院副院長(zhǎng)兼總工程師林詠華曾向 AI科技評(píng)論表示,模型性能取得階段性突破,最重要的還有數(shù)據(jù)質(zhì)量的提升,模型的訓(xùn)練語(yǔ)料在一定程度上會(huì)影響 AIGC 應(yīng)用、微調(diào)后模型等內(nèi)容生成的合規(guī)、安全以及價(jià)值觀等問題。清華大學(xué)副教授、聆心智能創(chuàng)始人黃民烈在向 AI 科技評(píng)論回憶參與智源大模型工作時(shí),也強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量對(duì)于模型的性能影響非常之大。
當(dāng)前,國(guó)外的大模型和國(guó)內(nèi)部分模型會(huì)選用許多國(guó)外開源數(shù)據(jù)集進(jìn)行訓(xùn)練,如 Common Crawl、 RedPajama、BooksCorpus、The Pile、ROOT 等等。但源于互聯(lián)網(wǎng)的數(shù)據(jù)雖然多、質(zhì)量卻良莠不齊,從獲得海量數(shù)據(jù)到高質(zhì)量數(shù)據(jù),數(shù)據(jù)的清洗仍面臨著很大挑戰(zhàn)。
數(shù)據(jù)顯示,智源通過對(duì) 100 萬(wàn)條 Common Crawl 網(wǎng)頁(yè)進(jìn)行分析,共提取出中文網(wǎng)頁(yè)數(shù)量近 4 萬(wàn)個(gè);從站源角度來(lái)看,可提取出中文的網(wǎng)站共有25842 個(gè),其中 IP 顯示中國(guó)內(nèi)地的只有 4522 個(gè),占比僅為 17%,不僅中文數(shù)據(jù)的準(zhǔn)確性大打折扣,數(shù)據(jù)安全性也很低。
如今不僅是數(shù)據(jù)量,數(shù)據(jù)清洗方式也已成為各家的核心競(jìng)爭(zhēng)力之一。比如對(duì)數(shù)據(jù)集中污點(diǎn)數(shù)據(jù)的定義和發(fā)現(xiàn),有行業(yè)人士指出,這或許還需要社會(huì)學(xué)、倫理學(xué)等多個(gè)交叉領(lǐng)域?qū)I(yè)人士的介入,在專業(yè)知識(shí)和經(jīng)驗(yàn)積累的基礎(chǔ)上,加入對(duì)污點(diǎn)數(shù)據(jù)處理算法的迭代。
除了數(shù)據(jù)質(zhì)量,數(shù)據(jù)的多樣性也是影響模型能力表現(xiàn)的關(guān)鍵因素之一。
Sony AI 高級(jí)科學(xué)家呂靈娟向 AI 科技評(píng)論指出,數(shù)據(jù)量的增加有利于提高模型的智能水平,但更精準(zhǔn)的說(shuō)法是,數(shù)據(jù)在多樣性和質(zhì)量上的提高,才能夠?qū)崿F(xiàn)整個(gè)數(shù)據(jù)值智能的飛躍,而非是單純數(shù)量的增加。舉個(gè)例子,如果是簡(jiǎn)單的同類型數(shù)據(jù)反饋,單條數(shù)據(jù)反饋和十條同類型數(shù)據(jù)反饋,雖然在數(shù)據(jù)的數(shù)量上增加了 10 倍,但模型的智能并沒有得到拓展和增加。
以 GPT 系列模型的能力躍進(jìn)來(lái)看:
GPT-1使用的訓(xùn)練語(yǔ)料以書籍為主、如BookCorpus 等
GPT-2則使用了如 Reddit links 等新聞?lì)悢?shù)據(jù),文本規(guī)范質(zhì)量高,同時(shí)又包含了部分人們?nèi)粘=涣鞯纳缃粩?shù)據(jù)
GPT-3時(shí)期,模型的數(shù)據(jù)規(guī)模呈數(shù)十倍增長(zhǎng),Reddit links、Common Crawl、WebText2、Wikipedia 等數(shù)據(jù)集的加入,大大提高了數(shù)據(jù)的多樣性
GPT-4階段更引入了 GitHub 代碼、對(duì)話數(shù)據(jù)以及一些數(shù)學(xué)應(yīng)用題,進(jìn)一步提高了模型的思維鏈推理能力
不僅如此,模型訓(xùn)練時(shí)所使用到的不同類型的數(shù)據(jù),甚至能夠影響最終訓(xùn)練所得的模型類型。
行業(yè)大模型的研發(fā)離不開通用大模型的能力,但從技術(shù)上看,行業(yè)大模型也并非只是簡(jiǎn)單地將數(shù)據(jù)喂給通用大模型、進(jìn)行微調(diào),就能獲得解決專業(yè)領(lǐng)域問題的能力。此前有研究表明,擁有金融行業(yè)私有數(shù)據(jù)的 BloombergGPT 在多個(gè)任務(wù)上的表現(xiàn),并未比通用大模型的表現(xiàn)更好。
香港科技大學(xué)(廣州)信息樞紐院長(zhǎng)陳雷告訴 AI科技評(píng)論,“大模型解決了基礎(chǔ)的語(yǔ)言理解問題,也即是說(shuō),大家在使用它、問它的時(shí)候,它能知道大家問了什么問題。但得到什么樣的答案,需要我們數(shù)據(jù)科學(xué)、AI 模型把前端做好?!?/p>
例如之前港科大推出的校園GPT,就將智慧校園中的知識(shí)庫(kù)放入GPT或ChatGPT中,讓它具備了回答校園導(dǎo)航、餐廳菜單、課程安排等具體學(xué)校場(chǎng)景中的問題。陳雷表示,“大模型是通用的,但做vertical domain (垂直領(lǐng)域)大模型、最重要就在于,前端如何讓數(shù)據(jù)ready,如果數(shù)據(jù)表現(xiàn)不好,想讓大模型回答你的問題非常難?!北热缱鲆粋€(gè)智慧城市相關(guān)的行業(yè)大模型,就需要對(duì)應(yīng)的維基百科、企業(yè)數(shù)據(jù)等等。
可以說(shuō),今天數(shù)據(jù)之于大模型,既是“煉丹”的原材料,決定了最終“烹飪”出哪個(gè)菜系的大模型,同時(shí),數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性乃至清洗能力,也是影響大模型性能表現(xiàn)的關(guān)鍵性要素。
數(shù)據(jù)「壁壘」,是護(hù)城河還是悖論?
很長(zhǎng)時(shí)間以來(lái),數(shù)據(jù)被視為大模型落地的入場(chǎng)券,甚至是軍備競(jìng)賽中的競(jìng)爭(zhēng)護(hù)城河。關(guān)于數(shù)據(jù)“壁壘”的本質(zhì)、是否存在等問題,極少有人去思考。
眾所周知,在今天的公開互聯(lián)網(wǎng)數(shù)據(jù)中,高質(zhì)量的、中文數(shù)據(jù)樣本是偏少的,一個(gè)現(xiàn)實(shí)的情況是,大模型任意領(lǐng)域的問答生成表現(xiàn)都非常好,但面對(duì)專業(yè)領(lǐng)域問題的表現(xiàn)不佳,甚至?xí)霈F(xiàn)模型“一本正經(jīng)地胡說(shuō)八道”的幻覺。
業(yè)內(nèi)人士同 AI 科技評(píng)論交流時(shí)也坦言,數(shù)據(jù)標(biāo)注可以通過找人、花錢來(lái)完成,真正困難的是原始數(shù)據(jù)的獲取,“在國(guó)內(nèi),高質(zhì)量、經(jīng)梳理過的數(shù)據(jù)短缺是一大問題,特別是有效的中文數(shù)據(jù)更是稀缺?!?/p>
因此,當(dāng)國(guó)內(nèi)各家大模型廠商將目標(biāo)瞄準(zhǔn)在追趕GPT-3.5 時(shí),其差距大多只有 1 到 2 個(gè)月的時(shí)間差,很快就能追平,很難有哪一家能顯著拉開差距。同時(shí),由于缺少行業(yè)數(shù)據(jù)的投喂,對(duì)容錯(cuò)率更低的生產(chǎn)環(huán)節(jié)而言,大模型所能釋放的生產(chǎn)力也更加有限。
一部分人的看法是,數(shù)據(jù)壁壘將長(zhǎng)期存在,并且隨著大模型的體量向萬(wàn)億級(jí)規(guī)模邁進(jìn),數(shù)據(jù)壁壘還將持續(xù)擴(kuò)大。
可以看到,當(dāng)前的互聯(lián)網(wǎng)的數(shù)據(jù)存在一定的大廠割據(jù)的現(xiàn)象,比如在百度上搜索不會(huì)彈出來(lái)抖音的視頻推薦,阿里也拿不到微信里的數(shù)據(jù),雖然中文語(yǔ)料海量,但幾經(jīng)切割后,投喂出來(lái)的大模型效果也會(huì)大打折扣。這也意味著,數(shù)據(jù)的壁壘會(huì)不斷加高大模型的圍墻,使其成為僅限于大廠或擁有海量數(shù)據(jù)資源玩家的壟斷性技術(shù)。
一位大廠數(shù)據(jù)優(yōu)化工程師也向 AI 科技評(píng)論表達(dá)了相同的看法,大模型本身的泛化能力仍受限于數(shù)據(jù),如果說(shuō) ChatGPT 要取締某個(gè)職業(yè)或崗位的話,最簡(jiǎn)單的一個(gè)判定標(biāo)準(zhǔn)即是,是否具備數(shù)量足夠多、質(zhì)量非常好的數(shù)據(jù)。
為此,自帶場(chǎng)景、數(shù)據(jù)和用戶的產(chǎn)業(yè)、企業(yè)客戶成為了大模型公司相互爭(zhēng)奪的資源。不僅如此,有知情人士告訴 AI 科技評(píng)論,為了搶占這部分企業(yè)客戶拿到數(shù)據(jù),一些大模型廠商還愿意自降身價(jià),以比競(jìng)爭(zhēng)對(duì)手更低的低折扣、甚至免費(fèi)的方式為企業(yè)部署大模型,以求得后續(xù)進(jìn)一步深度合作。
而另一邊,也有人對(duì)數(shù)據(jù)壁壘的觀點(diǎn)持相反看法。
有業(yè)內(nèi)人士就表示,數(shù)據(jù)壁壘、數(shù)據(jù)壟斷去搭建企業(yè)自己的護(hù)城河這一方式并不存在,更多是持有數(shù)據(jù)公司來(lái)拉高自身估值的一個(gè)說(shuō)辭。現(xiàn)階段,數(shù)據(jù)泄露、數(shù)據(jù)買賣的事件頻頻發(fā)生,灰色地帶衍生的產(chǎn)業(yè)鏈成為直指數(shù)據(jù)壁壘的矛,“一個(gè)關(guān)鍵性問題就在于,你怎么證明別人盜用了你的數(shù)據(jù)?我又要怎么防止別人盜用我的數(shù)據(jù)?”
不僅如此,數(shù)據(jù)信息也是存在于一定時(shí)間周期中的數(shù)據(jù),一方面,短時(shí)間內(nèi)的數(shù)據(jù)累計(jì)能否發(fā)生質(zhì)變,從數(shù)據(jù)轉(zhuǎn)化為有效信息還尚未可知;另一方面,有部分行業(yè)數(shù)據(jù)還會(huì)定期進(jìn)行信息披露,也就是說(shuō),今天信息的私密不意味著未來(lái)數(shù)據(jù)信息的私密。
而站在技術(shù)革新的角度上,一位從事自然語(yǔ)言處理方向研究的高校教授也告訴 AI 科技評(píng)論,語(yǔ)言大模型之所以涌現(xiàn),是多種技術(shù)積累沉淀和極致的工程化的結(jié)果,事實(shí)上并沒有什么革命性的跨越,而是一個(gè)技術(shù)工程、對(duì)參數(shù)的掌握,“底座技術(shù)決定了大模型整體性能的80%,數(shù)據(jù)、場(chǎng)景等等其他東西只占20%。因此,我們關(guān)注的核心還是在于,盡快先把里邊的機(jī)理弄清楚,再?gòu)牡鬃P腿胧帧⑾朐趺催M(jìn)行革命性的提升?!?/p>
總體而言,隨著市場(chǎng)化的深入,將大模型用在業(yè)務(wù)里,一套被寄予厚望的商業(yè)模式是,收集更多的數(shù)據(jù)做成數(shù)據(jù)黑洞,模型也能變得更強(qiáng)。但同時(shí)我們也要看到,數(shù)據(jù)壁壘之于技術(shù)創(chuàng)新的局限性。
數(shù)據(jù)的「達(dá)摩克利斯之劍」
OpenAI 在對(duì)未來(lái) AGI 發(fā)展的預(yù)測(cè)中提到了兩個(gè)重要方向,其中之一就是收集盡可能多的有效數(shù)據(jù)??梢钥吹剑瑥?GPT-3 的文本數(shù)據(jù),到 GPT-4 文本加圖片的多模態(tài)數(shù)據(jù),有業(yè)內(nèi)人士預(yù)測(cè),GPT-5 將是文本、圖片加視頻的數(shù)據(jù)匯合。
作為工程化落地的關(guān)鍵一環(huán),數(shù)據(jù)還有很多問題沒有得到足夠重視,面臨著極大的挑戰(zhàn),首當(dāng)其沖就是數(shù)據(jù)安全問題。
將 GPT 家族視為一個(gè)不斷迭代的大模型版本,必然存在一大部分?jǐn)?shù)據(jù)共享,再引入新的數(shù)據(jù)和機(jī)制訓(xùn)練,模型的訓(xùn)練效率和生成內(nèi)容質(zhì)量受技術(shù)、數(shù)據(jù)等方面影響發(fā)生改變,而無(wú)論是哪個(gè)方面,數(shù)據(jù)存在安全隱患是毋庸置疑的。
呂靈娟告訴 AI 科技評(píng)論:“這些數(shù)據(jù)未經(jīng)授權(quán)、也沒有好的制約機(jī)制,即便在早期訓(xùn)練過程中,企業(yè)或研發(fā)人員會(huì)對(duì)有害數(shù)據(jù)進(jìn)行篩除,但從完整的訓(xùn)練流程來(lái)看,模型仍會(huì)不可避免地繼承或者加重部分污點(diǎn)數(shù)據(jù)?!逼渲校P偷目山忉屝耘c數(shù)據(jù)量呈高度相關(guān)性,模型越大、黑盒子越難解釋。
不僅如此,當(dāng)前的現(xiàn)狀是,大部分企業(yè)公司并不愿意公布自身大模型的訓(xùn)練數(shù)據(jù)來(lái)源,數(shù)據(jù)當(dāng)中涉及到隱私、公平性、偏見和環(huán)境等多方面問題,站在商業(yè)立場(chǎng)上,容易引發(fā)激烈討論的數(shù)據(jù)集風(fēng)險(xiǎn)程度更高,企業(yè)出于經(jīng)營(yíng)風(fēng)險(xiǎn)將數(shù)據(jù)隱藏起來(lái)也無(wú)可厚非,但在這個(gè)過程中,外界也無(wú)法獲知該數(shù)據(jù)對(duì)個(gè)人及社會(huì)造成的具體危害有多大。
不同規(guī)模大小的企業(yè)資源差距較大,面對(duì)數(shù)據(jù)安全問題的解決方法也不同:小公司沒有足夠的財(cái)力和人力,一般多采用現(xiàn)有的開源數(shù)據(jù)集;大企業(yè)采用的方式,更多是以雇傭人力做數(shù)據(jù)標(biāo)注來(lái)對(duì)數(shù)據(jù)進(jìn)行深度清洗、提高數(shù)據(jù)質(zhì)量。
專業(yè)人士指出,數(shù)據(jù)清洗作為大模型訓(xùn)練中一個(gè)最基本的數(shù)據(jù)環(huán)節(jié),雖然可以過濾掉部分隱私或有害信息,但總的來(lái)說(shuō)效果并不夠,沒有辦法將數(shù)據(jù)集中的偏見消除干凈,模型訓(xùn)練數(shù)據(jù)清洗能達(dá)到怎樣的程度,也并不能解決根本問題。對(duì)此,呂靈娟表示,解決問題的關(guān)鍵還是應(yīng)該從前期導(dǎo)入數(shù)據(jù)階段就做好防范措施,從而在后期運(yùn)維上也能節(jié)省更多的開支。
IDEA 研究院首席科學(xué)家張家興博士告訴 AI 科技評(píng)論,在開源層面,開發(fā)者也面臨著諸多的數(shù)據(jù)安全問題,其中就涉及到有些行業(yè)數(shù)據(jù)是否適合開源,因此從開源角度上看,也限制了部分模型只能部署在少數(shù)行業(yè)內(nèi)做嘗試。
而著眼于當(dāng)下,用于訓(xùn)練 ChatGPT、GPT-4 等模型的數(shù)據(jù),均源于人類發(fā)展過程中所積累下來(lái)的書籍、文章、圖片、網(wǎng)站信息、代碼等,是在沒有 AI 幫助生成的情況下創(chuàng)造的,伴隨著生成式內(nèi)容和數(shù)據(jù)越來(lái)越多,或許在不久的將來(lái),可能會(huì)出現(xiàn)大模型用 AI 生成的數(shù)據(jù)進(jìn)行訓(xùn)練的事件發(fā)生。
此前,牛津大學(xué)、劍橋大學(xué)等研究人員就在“The Curse of Recursion: Training on Generated Data Makes Models Forget”工作中提出了一個(gè)令人擔(dān)憂的結(jié)論:“模型崩潰”(Model Collapse),也即是說(shuō),當(dāng)大模型生成的數(shù)據(jù)最終污染后續(xù)模型的訓(xùn)練集時(shí),模型會(huì)出現(xiàn)一個(gè)退化的學(xué)習(xí)過程,隨著時(shí)間的推移,由于模型被自己對(duì)現(xiàn)實(shí)投射內(nèi)容所毒化,模型會(huì)在這個(gè)過程中開始遺忘不可能發(fā)生的事件。
當(dāng)這些由 AI 生成的數(shù)據(jù)轉(zhuǎn)化為大模型的原材料,使模型對(duì)現(xiàn)實(shí)的認(rèn)知產(chǎn)生扭曲,從而產(chǎn)生的內(nèi)容進(jìn)一步污染網(wǎng)絡(luò)世界,未來(lái),我們通過互聯(lián)網(wǎng)獲取高質(zhì)量數(shù)據(jù)訓(xùn)練模型將會(huì)愈加困難。正如 Michael Keaton 在 1996 年電影《丈夫一籮筐》(Multiplicity)的銀幕中,制作了一個(gè)又一個(gè)自己的克隆人,最終導(dǎo)致后代克隆人的智力水平呈指數(shù)級(jí)下降,愚蠢程度不斷增加。
其次,企業(yè)的私有數(shù)據(jù)也面臨著安全隱患。
通用大模型在任意領(lǐng)域的問答生成表現(xiàn)都非常好,但它在專業(yè)知識(shí)領(lǐng)域的問答上仍有不足。相較于公開數(shù)據(jù)集,專業(yè)知識(shí)數(shù)據(jù)在網(wǎng)上不好獲取,這部分屬于核心機(jī)密的數(shù)據(jù)往往掌握在企業(yè)自己手中,數(shù)據(jù)越多、質(zhì)量越高,價(jià)值也就越大,企業(yè)想要大模型部署效果表現(xiàn)好,離不開企業(yè)提供足量、質(zhì)量夠高的數(shù)據(jù)來(lái)支撐模型訓(xùn)練要求。
但是,由于企業(yè)和大模型廠商之間存在的天然的信任障礙,企業(yè)擔(dān)心核心數(shù)據(jù)泄露,因此私有化部署成為了現(xiàn)階段大模型在企業(yè)端落地的主要選擇。
2017 年,《經(jīng)濟(jì)學(xué)人》雜志在所發(fā)表的封面文章中稱,世界上最具價(jià)值的資源不再是石油、而是數(shù)據(jù),從那之后,“數(shù)據(jù)是新時(shí)代的石油”這一說(shuō)法被廣泛接受。
而六年后的今天,大模型將數(shù)據(jù)的重要意義推向了又一個(gè)巔峰,“以數(shù)據(jù)為中心”成為從事大模型研發(fā)和應(yīng)用的行業(yè)人士的共識(shí),但同時(shí),我們也要看到數(shù)據(jù)領(lǐng)域中存在的不足,提高數(shù)據(jù)安全性、穩(wěn)健性,減少偏見和毒性。AI 模型規(guī)模邁進(jìn)萬(wàn)億時(shí)代,數(shù)據(jù)已經(jīng)成為全新生態(tài)突圍的關(guān)鍵卡點(diǎn),在大模型走向場(chǎng)景落地的當(dāng)下,一個(gè)清楚的事實(shí)是:對(duì)數(shù)據(jù)的需求量將越來(lái)越大。
參考鏈接:
1.https://huggingface.co/blog/large-language-models
2.https://arxiv.org/abs/2001.08361
(雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。