數(shù)據(jù)，真的是 AI 大模型市場化的「壁壘」嗎？

本文作者：黃楠

2023-07-12 10:20

導(dǎo)語：比折扣、免費部署......自帶場景、數(shù)據(jù)和用戶的企業(yè)方在大模型落地中占據(jù)主導(dǎo)權(quán)。

數(shù)據(jù)的重要性之于人工智能技術(shù)發(fā)展長期存在。但在大模型以前，鮮少有人能預(yù)見它背后巨大的想象力。

作為智能飛躍中的關(guān)鍵一環(huán)，ChatGPT 火爆全球后，“模型-用戶數(shù)據(jù)-模型迭代-用戶數(shù)據(jù)”的飛輪式迭代，令人們對數(shù)據(jù)的熱情上了一個新臺階。據(jù)OpenAI 披露，此前 GPT-3.5 的文本語料多達 45TB，相當(dāng)于 472 萬套中國四大名著，而 GPT-4 在 GPT-3 和 GPT-3.5 訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上又增加了多模態(tài)數(shù)據(jù)。

大小企業(yè)對數(shù)據(jù)的火熱反映到實際的市場環(huán)境上，是數(shù)據(jù)庫企業(yè)融資數(shù)量的增加、向量數(shù)據(jù)庫的用量陡然增長、以及細分賽道模型的批量推出......數(shù)據(jù)壁壘，成為大模型落地故事里企業(yè)競爭力的代名詞。

不過，在經(jīng)歷近半年的浪潮后，市場對大模型的感知正在降溫。近日，知名投資人朱嘯虎和傅盛在朋友圈的一番隔空爭論，給大模型行業(yè)再添了盆冷水。在朱嘯虎看來，基于大模型做應(yīng)用，護城河太低、價值非常單薄。

當(dāng)市場回歸冷靜，人們終于有時間開始思考：數(shù)據(jù)真的是大模型的壁壘嗎？

「卷」起來的數(shù)據(jù)

歸根結(jié)底，大模型在今天展現(xiàn)出強大的能力，得益于背后的海量數(shù)據(jù)、蘊含了豐富的“人類”知識和智能，通過大模型技術(shù)將其提煉出來，用神經(jīng)網(wǎng)絡(luò)去表達復(fù)雜數(shù)據(jù)的背后規(guī)律。

而 GPT 系列開啟了一個新的時代，即我們不再需要提前標(biāo)注數(shù)據(jù)了，只需將大規(guī)模的語料準(zhǔn)備好，神經(jīng)網(wǎng)絡(luò)就能自己調(diào)整參數(shù)、并學(xué)習(xí)到一個穩(wěn)定狀態(tài)。

就目前來看，幾乎每一次大模型能力的提升，預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、數(shù)據(jù)類型等多個方面都起到了關(guān)鍵性作用。

2020 年，一個重要的研究工作發(fā)現(xiàn)，模型效果與模型的參數(shù)量、數(shù)據(jù)量和計算量之間存在冪律發(fā)展規(guī)律“Scaling Laws”，模型參數(shù)量、數(shù)據(jù)量指數(shù)性增長、計算量增加，模型在測試集上的 loss 呈現(xiàn)指數(shù)性降低，模型性能效果越好。

也即是說，在給定計算量且參數(shù)規(guī)模較小的情況下，增大模型的參數(shù)量對模型性能的影響，遠高于數(shù)據(jù)和訓(xùn)練步數(shù)對模型的貢獻。

數(shù)據(jù)，真的是 AI 大模型市場化的「壁壘」嗎？

圖源：Large Language Models: A New Moore's Law?

因此，業(yè)界對大模型性能形成了一種普遍的認(rèn)知，即模型的參數(shù)越多、容量越大，模型的性能表現(xiàn)越好。

而事實上，前段時間所發(fā)布不少大模型的表現(xiàn)，正在不斷挑戰(zhàn)這一“參數(shù)”定律。

比如 Meta 在 2 月份開發(fā)的 LLaMA，其訓(xùn)練數(shù)據(jù)是 GPT-3 的 4.7 倍，其中 LLaMA-13B 雖然在規(guī)模上相較于 OpenAI 的 GPT-3.5（175B）和 Meta 復(fù)現(xiàn)的開源大模型 OPT 小了十幾倍，但其表現(xiàn)能力在大部分基準(zhǔn)上均超過后者；而LLaMA-65B 更是與 DeepMind 的 Chinchilla-70B、以及谷歌 5400 億參數(shù)的 PaLM-540B 在表現(xiàn)上旗鼓相當(dāng)。

可以看到，更多的數(shù)據(jù)對大模型性能的影響有關(guān)鍵性作用。

不僅如此，智源研究院副院長兼總工程師林詠華曾向 AI科技評論表示，模型性能取得階段性突破，最重要的還有數(shù)據(jù)質(zhì)量的提升，模型的訓(xùn)練語料在一定程度上會影響 AIGC 應(yīng)用、微調(diào)后模型等內(nèi)容生成的合規(guī)、安全以及價值觀等問題。清華大學(xué)副教授、聆心智能創(chuàng)始人黃民烈在向 AI 科技評論回憶參與智源大模型工作時，也強調(diào)了數(shù)據(jù)質(zhì)量對于模型的性能影響非常之大。

當(dāng)前，國外的大模型和國內(nèi)部分模型會選用許多國外開源數(shù)據(jù)集進行訓(xùn)練，如 Common Crawl、 RedPajama、BooksCorpus、The Pile、ROOT 等等。但源于互聯(lián)網(wǎng)的數(shù)據(jù)雖然多、質(zhì)量卻良莠不齊，從獲得海量數(shù)據(jù)到高質(zhì)量數(shù)據(jù)，數(shù)據(jù)的清洗仍面臨著很大挑戰(zhàn)。

數(shù)據(jù)顯示，智源通過對 100 萬條 Common Crawl 網(wǎng)頁進行分析，共提取出中文網(wǎng)頁數(shù)量近 4 萬個；從站源角度來看，可提取出中文的網(wǎng)站共有25842 個，其中 IP 顯示中國內(nèi)地的只有 4522 個，占比僅為 17%，不僅中文數(shù)據(jù)的準(zhǔn)確性大打折扣，數(shù)據(jù)安全性也很低。

如今不僅是數(shù)據(jù)量，數(shù)據(jù)清洗方式也已成為各家的核心競爭力之一。比如對數(shù)據(jù)集中污點數(shù)據(jù)的定義和發(fā)現(xiàn)，有行業(yè)人士指出，這或許還需要社會學(xué)、倫理學(xué)等多個交叉領(lǐng)域?qū)I(yè)人士的介入，在專業(yè)知識和經(jīng)驗積累的基礎(chǔ)上，加入對污點數(shù)據(jù)處理算法的迭代。

除了數(shù)據(jù)質(zhì)量，數(shù)據(jù)的多樣性也是影響模型能力表現(xiàn)的關(guān)鍵因素之一。

Sony AI 高級科學(xué)家呂靈娟向 AI 科技評論指出，數(shù)據(jù)量的增加有利于提高模型的智能水平，但更精準(zhǔn)的說法是，數(shù)據(jù)在多樣性和質(zhì)量上的提高，才能夠?qū)崿F(xiàn)整個數(shù)據(jù)值智能的飛躍，而非是單純數(shù)量的增加。舉個例子，如果是簡單的同類型數(shù)據(jù)反饋，單條數(shù)據(jù)反饋和十條同類型數(shù)據(jù)反饋，雖然在數(shù)據(jù)的數(shù)量上增加了 10 倍，但模型的智能并沒有得到拓展和增加。

以 GPT 系列模型的能力躍進來看：

GPT-1使用的訓(xùn)練語料以書籍為主、如BookCorpus 等
GPT-2則使用了如 Reddit links 等新聞類數(shù)據(jù)，文本規(guī)范質(zhì)量高，同時又包含了部分人們?nèi)粘＝涣鞯纳缃粩?shù)據(jù)
GPT-3時期，模型的數(shù)據(jù)規(guī)模呈數(shù)十倍增長，Reddit links、Common Crawl、WebText2、Wikipedia 等數(shù)據(jù)集的加入，大大提高了數(shù)據(jù)的多樣性
GPT-4階段更引入了 GitHub 代碼、對話數(shù)據(jù)以及一些數(shù)學(xué)應(yīng)用題，進一步提高了模型的思維鏈推理能力

不僅如此，模型訓(xùn)練時所使用到的不同類型的數(shù)據(jù)，甚至能夠影響最終訓(xùn)練所得的模型類型。

行業(yè)大模型的研發(fā)離不開通用大模型的能力，但從技術(shù)上看，行業(yè)大模型也并非只是簡單地將數(shù)據(jù)喂給通用大模型、進行微調(diào)，就能獲得解決專業(yè)領(lǐng)域問題的能力。此前有研究表明，擁有金融行業(yè)私有數(shù)據(jù)的 BloombergGPT 在多個任務(wù)上的表現(xiàn)，并未比通用大模型的表現(xiàn)更好。

香港科技大學(xué)（廣州）信息樞紐院長陳雷告訴 AI科技評論，“大模型解決了基礎(chǔ)的語言理解問題，也即是說，大家在使用它、問它的時候，它能知道大家問了什么問題。但得到什么樣的答案，需要我們數(shù)據(jù)科學(xué)、AI 模型把前端做好?！?/p>

例如之前港科大推出的校園GPT，就將智慧校園中的知識庫放入GPT或ChatGPT中，讓它具備了回答校園導(dǎo)航、餐廳菜單、課程安排等具體學(xué)校場景中的問題。陳雷表示，“大模型是通用的，但做vertical domain (垂直領(lǐng)域）大模型、最重要就在于，前端如何讓數(shù)據(jù)ready，如果數(shù)據(jù)表現(xiàn)不好，想讓大模型回答你的問題非常難?！北热缱鲆粋€智慧城市相關(guān)的行業(yè)大模型，就需要對應(yīng)的維基百科、企業(yè)數(shù)據(jù)等等。

可以說，今天數(shù)據(jù)之于大模型，既是“煉丹”的原材料，決定了最終“烹飪”出哪個菜系的大模型，同時，數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性乃至清洗能力，也是影響大模型性能表現(xiàn)的關(guān)鍵性要素。

數(shù)據(jù)「壁壘」，是護城河還是悖論？

很長時間以來，數(shù)據(jù)被視為大模型落地的入場券，甚至是軍備競賽中的競爭護城河。關(guān)于數(shù)據(jù)“壁壘”的本質(zhì)、是否存在等問題，極少有人去思考。

眾所周知，在今天的公開互聯(lián)網(wǎng)數(shù)據(jù)中，高質(zhì)量的、中文數(shù)據(jù)樣本是偏少的，一個現(xiàn)實的情況是，大模型任意領(lǐng)域的問答生成表現(xiàn)都非常好，但面對專業(yè)領(lǐng)域問題的表現(xiàn)不佳，甚至?xí)霈F(xiàn)模型“一本正經(jīng)地胡說八道”的幻覺。

業(yè)內(nèi)人士同 AI 科技評論交流時也坦言，數(shù)據(jù)標(biāo)注可以通過找人、花錢來完成，真正困難的是原始數(shù)據(jù)的獲取，“在國內(nèi)，高質(zhì)量、經(jīng)梳理過的數(shù)據(jù)短缺是一大問題，特別是有效的中文數(shù)據(jù)更是稀缺。”

因此，當(dāng)國內(nèi)各家大模型廠商將目標(biāo)瞄準(zhǔn)在追趕GPT-3.5 時，其差距大多只有 1 到 2 個月的時間差，很快就能追平，很難有哪一家能顯著拉開差距。同時，由于缺少行業(yè)數(shù)據(jù)的投喂，對容錯率更低的生產(chǎn)環(huán)節(jié)而言，大模型所能釋放的生產(chǎn)力也更加有限。

一部分人的看法是，數(shù)據(jù)壁壘將長期存在，并且隨著大模型的體量向萬億級規(guī)模邁進，數(shù)據(jù)壁壘還將持續(xù)擴大。

可以看到，當(dāng)前的互聯(lián)網(wǎng)的數(shù)據(jù)存在一定的大廠割據(jù)的現(xiàn)象，比如在百度上搜索不會彈出來抖音的視頻推薦，阿里也拿不到微信里的數(shù)據(jù)，雖然中文語料海量，但幾經(jīng)切割后，投喂出來的大模型效果也會大打折扣。這也意味著，數(shù)據(jù)的壁壘會不斷加高大模型的圍墻，使其成為僅限于大廠或擁有海量數(shù)據(jù)資源玩家的壟斷性技術(shù)。

一位大廠數(shù)據(jù)優(yōu)化工程師也向 AI 科技評論表達了相同的看法，大模型本身的泛化能力仍受限于數(shù)據(jù)，如果說 ChatGPT 要取締某個職業(yè)或崗位的話，最簡單的一個判定標(biāo)準(zhǔn)即是，是否具備數(shù)量足夠多、質(zhì)量非常好的數(shù)據(jù)。

為此，自帶場景、數(shù)據(jù)和用戶的產(chǎn)業(yè)、企業(yè)客戶成為了大模型公司相互爭奪的資源。不僅如此，有知情人士告訴 AI 科技評論，為了搶占這部分企業(yè)客戶拿到數(shù)據(jù)，一些大模型廠商還愿意自降身價，以比競爭對手更低的低折扣、甚至免費的方式為企業(yè)部署大模型，以求得后續(xù)進一步深度合作。

而另一邊，也有人對數(shù)據(jù)壁壘的觀點持相反看法。

有業(yè)內(nèi)人士就表示，數(shù)據(jù)壁壘、數(shù)據(jù)壟斷去搭建企業(yè)自己的護城河這一方式并不存在，更多是持有數(shù)據(jù)公司來拉高自身估值的一個說辭。現(xiàn)階段，數(shù)據(jù)泄露、數(shù)據(jù)買賣的事件頻頻發(fā)生，灰色地帶衍生的產(chǎn)業(yè)鏈成為直指數(shù)據(jù)壁壘的矛，“一個關(guān)鍵性問題就在于，你怎么證明別人盜用了你的數(shù)據(jù)？我又要怎么防止別人盜用我的數(shù)據(jù)？”

不僅如此，數(shù)據(jù)信息也是存在于一定時間周期中的數(shù)據(jù)，一方面，短時間內(nèi)的數(shù)據(jù)累計能否發(fā)生質(zhì)變，從數(shù)據(jù)轉(zhuǎn)化為有效信息還尚未可知；另一方面，有部分行業(yè)數(shù)據(jù)還會定期進行信息披露，也就是說，今天信息的私密不意味著未來數(shù)據(jù)信息的私密。

而站在技術(shù)革新的角度上，一位從事自然語言處理方向研究的高校教授也告訴 AI 科技評論，語言大模型之所以涌現(xiàn)，是多種技術(shù)積累沉淀和極致的工程化的結(jié)果，事實上并沒有什么革命性的跨越，而是一個技術(shù)工程、對參數(shù)的掌握，“底座技術(shù)決定了大模型整體性能的80%，數(shù)據(jù)、場景等等其他東西只占20%。因此，我們關(guān)注的核心還是在于，盡快先把里邊的機理弄清楚，再從底座模型入手、想怎么進行革命性的提升?！?/p>

總體而言，隨著市場化的深入，將大模型用在業(yè)務(wù)里，一套被寄予厚望的商業(yè)模式是，收集更多的數(shù)據(jù)做成數(shù)據(jù)黑洞，模型也能變得更強。但同時我們也要看到，數(shù)據(jù)壁壘之于技術(shù)創(chuàng)新的局限性。

數(shù)據(jù)的「達摩克利斯之劍」

OpenAI 在對未來 AGI 發(fā)展的預(yù)測中提到了兩個重要方向，其中之一就是收集盡可能多的有效數(shù)據(jù)。可以看到，從 GPT-3 的文本數(shù)據(jù)，到 GPT-4 文本加圖片的多模態(tài)數(shù)據(jù)，有業(yè)內(nèi)人士預(yù)測，GPT-5 將是文本、圖片加視頻的數(shù)據(jù)匯合。

作為工程化落地的關(guān)鍵一環(huán)，數(shù)據(jù)還有很多問題沒有得到足夠重視，面臨著極大的挑戰(zhàn)，首當(dāng)其沖就是數(shù)據(jù)安全問題。

將 GPT 家族視為一個不斷迭代的大模型版本，必然存在一大部分?jǐn)?shù)據(jù)共享，再引入新的數(shù)據(jù)和機制訓(xùn)練，模型的訓(xùn)練效率和生成內(nèi)容質(zhì)量受技術(shù)、數(shù)據(jù)等方面影響發(fā)生改變，而無論是哪個方面，數(shù)據(jù)存在安全隱患是毋庸置疑的。

呂靈娟告訴 AI 科技評論：“這些數(shù)據(jù)未經(jīng)授權(quán)、也沒有好的制約機制，即便在早期訓(xùn)練過程中，企業(yè)或研發(fā)人員會對有害數(shù)據(jù)進行篩除，但從完整的訓(xùn)練流程來看，模型仍會不可避免地繼承或者加重部分污點數(shù)據(jù)?！逼渲?，模型的可解釋性與數(shù)據(jù)量呈高度相關(guān)性，模型越大、黑盒子越難解釋。

不僅如此，當(dāng)前的現(xiàn)狀是，大部分企業(yè)公司并不愿意公布自身大模型的訓(xùn)練數(shù)據(jù)來源，數(shù)據(jù)當(dāng)中涉及到隱私、公平性、偏見和環(huán)境等多方面問題，站在商業(yè)立場上，容易引發(fā)激烈討論的數(shù)據(jù)集風(fēng)險程度更高，企業(yè)出于經(jīng)營風(fēng)險將數(shù)據(jù)隱藏起來也無可厚非，但在這個過程中，外界也無法獲知該數(shù)據(jù)對個人及社會造成的具體危害有多大。

不同規(guī)模大小的企業(yè)資源差距較大，面對數(shù)據(jù)安全問題的解決方法也不同：小公司沒有足夠的財力和人力，一般多采用現(xiàn)有的開源數(shù)據(jù)集；大企業(yè)采用的方式，更多是以雇傭人力做數(shù)據(jù)標(biāo)注來對數(shù)據(jù)進行深度清洗、提高數(shù)據(jù)質(zhì)量。

專業(yè)人士指出，數(shù)據(jù)清洗作為大模型訓(xùn)練中一個最基本的數(shù)據(jù)環(huán)節(jié)，雖然可以過濾掉部分隱私或有害信息，但總的來說效果并不夠，沒有辦法將數(shù)據(jù)集中的偏見消除干凈，模型訓(xùn)練數(shù)據(jù)清洗能達到怎樣的程度，也并不能解決根本問題。對此，呂靈娟表示，解決問題的關(guān)鍵還是應(yīng)該從前期導(dǎo)入數(shù)據(jù)階段就做好防范措施，從而在后期運維上也能節(jié)省更多的開支。

IDEA 研究院首席科學(xué)家張家興博士告訴 AI 科技評論，在開源層面，開發(fā)者也面臨著諸多的數(shù)據(jù)安全問題，其中就涉及到有些行業(yè)數(shù)據(jù)是否適合開源，因此從開源角度上看，也限制了部分模型只能部署在少數(shù)行業(yè)內(nèi)做嘗試。

而著眼于當(dāng)下，用于訓(xùn)練 ChatGPT、GPT-4 等模型的數(shù)據(jù)，均源于人類發(fā)展過程中所積累下來的書籍、文章、圖片、網(wǎng)站信息、代碼等，是在沒有 AI 幫助生成的情況下創(chuàng)造的，伴隨著生成式內(nèi)容和數(shù)據(jù)越來越多，或許在不久的將來，可能會出現(xiàn)大模型用 AI 生成的數(shù)據(jù)進行訓(xùn)練的事件發(fā)生。

此前，牛津大學(xué)、劍橋大學(xué)等研究人員就在“The Curse of Recursion: Training on Generated Data Makes Models Forget”工作中提出了一個令人擔(dān)憂的結(jié)論：“模型崩潰”（Model Collapse），也即是說，當(dāng)大模型生成的數(shù)據(jù)最終污染后續(xù)模型的訓(xùn)練集時，模型會出現(xiàn)一個退化的學(xué)習(xí)過程，隨著時間的推移，由于模型被自己對現(xiàn)實投射內(nèi)容所毒化，模型會在這個過程中開始遺忘不可能發(fā)生的事件。

當(dāng)這些由 AI 生成的數(shù)據(jù)轉(zhuǎn)化為大模型的原材料，使模型對現(xiàn)實的認(rèn)知產(chǎn)生扭曲，從而產(chǎn)生的內(nèi)容進一步污染網(wǎng)絡(luò)世界，未來，我們通過互聯(lián)網(wǎng)獲取高質(zhì)量數(shù)據(jù)訓(xùn)練模型將會愈加困難。正如 Michael Keaton 在 1996 年電影《丈夫一籮筐》（Multiplicity）的銀幕中，制作了一個又一個自己的克隆人，最終導(dǎo)致后代克隆人的智力水平呈指數(shù)級下降，愚蠢程度不斷增加。

其次，企業(yè)的私有數(shù)據(jù)也面臨著安全隱患。

通用大模型在任意領(lǐng)域的問答生成表現(xiàn)都非常好，但它在專業(yè)知識領(lǐng)域的問答上仍有不足。相較于公開數(shù)據(jù)集，專業(yè)知識數(shù)據(jù)在網(wǎng)上不好獲取，這部分屬于核心機密的數(shù)據(jù)往往掌握在企業(yè)自己手中，數(shù)據(jù)越多、質(zhì)量越高，價值也就越大，企業(yè)想要大模型部署效果表現(xiàn)好，離不開企業(yè)提供足量、質(zhì)量夠高的數(shù)據(jù)來支撐模型訓(xùn)練要求。

但是，由于企業(yè)和大模型廠商之間存在的天然的信任障礙，企業(yè)擔(dān)心核心數(shù)據(jù)泄露，因此私有化部署成為了現(xiàn)階段大模型在企業(yè)端落地的主要選擇。

2017 年，《經(jīng)濟學(xué)人》雜志在所發(fā)表的封面文章中稱，世界上最具價值的資源不再是石油、而是數(shù)據(jù)，從那之后，“數(shù)據(jù)是新時代的石油”這一說法被廣泛接受。

而六年后的今天，大模型將數(shù)據(jù)的重要意義推向了又一個巔峰，“以數(shù)據(jù)為中心”成為從事大模型研發(fā)和應(yīng)用的行業(yè)人士的共識，但同時，我們也要看到數(shù)據(jù)領(lǐng)域中存在的不足，提高數(shù)據(jù)安全性、穩(wěn)健性，減少偏見和毒性。AI 模型規(guī)模邁進萬億時代，數(shù)據(jù)已經(jīng)成為全新生態(tài)突圍的關(guān)鍵卡點，在大模型走向場景落地的當(dāng)下，一個清楚的事實是：對數(shù)據(jù)的需求量將越來越大。

參考鏈接：

1.https://huggingface.co/blog/large-language-models

2.https://arxiv.org/abs/2001.08361

（雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。