丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
金融科技 正文
發(fā)私信給趙之齊
發(fā)送

0

對(duì)話Zilliz星爵:大模型會(huì)讓向量數(shù)據(jù)庫(kù)淪為“花架子”嗎?

本文作者: 趙之齊   2025-05-06 12:03
導(dǎo)語(yǔ):傳統(tǒng)RAG已死,然后呢?


對(duì)話Zilliz星爵:大模型會(huì)讓向量數(shù)據(jù)庫(kù)淪為“花架子”嗎?

在 NVIDIA GTC 2023 大會(huì)上,黃仁勛官宣了和 Milvus 項(xiàng)目合作,Zilliz 被三次邀請(qǐng)上臺(tái)演講;大會(huì)三天之后,OpenAI 官宣和 Zilliz 合作,在發(fā)布的 chatgpt-retrieval-plugin 產(chǎn)品中接入 Milvus 和 Zilliz Cloud。

這是屬于向量數(shù)據(jù)庫(kù)公司 Zilliz 的高光時(shí)刻之一。

那一年,隨著大模型爆火,層出不窮的幻覺(jué)以及專業(yè)領(lǐng)域知識(shí)的匱乏,成了影響大模型落地的重要桎梏。而向量數(shù)據(jù)庫(kù)作為大模型的的“外部記憶外掛”,承擔(dān)了起了通過(guò)對(duì)本地知識(shí)進(jìn)行語(yǔ)義檢索,補(bǔ)全大模型落地最后一塊短板的角色。

也是在這一過(guò)程中,RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成 )作為大模型結(jié)合向量數(shù)據(jù)庫(kù)的經(jīng)典搭配范式,成為了繼電商推薦、自動(dòng)駕駛之后,向量數(shù)據(jù)庫(kù)爆發(fā)的又一超級(jí)場(chǎng)景。

然而,到了 2025 年,在與雷峰網(wǎng)交流時(shí),Zilliz 的 CEO 星爵卻直言:傳統(tǒng) RAG 已死。

在他看來(lái),隨著推理模型的進(jìn)步,人們對(duì)大模型的知識(shí)搜尋不再滿足于“一次性”的檢索,而希望能對(duì)問(wèn)題進(jìn)行拆解,然后多次根據(jù)反饋來(lái)做精細(xì)化地搜尋,形成完整解答。

基于這一判斷,Zilliz 今年二月發(fā)布的基于 DeepResearch 理念的開(kāi)源項(xiàng)目 DeepSearcher,一個(gè)月左右,就在 GitHub 上收到差不多 5000個(gè) star,其火爆程度可見(jiàn)一斑。

在成立 Zilliz 前,星爵在 2009-2015 年間,曾任職于 Oracle,并成為了 Oracle 云數(shù)據(jù)庫(kù)產(chǎn)品的前五個(gè)創(chuàng)始工程師之一。那段經(jīng)歷,讓他親自參與了當(dāng)時(shí)全世界最先進(jìn)的數(shù)據(jù)庫(kù)系統(tǒng)的建設(shè),更讓他堅(jiān)定了“云是未來(lái)”的信念。

而 Oracle 的經(jīng)歷,也在他心中播下了“創(chuàng)造奇跡”的種子:2009 年 6 月,在他前去 Oracle 報(bào)道的第一天,他在電梯里遇到一位推著單車,操著一口濃厚的法國(guó)口音的工程師。他倆攀談了一陣,彼此留下了深刻的印象。接下來(lái)的兩年多時(shí)間里,星爵一直與這位工程師同在 Oralce 美國(guó)總部 400 號(hào)大樓的 7 樓工作,直到其在 2012 年離職創(chuàng)業(yè)。這位工程師名叫 Thierry Cruanes,他的創(chuàng)業(yè)項(xiàng)目叫 Snowflake。

“見(jiàn)證奇跡是有感染力的。他會(huì)逼著你不安現(xiàn)狀,然后去思考,去改變,去創(chuàng)造屬于自己的傳奇”,星爵感慨。

于是,懷抱著創(chuàng)造奇跡的夢(mèng)想,星爵于 2017 年創(chuàng)立 Zilliz,在大模型風(fēng)潮尚未席卷全世界時(shí),便已堅(jiān)定地走向量數(shù)據(jù)庫(kù)這條路?!斑@個(gè)世界上存在著 80% 的非結(jié)構(gòu)化數(shù)據(jù),AI 理論上讓大規(guī)模、高效處理非結(jié)構(gòu)化數(shù)據(jù)成為可能。我很興奮,希望把握這個(gè)機(jī)會(huì)”。從起初頻頻遭投資人禮貌拒絕,到后來(lái)在 Forrester Wave? 向量數(shù)據(jù)庫(kù)報(bào)告中獲評(píng)領(lǐng)導(dǎo)者象限最高分,他把 Zilliz 的這場(chǎng)嘗試稱為“理想主義工程師的大冒險(xiǎn)”。

但 Zilliz 的成長(zhǎng)史,似乎也在不停面臨關(guān)于“存在意義”的問(wèn)題:開(kāi)源比起閉源的意義,向量數(shù)據(jù)庫(kù)在通用數(shù)據(jù)庫(kù)面前的意義……而在大模型越來(lái)越萬(wàn)能的今天,也有人質(zhì)疑,大模型的進(jìn)化是否會(huì)讓向量數(shù)據(jù)庫(kù)的作用漸失?向雷峰網(wǎng)回顧商業(yè)化進(jìn)程的同時(shí),星爵也對(duì)此做出回應(yīng)。以下是雷峰網(wǎng)在不改變對(duì)話原意基礎(chǔ)上所做的整理。

對(duì)話Zilliz星爵:大模型會(huì)讓向量數(shù)據(jù)庫(kù)淪為“花架子”嗎?Zilliz CEO 星爵


大模型和向量數(shù)據(jù)庫(kù):仍會(huì)互相合作

雷峰網(wǎng):有個(gè)說(shuō)法,DeepSeek這樣的推理大模型出來(lái),讓很多過(guò)去做的 RAG 瞬間變成“花架子”,向量數(shù)據(jù)庫(kù)好像沒(méi)那么有用了?

星爵:短期來(lái)看,確實(shí)一些基于公開(kāi)數(shù)據(jù)構(gòu)建的 RAG 應(yīng)用可能會(huì)受到影響,但對(duì)于企業(yè)私有數(shù)據(jù)與大模型的結(jié)合場(chǎng)景,向量數(shù)據(jù)庫(kù)仍然是不可或缺的基礎(chǔ)設(shè)施。中期角度看,DeepSeek這類推理模型的出現(xiàn)反而會(huì)加速AI應(yīng)用的普及與爆發(fā),催生更多非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生、管理和應(yīng)用需求,這實(shí)際上會(huì)進(jìn)一步擴(kuò)大向量數(shù)據(jù)庫(kù)的市場(chǎng)空間

長(zhǎng)遠(yuǎn)來(lái)看,計(jì)算與存儲(chǔ)的協(xié)同是計(jì)算機(jī)系統(tǒng)中永恒的基本范式。回顧歷史,在計(jì)算機(jī)發(fā)展初期,當(dāng)馮·諾依曼提出存儲(chǔ)計(jì)算分離架構(gòu)時(shí),也曾有人質(zhì)疑隨著 CPU 性能的提升,存儲(chǔ)設(shè)備會(huì)被邊緣化。但事實(shí)證明,隨著算力的增長(zhǎng),存儲(chǔ)需求也在同步擴(kuò)大。預(yù)計(jì)未來(lái)五年內(nèi),人類將產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)量可能會(huì)超過(guò)此前歷史上的總和,這更加凸顯了存算協(xié)同架構(gòu)的重要性。

雷峰網(wǎng):最近 Zilliz 在大模型應(yīng)用上也有些進(jìn)展,比如 DeepSearcher 開(kāi)源項(xiàng)目,可以介紹下嗎?

星爵:OpenAI 此前推出了 DeepResearch(深度研究)工具,它能夠通過(guò)多步驟信息收集與推理來(lái)生成專業(yè)報(bào)告。但每月 200 美元的訂閱費(fèi)對(duì)許多用戶來(lái)說(shuō)過(guò)于昂貴,而且該工具在處理企業(yè)本地?cái)?shù)據(jù)方面存在效率瓶頸。看到這一痛點(diǎn),我們開(kāi)發(fā)出了 DeepSearcher,通過(guò)本地部署方式實(shí)現(xiàn)了類似功能。DeepSearcher 將大模型、高級(jí)搜索和研究助理功能融為一體,特別優(yōu)化了對(duì)本地?cái)?shù)據(jù)的處理能力,使其更適合企業(yè)實(shí)際應(yīng)用場(chǎng)景。這一項(xiàng)目一經(jīng)推出就獲得了廣泛關(guān)注,在短短一個(gè)月內(nèi),GitHub 上的 Star 數(shù)量就接近 5000。

雷峰網(wǎng):為什么會(huì)看好 DeepResearch 類產(chǎn)品?

星爵:從長(zhǎng)遠(yuǎn)角度看,DeepResearch 這類 Agentic RAG 將會(huì)完全替代傳統(tǒng)RAG模式。傳統(tǒng) RAG 僅進(jìn)行單次(one-shot)信息檢索,只適合解決相對(duì)簡(jiǎn)單的問(wèn)題。而 Agentic RAG 充分發(fā)揮了大語(yǔ)言模型的深度推理能力,能夠通過(guò)思維鏈將復(fù)雜問(wèn)題分解為多個(gè)子任務(wù)逐步解決。在這一過(guò)程中,系統(tǒng)可以針對(duì)每個(gè)子任務(wù)通過(guò)向量數(shù)據(jù)庫(kù)進(jìn)行精準(zhǔn)檢索,實(shí)現(xiàn)多輪信息獲取,大幅提升信息檢索的廣度和深度,從而顯著降低大模型產(chǎn)生幻覺(jué)的可能性。

雷峰網(wǎng):您之前說(shuō)向量數(shù)據(jù)庫(kù)下一個(gè)殺手級(jí)的應(yīng)用可能是 AI Agent,目前我們距離 AI Agent 時(shí)代徹底到來(lái)還差什么?以及之后數(shù)據(jù)庫(kù)在 AI Agent 里如何更好發(fā)揮作用?

星爵:AI Agent 的本質(zhì)是幫助人類處理復(fù)雜任務(wù),或者說(shuō)復(fù)合任務(wù)。這類任務(wù)往往需要多步驟推理、多輪決策,因此 Agent 需要一個(gè)可靠的記憶體系來(lái)存儲(chǔ)中間狀態(tài)和歷史信息,而向量數(shù)據(jù)庫(kù)恰好可以很好地承擔(dān)這個(gè)作用。向量數(shù)據(jù)庫(kù)能夠高效存儲(chǔ)和檢索非結(jié)構(gòu)化數(shù)據(jù),為 Agent 提供長(zhǎng)期記憶和知識(shí)檢索能力,使其能夠在復(fù)雜任務(wù)執(zhí)行過(guò)程中保持上下文連貫性。

目前 AI Agent 領(lǐng)域面臨的主要挑戰(zhàn)并不在數(shù)據(jù)存儲(chǔ)這一側(cè)。Agent 技術(shù)的發(fā)展仍處于早期階段,整個(gè)行業(yè)還沒(méi)有找到真正具有顛覆性的殺手級(jí)應(yīng)用。我們尚未看到能夠在實(shí)際生產(chǎn)環(huán)境中大規(guī)模部署、并為客戶解決實(shí)際問(wèn)題的應(yīng)用場(chǎng)景。這些場(chǎng)景的發(fā)掘和打磨需要工業(yè)界和學(xué)術(shù)界的共同努力。

從技術(shù)角度看,Agent 還面臨著規(guī)劃能力不足、多步驟任務(wù)協(xié)調(diào)困難、以及與現(xiàn)實(shí)世界交互能力有限等問(wèn)題。這些挑戰(zhàn)需要在模型架構(gòu)、推理機(jī)制和系統(tǒng)集成等多個(gè)層面進(jìn)行突破。我相信隨著大模型能力的不斷提升和應(yīng)用場(chǎng)景的逐步明晰,AI Agent 將逐漸成熟,而向量數(shù)據(jù)庫(kù)作為其核心基礎(chǔ)設(shè)施之一,也將在這一過(guò)程中發(fā)揮越來(lái)越重要的作用。


開(kāi)源長(zhǎng)期主義:先苦后甜

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))您是在什么契機(jī)下想成立 Zilliz 呢?

星爵:在創(chuàng)立Zilliz之前,我很幸運(yùn)地成為Oracle云數(shù)據(jù)庫(kù)的前五位創(chuàng)始工程師之一,從 2009 年就開(kāi)始涉足云數(shù)據(jù)庫(kù)領(lǐng)域。這段經(jīng)歷讓我親身體驗(yàn)了全球最尖端、最復(fù)雜的數(shù)據(jù)庫(kù)系統(tǒng)是如何構(gòu)建的,也讓我深信"云就是未來(lái)"。

更關(guān)鍵的是,當(dāng)我看到自己的產(chǎn)品被如此多的人使用,周圍環(huán)繞著眾多技術(shù)大牛時(shí),自然而然也產(chǎn)生改變世界的雄心。在 Oracle 期間,我結(jié)識(shí)了許多技術(shù)領(lǐng)域的頂尖人才,其中包括 Thierry。我們共事兩年多后,他在2012年離開(kāi)創(chuàng)業(yè),創(chuàng)辦了 Snowflake——后來(lái)成為納斯達(dá)克歷史上規(guī)模最大的軟件 IPO 項(xiàng)目。目睹這樣的奇跡發(fā)生,我熱血沸騰,也希望打造一番自己的事業(yè)。

到了 2017 年,AI 開(kāi)始進(jìn)入公眾視野并得到廣泛應(yīng)用,Transformer 等大模型架構(gòu)也呼之欲出。當(dāng)時(shí)我就意識(shí)到,我們的世界中有 80% 是非結(jié)構(gòu)化數(shù)據(jù),而這些數(shù)據(jù)的高效利用一直是個(gè)棘手問(wèn)題。但AI技術(shù)使得大規(guī)模、高效處理這些非結(jié)構(gòu)化數(shù)據(jù)成為可能。那時(shí),我感到一種強(qiáng)烈的使命感和沖動(dòng)——是時(shí)候由我來(lái)推動(dòng)這一領(lǐng)域的變革了。

雷峰網(wǎng):公司成立后,融資容易嗎?

星爵:Zilliz 的早期融資之路異常艱難。作為第一次創(chuàng)業(yè),我切身感受到了這個(gè)過(guò)程的挑戰(zhàn)——創(chuàng)業(yè)初期,我們長(zhǎng)時(shí)間無(wú)法獲得任何投資,拜訪了幾十位投資人后,收到的大多是禮貌性的"項(xiàng)目很有意思"、"我們保持聯(lián)系"這類回應(yīng),之后就杳無(wú)音信。起步階段,我只能靠自己的積蓄來(lái)支撐項(xiàng)目運(yùn)轉(zhuǎn),這確實(shí)是一場(chǎng)理想主義工程師的冒險(xiǎn)。所幸經(jīng)過(guò)堅(jiān)持不懈的努力,我們終于找到了真正能夠理解我們?cè)妇?、與我們理念相契合的投資伙伴。

雷峰網(wǎng):你是如何說(shuō)服他們的?

星爵:投資人不會(huì)被說(shuō)服,而是大家本就堅(jiān)定地認(rèn)可同一件事情。對(duì)我們來(lái)說(shuō),關(guān)鍵是找到那些已經(jīng)認(rèn)同非結(jié)構(gòu)化數(shù)據(jù)巨大市場(chǎng)空間的投資人。真正的投資決策往往不是靠一次演講或一份 PPT 說(shuō)服出來(lái)的,當(dāng)我們遇到那些已經(jīng)通過(guò)自己的研究和洞察,對(duì)AI和非結(jié)構(gòu)化數(shù)據(jù)處理領(lǐng)域充滿信心的投資人時(shí),合作就水到渠成了。

雷峰網(wǎng):當(dāng)時(shí)產(chǎn)品打磨了多久落地呢?

星爵:我們的產(chǎn)品研發(fā)歷程可以追溯到 2017年。當(dāng)時(shí)我們正在探索向量數(shù)據(jù)庫(kù)技術(shù)的無(wú)人區(qū),需要從零開(kāi)始構(gòu)建每一個(gè)組件。經(jīng)過(guò)近兩年的潛心研發(fā),到 2019 年底我們終于有了一個(gè)相對(duì)成熟的產(chǎn)品。2019 年 11 月 15 日,我們正式將 Milvus 開(kāi)源,市場(chǎng)反響出乎意料地好。進(jìn)入 2020 年后,我們的開(kāi)源用戶社區(qū)呈現(xiàn)出爆發(fā)式增長(zhǎng),GitHub 上的 star 數(shù)量快速攀升,到年底已經(jīng)積累了超過(guò) 5000 名開(kāi)發(fā)者和 300 多家早期企業(yè)用戶,這有力地證明了我們的產(chǎn)品價(jià)值。隨著用戶基礎(chǔ)的擴(kuò)大,我們也開(kāi)始看到包括智能搜索、圖片和視頻檢索、推薦系統(tǒng)、欺詐檢測(cè)和生物醫(yī)藥研發(fā)等越來(lái)越多的實(shí)際落地應(yīng)用場(chǎng)景,這給了我們很大信心繼續(xù)前進(jìn)。

雷峰網(wǎng):但 Zilliz 是在 2023 年才開(kāi)始打造商業(yè)化產(chǎn)品,為什么公司成立了五六年后才開(kāi)始正式進(jìn)入商業(yè)化

星爵:作為一個(gè)基礎(chǔ)設(shè)施產(chǎn)品,數(shù)據(jù)庫(kù)系統(tǒng)的復(fù)雜性決定了它需要長(zhǎng)期持續(xù)的技術(shù)投入和精細(xì)打磨。在 Zilliz 成立的最初幾年,我們將主要精力放在了核心技術(shù)研發(fā)和產(chǎn)品完善上。同時(shí),們面臨著一個(gè)更大的挑戰(zhàn)——市場(chǎng)教育。作為全球首家專注于向量數(shù)據(jù)庫(kù)的公司,我們需要從零開(kāi)始向整個(gè)行業(yè)解釋這一全新概念:什么是向量數(shù)據(jù)庫(kù)?它為什么在 AI 時(shí)代至關(guān)重要?它能解決哪些傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法應(yīng)對(duì)的挑戰(zhàn)?這種市場(chǎng)啟蒙工作雖然耗時(shí)費(fèi)力,但對(duì)于開(kāi)創(chuàng)一個(gè)新品類來(lái)說(shuō)卻是不可或缺的。這也是我們選擇開(kāi)源路線的核心原因之一——開(kāi)源模式能夠幫助我們更快地獲得開(kāi)發(fā)者社區(qū)的關(guān)注和反饋,加速產(chǎn)品迭代,同時(shí)建立起一個(gè)活躍且可持續(xù)發(fā)展的技術(shù)生態(tài)系統(tǒng)。

我們選擇在2023年才推出商業(yè)化的 Zilliz Cloud,主要基于兩個(gè)方面的考慮。一方面,經(jīng)過(guò)多年的技術(shù)積累和產(chǎn)品打磨,我們的開(kāi)源產(chǎn)品 Milvus 在社區(qū)已經(jīng)取得了非常好的成績(jī),積累了大量的用戶和應(yīng)用案例,產(chǎn)品的穩(wěn)定性和性能也得到了市場(chǎng)的充分驗(yàn)證。另一方面,我們也恰好趕上了生成式 AI 的爆發(fā),ChatGPT 等大模型的出現(xiàn)讓向量數(shù)據(jù)庫(kù)一下子成為了AI基礎(chǔ)設(shè)施中不可或缺的組件,市場(chǎng)需求呈現(xiàn)出爆發(fā)式增長(zhǎng)。這兩個(gè)因素疊加在一起,為我們的商業(yè)化提供了一個(gè)絕佳的時(shí)機(jī)和起點(diǎn)。

雷峰網(wǎng):一般來(lái)說(shuō)開(kāi)源公司商業(yè)化的進(jìn)程普遍都比較慢,您如何看待這種情況呢?

星爵:開(kāi)源比起閉源有更強(qiáng)的社區(qū)能力和創(chuàng)新的生命力,這種差異在長(zhǎng)期發(fā)展中尤為明顯。

硅谷有一種標(biāo)志性的樹(shù)木叫紅杉,當(dāng)?shù)赜蟹浅6嗟陌倌晟踔翑?shù)千年紅杉樹(shù)林,這些樹(shù)木能夠生長(zhǎng)到百米高度,形成壯觀的生態(tài)系統(tǒng)。做數(shù)據(jù)庫(kù),做開(kāi)源,其實(shí)就像種一棵紅杉樹(shù),你播下種子,它可以至少長(zhǎng)到五六十米以上,甚至更高,但前提是你要有足夠的耐心和長(zhǎng)期主義精神。這個(gè)過(guò)程可能需要數(shù)年甚至十年以上的時(shí)間,但一旦成功,其影響力和價(jià)值將遠(yuǎn)超短期商業(yè)化帶來(lái)的收益。

數(shù)據(jù)庫(kù)產(chǎn)品做商業(yè)化時(shí),開(kāi)發(fā)者社區(qū)其實(shí)就是最好的客戶來(lái)源和創(chuàng)新引擎。開(kāi)源模式雖然前期變現(xiàn)較慢,但能夠建立起強(qiáng)大的用戶基礎(chǔ)和品牌影響力。就像過(guò)去十年里 Databricks 和 Snowflake 之間的競(jìng)爭(zhēng)。Snowflake 作為完全閉源的公司,雖然前期商業(yè)化比較容易,能夠快速獲取收入,但要面對(duì)的挑戰(zhàn)是后期如何維持創(chuàng)新以及如何高效地商業(yè)化獲客。隨著時(shí)間推移,開(kāi)源的優(yōu)勢(shì)逐漸顯現(xiàn)——現(xiàn)在 Databricks 技術(shù)創(chuàng)新速度和市場(chǎng)增長(zhǎng)都呈現(xiàn)加速態(tài)勢(shì),在最新的一輪融資后,它的估值幾乎超過(guò)了Snowflake一倍。如果能成功上市,市場(chǎng)上期望它的估值會(huì)得到進(jìn)一步提升。

在Zilliz的發(fā)展過(guò)程中,我們也堅(jiān)持這種開(kāi)源長(zhǎng)期主義的理念。雖然短期內(nèi)可能面臨商業(yè)化進(jìn)度較慢的挑戰(zhàn),但我們相信,通過(guò)持續(xù)投入和社區(qū)建設(shè),我們正在培育一棵屬于AI時(shí)代的"紅杉樹(shù)",它的根系將深入全球開(kāi)發(fā)者生態(tài),最終成長(zhǎng)為非結(jié)構(gòu)化數(shù)據(jù)處理領(lǐng)域的基礎(chǔ)設(shè)施。

雷峰網(wǎng):發(fā)展到現(xiàn)在,你覺(jué)得 Zilliz 的商業(yè)化有達(dá)到你的預(yù)期嗎?

星爵:從整體表現(xiàn)來(lái)看,我們的商業(yè)化進(jìn)程達(dá)到了預(yù)期目標(biāo)。在過(guò)去兩年中,我們不僅見(jiàn)證了用戶數(shù)量的強(qiáng)勁增長(zhǎng),還實(shí)現(xiàn)了連續(xù)兩年?duì)I收三倍的增長(zhǎng)率。截至目前,Zilliz 已經(jīng)在全球市場(chǎng)積累了超過(guò)一萬(wàn)家企業(yè)級(jí)用戶,產(chǎn)品的累計(jì)安裝下載量已突破一億次大關(guān),而且這一數(shù)字仍在呈加速增長(zhǎng)態(tài)勢(shì)。從市場(chǎng)表現(xiàn)來(lái)看,我們的商業(yè)化進(jìn)程正處于一個(gè)良性循環(huán)中——用戶基礎(chǔ)的擴(kuò)大帶動(dòng)了收入的增長(zhǎng),而收入的增長(zhǎng)又使我們能夠投入更多資源到產(chǎn)品研發(fā)和市場(chǎng)拓展中,進(jìn)一步吸引更多用戶。

更重要的是,我們認(rèn)識(shí)到,AI 這個(gè)行業(yè)的崛起才剛剛開(kāi)始,我們現(xiàn)在看到的只是冰山一角。隨著生成式 AI 和大模型技術(shù)的普及,企業(yè)和開(kāi)發(fā)者對(duì)高效處理非結(jié)構(gòu)化數(shù)據(jù)的需求將呈現(xiàn)爆發(fā)式增長(zhǎng)。向量數(shù)據(jù)庫(kù)作為連接 AI 模型與海量非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵基礎(chǔ)設(shè)施,其戰(zhàn)略價(jià)值和市場(chǎng)空間只會(huì)越來(lái)越大。我們相信,未來(lái)幾年將是向量數(shù)據(jù)庫(kù)市場(chǎng)真正的黃金發(fā)展期,而 Zilliz 憑借多年的技術(shù)積累和先發(fā)優(yōu)勢(shì),已經(jīng)做好了充分準(zhǔn)備,迎接這一波更大規(guī)模的市場(chǎng)機(jī)遇。


向量數(shù)據(jù)庫(kù)的不可替代:處理非結(jié)構(gòu)化數(shù)據(jù)

雷峰網(wǎng):Zilliz 是一開(kāi)始就考慮海外海內(nèi)兩手抓嗎?

星爵:海內(nèi)海外對(duì)我們來(lái)說(shuō),不是兩手。全球化就是一個(gè)在硅谷工作的工程師自然的思維方式。當(dāng)你身處全球創(chuàng)新中心,你的思維方式、產(chǎn)品設(shè)計(jì)和市場(chǎng)定位自然而然地會(huì)超越地域限制。我們從創(chuàng)立之初就秉持全球化視野,將產(chǎn)品設(shè)計(jì)為面向全球市場(chǎng)的解決方案;團(tuán)隊(duì)也是全球化的,分布在全球多個(gè)國(guó)家和地區(qū),這使我們能夠更好地理解和服務(wù)不同市場(chǎng)的需求。

雷峰網(wǎng):在海外的商業(yè)模式是什么樣的?

星爵:我們的商業(yè)模式非常清晰直接。Zilliz 本質(zhì)上是一家云數(shù)據(jù)庫(kù)公司,我們的所有營(yíng)收都來(lái)自于公有云服務(wù)。我們采用根據(jù)用量的計(jì)費(fèi)模式,客戶根據(jù)自己的數(shù)據(jù)規(guī)模和使用需求付費(fèi)。目前,我們已經(jīng)成功部署在全球五大主流云平臺(tái)上,包括亞馬遜的 AWS、谷歌的 GCP、微軟的 Azure,以及中國(guó)市場(chǎng)的阿里云和騰訊云。這種多云戰(zhàn)略讓我們能夠覆蓋全球各個(gè)地區(qū)的客戶,無(wú)論他們選擇哪個(gè)云服務(wù)提供商,都能使用我們的向量數(shù)據(jù)庫(kù)服務(wù)。隨著 AI 應(yīng)用的普及,我們看到云上的向量數(shù)據(jù)庫(kù)需求呈現(xiàn)爆發(fā)式增長(zhǎng),這也驗(yàn)證了我們"云優(yōu)先"戰(zhàn)略的正確性。

雷峰網(wǎng):云上的客戶一般是中小客戶,還是也有大客戶?之前了解到可能一些比較大的客戶,不太愿意把自己的資料放到公有云上。

星爵:我們的客戶群體非常多元化,既包括初創(chuàng)企業(yè)和中小型公司,也有眾多大型企業(yè)客戶。關(guān)于數(shù)據(jù)安全這個(gè)問(wèn)題,我們確實(shí)看到企業(yè)態(tài)度正在發(fā)生顯著變化。過(guò)去,大型企業(yè)對(duì)將敏感數(shù)據(jù)遷移至公有云確實(shí)存在顧慮,主要擔(dān)憂數(shù)據(jù)安全與合規(guī)問(wèn)題。針對(duì)這些顧慮,Zilliz從早期就投入大量資源獲取了多項(xiàng)國(guó)際權(quán)威認(rèn)證,包括SoC 2、GDPR 和 HIPAA 等,這些認(rèn)證能夠滿足全球各行業(yè)客戶的嚴(yán)格合規(guī)要求。

此外,我們還專門(mén)開(kāi)發(fā)了"自帶云環(huán)境"(BYOC)解決方案,允許企業(yè)在自己選擇的公有云專屬區(qū)域部署我們的服務(wù),同時(shí)保持對(duì)數(shù)據(jù)的完全控制權(quán)。隨著這些解決方案的推出,我們看到越來(lái)越多的大型企業(yè)正在加速向云端遷移其AI和數(shù)據(jù)處理工作負(fù)載。

雷峰網(wǎng):那 Zilliz 在 2025 年發(fā)展的重點(diǎn)會(huì)是什么?

星爵:2025 年,我們的發(fā)展重點(diǎn)將圍繞兩大核心機(jī)遇展開(kāi)。首先,隨著生成式AI的爆發(fā)式增長(zhǎng),向量數(shù)據(jù)庫(kù)作為處理非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵基礎(chǔ)設(shè)施,市場(chǎng)需求正呈現(xiàn)前所未有的增長(zhǎng)態(tài)勢(shì)。其次,全球云計(jì)算滲透率持續(xù)提高,企業(yè)對(duì)云原生數(shù)據(jù)解決方案的接受度顯著提升。

基于這兩大趨勢(shì),我們的戰(zhàn)略布局主要分為兩個(gè)方向:一方面,我們將繼續(xù)深耕全球開(kāi)源社區(qū),進(jìn)一步完善 Milvus 的功能和性能,幫助全球開(kāi)發(fā)者在這波 AI 浪潮中高效處理非結(jié)構(gòu)化數(shù)據(jù)。我們計(jì)劃在 2025 年舉辦更多的開(kāi)發(fā)者大會(huì)和技術(shù)研討會(huì),建立更加活躍的技術(shù)社區(qū),并推出針對(duì)不同行業(yè)的解決方案和最佳實(shí)踐。

另一方面,我們將全力推進(jìn) Zilliz Cloud 的商業(yè)化進(jìn)程,這是我們面向企業(yè)級(jí)市場(chǎng)的全托管云服務(wù)。與開(kāi)源產(chǎn)品相比,Zilliz Cloud 提供了開(kāi)箱即用的體驗(yàn)、更高的性能保障、全面的安全合規(guī)認(rèn)證以及專業(yè)的技術(shù)支持,能夠滿足企業(yè)在生產(chǎn)環(huán)境中的嚴(yán)苛需求。2025 年,我們將進(jìn)一步擴(kuò)大云服務(wù)的全球覆蓋范圍,優(yōu)化多云部署能力,并推出更多針對(duì)特定行業(yè)的垂直解決方案,如金融、醫(yī)療、零售和制造業(yè)等。

雷峰網(wǎng):那之后向量數(shù)據(jù)庫(kù)的發(fā)展會(huì)要面對(duì)什么技術(shù)挑戰(zhàn)嗎?

星爵:未來(lái)五年,隨著 AI 技術(shù)不斷深入發(fā)展,AI Agent、自動(dòng)駕駛、機(jī)器人和具身智能等前沿領(lǐng)域蓬勃興起,這將徹底改變非結(jié)構(gòu)化數(shù)據(jù)處理的方式和規(guī)模。向量數(shù)據(jù)庫(kù)作為AI基礎(chǔ)設(shè)施的核心組件,將面臨前所未有的技術(shù)挑戰(zhàn)。

這些挑戰(zhàn)主要體現(xiàn)在三個(gè)關(guān)鍵維度:首先是成本效益問(wèn)題。隨著企業(yè)和組織積累的非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)存儲(chǔ)和處理成本正成為 AI 應(yīng)用落地的主要瓶頸。以醫(yī)療影像為例,一家大型醫(yī)院每年可能產(chǎn)生數(shù)十 PB 的醫(yī)學(xué)影像數(shù)據(jù),包括 X 光片、CT 掃描和 MRI 等,如何經(jīng)濟(jì)高效地存儲(chǔ)和檢索這些海量數(shù)據(jù)?我們正在探索更高效的索引結(jié)構(gòu)和壓縮算法,目標(biāo)是在保持查詢精度的同時(shí),將成本顯著降低。

其次是實(shí)時(shí)性能挑戰(zhàn)。新興的 AI 應(yīng)用對(duì)響應(yīng)速度提出了極高要求——自動(dòng)駕駛系統(tǒng)需要在毫秒級(jí)別內(nèi)完成環(huán)境感知和決策,以確保行車安全;工業(yè)機(jī)器人需要亞秒級(jí)的環(huán)境感知能力來(lái)實(shí)現(xiàn)精準(zhǔn)操作。這些場(chǎng)景都要求向量數(shù)據(jù)庫(kù)能夠在極短時(shí)間內(nèi)完成復(fù)雜的相似性搜索。為此,我們正在研發(fā)新一代的分布式查詢引擎和 GPU 加速技術(shù),以實(shí)現(xiàn)超大規(guī)模數(shù)據(jù)集的實(shí)時(shí)檢索。

第三是處理復(fù)雜性挑戰(zhàn)。未來(lái)的 AI Agent 將需要同時(shí)處理和關(guān)聯(lián)多種數(shù)據(jù)類型,如文本、圖像、音頻、視頻和各類傳感器數(shù)據(jù)。這種多模態(tài)數(shù)據(jù)處理能力對(duì)向量數(shù)據(jù)庫(kù)提出了全新要求。我們需要設(shè)計(jì)更靈活的數(shù)據(jù)模型和查詢語(yǔ)言,支持跨模態(tài)的語(yǔ)義理解和關(guān)聯(lián)分析。例如,一個(gè)智能客服 Agent 可能需要同時(shí)理解用戶的文字描述、上傳的圖片和語(yǔ)音指令,并從歷史交互記錄中找到相關(guān)信息。這種復(fù)雜的多模態(tài)查詢遠(yuǎn)超傳統(tǒng)數(shù)據(jù)庫(kù)的能力范圍。

除了這三大挑戰(zhàn)外,我們還看到數(shù)據(jù)隱私和安全合規(guī)方面的需求日益增長(zhǎng)。隨著全球數(shù)據(jù)保護(hù)法規(guī)的加強(qiáng),如何在保障數(shù)據(jù)安全的前提下實(shí)現(xiàn)高效的向量檢索,也是我們正在積極研究的方向。我們正在開(kāi)發(fā)基于聯(lián)邦學(xué)習(xí)和同態(tài)加密的安全向量檢索技術(shù),讓企業(yè)能夠在不暴露原始數(shù)據(jù)的情況下進(jìn)行AI應(yīng)用開(kāi)發(fā)。

雷峰網(wǎng):會(huì)擔(dān)心向量數(shù)據(jù)庫(kù)被通用數(shù)據(jù)庫(kù)合并嗎?

星爵:這個(gè)問(wèn)題很有意思。雖然傳統(tǒng)數(shù)據(jù)庫(kù)廠商確實(shí)在嘗試整合向量搜索功能,但向量數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)本質(zhì)上是兩個(gè)不同的技術(shù)賽道。它們解決的問(wèn)題、面對(duì)的挑戰(zhàn)和應(yīng)用場(chǎng)景有著根本性差異。

從數(shù)據(jù)處理的本質(zhì)來(lái)看,傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)是為結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì)的,處理的是表格化的信息;而向量數(shù)據(jù)庫(kù)則專為非結(jié)構(gòu)化數(shù)據(jù)打造,處理的是圖像、視頻、長(zhǎng)文本等復(fù)雜內(nèi)容,通過(guò)AI模型將這些數(shù)據(jù)轉(zhuǎn)換為高維向量進(jìn)行存儲(chǔ)和檢索。

在應(yīng)用場(chǎng)景上,傳統(tǒng)數(shù)據(jù)庫(kù)擅長(zhǎng)精確匹配查詢,比如"找出所有 30 歲的客戶"或"計(jì)算上個(gè)季度的總銷售額",這些都是確定性的問(wèn)題。而向量數(shù)據(jù)庫(kù)則專注于相似性搜索,解決的是"找到與這張圖片相似的所有產(chǎn)品"或"檢索與這個(gè)問(wèn)題語(yǔ)義相關(guān)的文檔"等模糊查詢問(wèn)題。

這種差異就像"油改電"與原生純電平臺(tái)的區(qū)別——雖然都能實(shí)現(xiàn)電動(dòng)驅(qū)動(dòng),但架構(gòu)基因、能效表現(xiàn)和擴(kuò)展?jié)摿Υ嬖诖H差異。傳統(tǒng)數(shù)據(jù)庫(kù)通過(guò)插件添加向量功能,就像在燃油車架構(gòu)上強(qiáng)行改裝電動(dòng)機(jī),雖然能獲得電動(dòng)特性,卻受限于原始設(shè)計(jì)框架,無(wú)法實(shí)現(xiàn)電池管理系統(tǒng)的深度優(yōu)化、能量回收效率的最大化,更難以支撐智能駕駛等新一代功能的全量釋放。

雷峰網(wǎng):您之前也提過(guò),未來(lái)五年向量數(shù)據(jù)庫(kù)成本可能降低 1000 倍以上,給自己定的目標(biāo)是降低 10-100 倍,現(xiàn)在進(jìn)度如何?

星爵:在成本優(yōu)化方面,我們已成功實(shí)現(xiàn)十倍的降本目標(biāo),預(yù)計(jì)到今年底將完成數(shù)十倍級(jí)的成本優(yōu)化。這輪技術(shù)突破主要來(lái)自三個(gè)維度的創(chuàng)新:首先是處理器芯片的架構(gòu)革新,其次是存儲(chǔ)架構(gòu)的重新設(shè)計(jì),最后是核心算法的持續(xù)迭代。我們的核心使命是通過(guò)基礎(chǔ)設(shè)施層的創(chuàng)新,將數(shù)據(jù)管理成本壓縮到傳統(tǒng)方案的零頭水平——這在AI應(yīng)用的總成本結(jié)構(gòu)中,往往占據(jù)最關(guān)鍵的技術(shù)杠桿點(diǎn)。

雷峰網(wǎng):那像 Zilliz 是在 2017 年成立的,目睹 2020 年前后國(guó)產(chǎn)數(shù)據(jù)庫(kù)的創(chuàng)業(yè)大潮,您如何看待這市場(chǎng)環(huán)境的變化?

星爵:觀察 2020 年前后的市場(chǎng)格局,我認(rèn)為存在三個(gè)維度的結(jié)構(gòu)性變化。首先是資本市場(chǎng)的認(rèn)知升級(jí),雖然出現(xiàn)階段性投資過(guò)熱,但客觀上加速了數(shù)據(jù)庫(kù)技術(shù)從學(xué)術(shù)研究到產(chǎn)業(yè)應(yīng)用的轉(zhuǎn)化周期;其次是差異化競(jìng)爭(zhēng)格局的形成,當(dāng)多數(shù)廠商聚焦傳統(tǒng) OLAP/OLTP 賽道時(shí),我們已經(jīng)完成 AI 原生架構(gòu)的驗(yàn)證,實(shí)現(xiàn)從單機(jī)向量檢索到云原生分布式系統(tǒng)的技術(shù)跨越;第三是產(chǎn)業(yè)生態(tài)的質(zhì)變,當(dāng)時(shí)新創(chuàng)的數(shù)據(jù)庫(kù)企業(yè)雖未涉足向量計(jì)算領(lǐng)域,但共同構(gòu)建起了數(shù)據(jù)庫(kù)的人才矩陣——據(jù)工信部 2024 年白皮書(shū)顯示,中國(guó)數(shù)據(jù)庫(kù)專業(yè)人才規(guī)模較 2018 年實(shí)現(xiàn) 400% 增長(zhǎng),這為整個(gè)基礎(chǔ)軟件行業(yè)注入了持續(xù)創(chuàng)新動(dòng)能。

需要特別指出的是,Zilliz在2018年就確立了"AI-First"的技術(shù)路線,我們的工程團(tuán)隊(duì)當(dāng)時(shí)已攻克百萬(wàn)級(jí)高維向量數(shù)據(jù)實(shí)時(shí)檢索的技術(shù)難關(guān)。這使得行業(yè)在 2022 年迎來(lái)生成式 AI 浪潮時(shí),我們能夠快速推出支持千億級(jí)向量的云原生架構(gòu)。

雷峰網(wǎng):那回顧公司的發(fā)展過(guò)程,有比較大的困難需要克服嗎?

星爵:企業(yè)發(fā)展就像升級(jí)打怪,每個(gè)階段都有需要突破的關(guān)卡。如果要問(wèn) Zilliz 最需要持續(xù)投入的戰(zhàn)略重點(diǎn),我認(rèn)為是全球化團(tuán)隊(duì)建設(shè)和組織文化融合。作為在亞歐美三大洲同步運(yùn)營(yíng)的科技公司,我們每天都要跨越數(shù)字時(shí)代的文化鴻溝——比如協(xié)作平臺(tái)的適配難題:北京工程師習(xí)慣微信/飛書(shū)的即時(shí)通訊生態(tài),硅谷團(tuán)隊(duì)習(xí)慣 Slack 異步溝通,而慕尼黑同事則嚴(yán)格遵循郵件工作流。這種數(shù)字習(xí)慣的差異看似是工具選擇,實(shí)則是組織效率的隱形殺手。我們通過(guò)數(shù)據(jù)儀表盤(pán)發(fā)現(xiàn),中國(guó)工程師日均查看郵件次數(shù)只有歐美同事的三分之一,這容易導(dǎo)致跨時(shí)區(qū)協(xié)作出現(xiàn)信息斷層。

為解決這一問(wèn)題,我們開(kāi)發(fā)了自動(dòng)化信息路由系統(tǒng),確保不同平臺(tái)上的重要信息能夠互通互聯(lián)。同時(shí),我們制定了全球統(tǒng)一的溝通標(biāo)準(zhǔn)操作流程,培養(yǎng)團(tuán)隊(duì)成員的跨文化理解能力。我深信,最終決定一家企業(yè)發(fā)展高度的,不是代碼行數(shù),而是人才密度和團(tuán)隊(duì)協(xié)作的乘積效應(yīng)。

雷峰網(wǎng):那創(chuàng)業(yè)過(guò)程中有過(guò)后悔嗎?如果可以再重新選擇一次,您還會(huì)選擇創(chuàng)業(yè)嗎?

星爵:(笑)如果世界上有后悔藥,我要買來(lái)每天當(dāng)飯吃。創(chuàng)業(yè)路上有過(guò)無(wú)數(shù)次自我懷疑和反思的時(shí)刻,這些"后悔"也推動(dòng)了我的自我成長(zhǎng),對(duì)昨天的自己的不滿意會(huì)敦促今天的自己變得更優(yōu)秀。不過(guò),如果時(shí)光倒流,我依然會(huì)選擇創(chuàng)業(yè)這條路。因?yàn)樵谖铱磥?lái),創(chuàng)業(yè)不僅僅是一種職業(yè)選擇,更是一種生活態(tài)度。每一位加入創(chuàng)業(yè)公司的同事,都是這場(chǎng)冒險(xiǎn)的共同創(chuàng)造者;即便在大型企業(yè)內(nèi)部孵化新業(yè)務(wù)的同事,本質(zhì)上也是在創(chuàng)業(yè)。從更廣闊的視角看,我們每個(gè)人都是自己人生、家庭和社區(qū)的"創(chuàng)業(yè)者"——不斷探索、嘗試、失敗、總結(jié)、再出發(fā),這就是創(chuàng)業(yè)的內(nèi)核。


(作者長(zhǎng)期關(guān)注云計(jì)算、數(shù)據(jù)庫(kù)等上下游領(lǐng)域,歡迎添加Ericazhao23討論交流。)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章

作者

關(guān)注云計(jì)算及大模型、相關(guān)IR話題等。微信:Ericazhao23。
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)