丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給胡敏
發(fā)送

0

Clickhouse「手撕」Snowflake太貴,我們與7位專家聊了聊

本文作者: 胡敏 2024-01-31 18:44
導語:以Redshift、BigQuery和Snowflake為首的云數倉,該「降溫」了?

Clickhouse「手撕」Snowflake太貴,我們與7位專家聊了聊

“感謝云數據倉庫多年來的辛勤付出,但它們引領的霸權時代即將落幕?!?/p>

在近期的一篇博客中,Clickhouse 產品VP Tanya在文章開頭便放出了這一大膽的觀點。Tanya稱,以Snowflake、Redshift、BigQuery為代表的云數倉已經不能完全滿足客戶需求,并且許多企業(yè)也已經發(fā)現云數據倉庫成本不可持續(xù)。

此觀點一發(fā),也引起了業(yè)內人士諸多討論。

有人認為,云數倉從來就沒形成過霸權時代。而Tanya在文中所反復提到的實時數倉,也有從業(yè)者表示這并非新概念,早在十年前,實時數倉就已經被提過好幾撥。

還有人認為,實時數倉雖是一個發(fā)展趨勢,但并不能完全代替?zhèn)鹘y(tǒng)數倉,與此同時,市場對于實時數據分析需求有,但也沒那么強......

基于上述的一些討論,雷峰網獨家對話了Clickhouse 產品VP Tanya,了解其寫作該文章的由來以及觀點。Tanya稱,這篇文章她想表達的含義并非是說ClickHouse可以替代所有現有的數據倉庫場景,而是希望對其進行演進。

同時,借由這一篇文章,雷峰網也對話了業(yè)內多位專家:阿里云數據庫事業(yè)部OLAP與工具高級產品專家薛菲、嬴圖創(chuàng)始人孫宇熙、PingCAP副總裁劉松、酷克數據副總裁魏一、Airwallex技術專家董大凡、Aloudata CEO周衛(wèi)林與他們分別聊了聊數倉的發(fā)展趨勢、云數倉成本、數倉深層計算、生成式AI對數倉影響等幾個備受關注的話題。

云數倉的霸權時代結束了?

實時數倉確實一個發(fā)展趨勢,對話的幾名受訪者也基本同意這一觀點。

PingCAP副總裁劉松過往職業(yè)經歷與數倉息息相關。職業(yè)生涯前期他入職了Oracle,見證了以Teradata為代表的傳統(tǒng)數倉的興起。2014年他加入阿里云后,又見證了以Snowflake、BigQuery、Redshift為代表的云數倉快速冒頭。在他看來,數倉的確在沿著從傳統(tǒng)數倉,到云數倉,再到實時數倉的方向演進。

這種的演進背后,實際上是客戶需求的變化。

阿里云數據庫事業(yè)部OLAP與工具高級產品專家薛菲談到了她接觸過的一家頭部游戲企業(yè)。他們一直致力于吸引更多的玩家,并確保玩家在其平臺上獲得更好的體驗。然而,近年來,他們獲取新客戶成本開始提升,希望獲得更實時的數據,了解客戶檔案、行為,以及客戶做了哪些特定的點擊,以便快速調整他們的策略。

除游戲玩家有需求外,嬴圖創(chuàng)始人孫宇熙提到,他創(chuàng)業(yè)的這幾年接觸國內外不少的金融機構。他發(fā)現,隨著市場環(huán)境變化,許多客戶,尤其是金融類客戶他們所需要的不僅是事后分析,用數據做決策,而是希望有實時分析。拿銀行為例,客戶在一邊轉賬的同時,后臺做實時風控分析的需求也越來越高漲。

“clickhouse提出要做新一代的實時數倉。基本上業(yè)界也同意這樣的一個邏輯。”孫宇熙說道。

數倉在朝著實時方向發(fā)展,不過新一代的實時數倉仍不能完全代替以前的數倉。

Airwallex技術專家董大凡作為數倉產品的使用者,他表示:“即便企業(yè)使用了實時數倉,傳統(tǒng)數倉也還是有一席之地。”

為何有一席之地?其一是實時數據分析可能帶來更高的成本。Aloudata CEO周衛(wèi)林在創(chuàng)業(yè)之前,在螞蟻金服擔任數據平臺部門負責人,他表示,實時數據分析成本增加主要有兩個原因:第一,數據越實時,數據采集和更新的頻次會越高,數據預計算的比例會越低,因此對數據計算性能要求會越高,這會帶來費用的增加;第二,通常需要實時數據的場景,數據分析的顆粒度會很細,分析的靈活性會越高,這樣數據分析的數據量會很大,這會帶來費用的增加。

對于一家企業(yè)來說,在追求數據時效的同時,成本也是不能回避的問題。假設一個公司花了100萬,通過數據實時化能把風控引擎的精確度從50%提升到55%,然而這5%的提升所降低的損失低于投入成本,很顯然企業(yè)投資意愿不會高漲。

因此,實時數倉通常的場景應用會比較明確,ROI 相對確定,對于不確定高的場景很難規(guī)模性使用實時數倉,原因是比不過傳統(tǒng)數倉的ROI,尤其是 BI 分析場景上。

此外,當下并非所有場景都必須要實時數據分析。就比如雙十一,交易額直接在屏幕上面毫秒級刷新固然很爽,但對于老板而言,他可能只要求第二天在辦公室里面看報表,了解雙十一交易額多少,幾點是高峰,他的目的不是為了實時決策,而是為了長期規(guī)劃和決策。

(接下來,雷峰網將推出《投資人,正逃離分析型數據庫賽道》,歡迎加作者微信 mindy1857 交流。)

酷克數據副總裁魏一也表達了類似觀點。魏一在加入酷克數據之前,曾就職于SAP,后來在EMC/Pivotal 從事Greenplum數據庫技術研發(fā)工作,也是數倉領域的資深專家。在他看來,目前企業(yè)會存在實時數據分析需求,但除此之外,企業(yè)還有批處理的需求,雖然批處理數據時效性不及實時數倉,但是成本更低。

由于企業(yè)需求的多樣化,也演化了數倉廠商們不同的產品研發(fā)策略。有一部分的廠商嘗試在打造一個統(tǒng)一的數據服務平臺,比如說snowflake、酷克數據、PingCAP。

“對于企業(yè)決策者而言,他們一定是需要一個統(tǒng)一的數據服務平臺。”魏一說道。五年以前客戶做大數據分析,可能的選擇是:一個離線分析系統(tǒng)加上一個實時分析系統(tǒng)。比如離線分析選擇Hadoop,再疊加一個ClickHouse、Greenplum實時分析的產品。這種做法的劣勢是顯著增加了運營成本,因為要進行數據搬遷ETL操作,同時客戶還需要去管理不同的系統(tǒng)。相對地,統(tǒng)一融合的數據分析平臺的優(yōu)勢則在于,解決了由ETL導致的數據傳輸延遲問題,進一步降低了數據分析的成本投入。

魏一表示,酷克數據的產品HashData云數倉目前已在某國有大型銀行穩(wěn)定運行多年,節(jié)點規(guī)模超過30000個。從落地運行情況來看,客戶的數據冗余減少達到了30%以上,計算資源消耗也降低了30%。整個數據鏈路得以縮短,平均作業(yè)的完成時間加快了3個小時。

還有一部分廠商則不求做大而全的平臺,只做部分需求的滿足,比如BigQuery、RedShift他們現在并沒有把實時數倉作為優(yōu)先級,仍是服務于傳統(tǒng)數倉的需求。而clickhouse則是更專注在新一代實時數倉上。

這兩種產品策略沒有孰好孰壞,對于客戶來說,最終還是要結合自己的需求來進行技術、產品的選型。

數倉如何解決深層計算問題?

實時數倉所重點強調的是數據處理效率要快,那如果進一步追問該問題,當下的實時數倉到底能快到什么程度?孫宇熙認為,即便當下的數倉產品已經讓數據分析速度有了極大突破,提升了10倍、或是100倍,但這或許并不意味著什么,市場可能需要到是快1萬倍。

為什么這么說?孫宇熙舉了銀行的例子,不論是08年美國次貸危機、還是近期硅谷銀行倒閉,其實背后本質問題都是因為金融機構的流動性受到沖擊,所以流動性一直以來是金融機構關注的重點問題。08年金融危機之后,全球所有監(jiān)管機構都在起草制定防止銀行流動性變差的協(xié)議,而在其中,設置了一個重要的指標叫做流動性覆蓋率(liquidity coverage vision,縮寫LCR)LCR超過110%,你的流動性就達標了;如果低于110,但高于100%,那你屬于很危險,因為很容易被擊穿;如果低于100%,意味著你的流動性已經開始出現嚴重的問題。

在國內,監(jiān)管機構給出的要求是,2000億規(guī)模以上的中大型銀行都要向監(jiān)管機構每日匯報一次LCR?!叭欢屓耸诌z憾的是,我們最頭部的大型國有商業(yè)銀行當中,幾乎沒有哪一家能每天能把 LCR 這個指標計算一次。有的大型銀行甚至只能一個月算一次?!?/p>

為什么銀行做不到?孫宇熙認為一個原因是,要算LCR指標,需要全行所有的數據。把所有的對公客戶、零售客戶等等客戶數據全匯總起來,很可能每日處理的數據量能達到百億,這種數據規(guī)模是驚人的。另一個原因是,目前數倉計算需要大量的表做關聯,“這種表結構最大的問題在于它是低維的,依然是在用行和列來表達這個數據,它天然就不善于去做數據之間的關聯分析?!碑斢脦资畯埍砣プ鲫P聯計算的時候,速度自然就會更慢。

在孫宇熙看來,未來數據分析效率會更快,除了表結構之外,數據倉庫應該要支持其他數據計算模式,比如說圖計算。圖數據庫的好處在于它能夠執(zhí)行某些類型的查詢,不僅可能更快、更有效,而且在編寫這些查詢時語法更為緊湊。

嬴圖曾在一家大型商業(yè)銀行內部做過一個實驗,這家銀行原來的LCR計算大概要算4個小時,而用圖計算在2秒鐘內,即可完成,“這是一個七千倍以上的性能提升?!?/p>

實際上現在已經有許多數據倉庫支持除表結構之外的其他數據分析,據薛菲表示,“全文搜索就是一個很好的例子。全文搜索不是結構化數據,它是一種半結構化數據。許多數據倉庫已經支持諸如JSON或XML之類的類型,可以用來完成全文搜索的應用,比如阿里云的自研數據倉庫AnalyticDB。”

此外,Clickhouse也有一個名為SQL Graph的項目。但Tanya也表示,目前他們的優(yōu)先級放在了如何將向量搜索與傳統(tǒng)分析結合使用上,而圖計算這部分項目暫時尚未將其列為重點,其最重要的原因是目前圖數據缺乏一個統(tǒng)一的標準。從開發(fā)者的角度來看,開發(fā)圖查詢是非常困難的。

不過,當下圖計算或圖數據庫現在面臨一個巨大的機會,薛菲表示,可以將其與LLM(Large Language Models)結合起來?!拔磥?,LLM可能會成為處理圖數據的新接口,因為用自然語言表達關系問題要比使用尚未發(fā)明的圖標準更容易。”

LLM浪潮的崛起,也進一步推動了業(yè)務和應用對向量能力的需求。薛菲稱,目前,阿里云瑤池數據庫已全面擁抱向量檢索能力,包括通義行業(yè)大模型在內的LLM就采用了企業(yè)級智能數倉AnalyticDB作為默認的向量檢索引擎,性能較開源增強了2~5倍,與全文檢索和結構化搜索聯合進行多路召回,加速AIGC應用落地。

(接下來,雷峰網將推出《大模型會顛覆分析型數據庫?》等文章,歡迎加作者微信 mindy1857 交流。)

云數倉到底貴不貴?

于客戶而言,性能與成本都要考量。在成本端,近期關于云數倉到底貴不貴的話題也引發(fā)討論。包括在 Tanya的文章中也重點提到了關于云數倉的成本問題,“與替代方案相比,云數據倉庫的用戶支付 3-5 倍的費用并不少見?!?/p>

在接受雷峰網采訪時,她說道:“我們測試了Amazon Redshift,Google BigQuery和Snowflake三大數倉產品后發(fā)現,在資源消耗方面,這些數據倉庫的表現較差,包括較少的數據壓縮和運行查詢所需的更多內存?!?/p>

雷峰網接觸的一些公司中,的確也有公司反映他們在用云數倉之后,整體的數據分析成本變高了。劉松談到了他們公司的案例。過去他們內部使用BigQuery,一年數倉成本大概是花10萬美金。后來選用BigQuery之后,是原來的四倍。

云數倉為何會讓人覺得貴,這與其定價模型有關。定價模型涉及各個方面,例如數據掃描量、計算結果和資源利用率。

Tanya稱,他們曾對Google BigQuery進行了詳細研究,Google BigQuery的定價模型,除非客戶有承諾支出,否則實際上是按照掃描的數據量收費。但并非每個人都能做到承諾支出,同時特別對于初創(chuàng)公司在這方面確實很困難,因為他們的業(yè)務仍在探索中,很難有公司可以承諾一個特定的資源使用水平。而且承諾支出,也并不能完全彌補價格差距。

而云最大的優(yōu)勢是利用云的彈性和資源調用能力,假如新手開發(fā)者發(fā)出復雜查詢語句——“全表掃描”,它能調動資源,給你不斷地算,最后算出一個“天價”的計價單,你后悔也沒用。而在傳統(tǒng)數倉中,如果數倉做不出全表掃描的查詢,它只會死機。

到底如何解決云數倉的成本問題?在過去的一年里,許多客戶一直在向薛菲咨詢這個問題。

在她看來,要解決成本問題可以從三個方面考慮:第一是,讓產品完全實現Serverless(無服務器)架構。第二方面是存儲,客戶可以使用云存儲,利用云上不同的存儲類型,為那些不經常訪問的數據降低成本。第三,即保持開放。這也是她認為最重要的一個方向。

“云數據倉庫之所以昂貴,其中一個原因是它們通常不是開放的,例如,過去如果用戶希望數據在數據倉庫中,那么就不能從外部計算中心以外的地方創(chuàng)建數據,比如不能從Spark中提取數據。但是現在,我認為許多生態(tài)系統(tǒng)都在變得更加開放,即使數據僅存儲在數據倉庫中,用戶仍然可以使用自己的Spark、Presto,以及自己的機器學習平臺。在這種情況下,數據不再是冗余的?!?/p>

據阿里云向雷峰網透露,阿里云目前已與ClickHouse達成國內獨家戰(zhàn)略合作,作為ClickHouse在中國獨家的云服務提供商,阿里云擁有全球最大的ClickHouse商用集群之一,可提供具備獨有企業(yè)級能力的云原生ClickHouse企業(yè)版。企業(yè)版基于存算分離架構,可按量計費,比開源自建成本降低30%+。

在魏一看來,即使云數倉在公有云環(huán)境下可能比傳統(tǒng)數倉更貴,但考慮到云數倉規(guī)?;瘞淼男侍嵘齼?yōu)勢,從整體來看,云數倉肯定是要更節(jié)約成本的。

生成式AI會顛覆數倉?

除關心成本外,今年生成式AI的席卷而來,也讓業(yè)內人士非常關心其對數據領域的影響,包括一個是數據庫系統(tǒng)如何幫助人工智能(DB4AI),另一個是人工智能如何幫助數據庫系統(tǒng)(AI4DB)。

在Tanya看來,生成式AI在訓練的過程中,有很多地方可以利用數據平臺。首先是數據集篩選與分析,需要對用于訓練大型語言模型的數據集進行篩選和分析,其中包括進行臨時分析,以確定最適合用于訓練的數據集。

一旦確定了訓練所需的數據集,就需要構建數據管道,用于將這些數據集轉換為模型訓練所需的格式。這是一個涉及數據處理和轉換的平臺建設過程。

生成式AI模型一旦構建完成,需要與現有數據集進行整合。這可能涉及將模型產生的結果與現有數據集相結合,常見的方式是通過構建嵌入來實現,并將其存儲在數據庫中,然后進行向量搜索與數據分析。

“這是一個有趣的領域,在消費模型的過程中,你可能需要進行向量搜索以及其他數據分析。這可能需要在數據庫中實現向量搜索功能,其中存在一個討論點,即是選擇專門的向量數據庫還是將向量搜索功能集成到傳統(tǒng)數據庫中?!?/p>

最后,生成式AI應用程序,需要對訓練和使用進行觀察。你究竟如何觀察這些情況?你應該收集哪些類型的事件?這也是一個大數據問題。

在Tanya看來,未來,訓練、消費和應用可觀察性這三個領域可能都要用到大數據平臺。

薛菲表示,目前阿里云也在探索生成式AI與數倉的結合,其中探索的第一件事是LLM是否可以成為數據的單一或最通用的接口,以及自然語言是否可以成為未來的一切接口。

“也許在未來,SQL將會過時,或許SQL只對一小部分人來說還有關聯性,大多數人與數據互動的門檻將被極大的降低,因為LLM使得人們不需要了解SQL或者其他的語言就可以試用數據?!?/p>

第二個方向是探索AI如何更好地幫助優(yōu)化數據系統(tǒng)。

“比如它們如何只在需要的地方添加索引,基于AI規(guī)定如何優(yōu)化整個系統(tǒng)。也許我們只需要一個單一的數據系統(tǒng),只需關心數據源,而中間的一切都可以由機器完成。我們不需要進行手動ETL,不需要手動SQL優(yōu)化。我們不需要擔心所有中間的數據建模。所有這些都可以自動完成。”

這些暢想聽起來確實令人興奮,薛菲稱,而自今年年初以來,已經有客戶在詢問她,如何將生成式AI融入他們的工作流程中。

他們看到客戶將業(yè)務與AI相結合的過程大概分為三個不同的階段:第一階段是試水階段,客戶在這個階段進行初步嘗試,用企業(yè)知識庫在內部進行驗證,探索大模型的能力邊界。第二階段是構建可擴展且價格合理的AI增強應用的階段。在這個階段,客戶仍然使用原始的企業(yè)數據,但通過引入LLM來增強其功能。第三階段是一些客戶開始探索構建AI原生應用程序,進入全新的應用領域。

“在試水階段,阿里云的數據倉庫AnalyticDB可以通過開放的生態(tài)以及解決方案模版提供快速的概念驗證(POC),以便客戶可以輕松地與LLM連接,進行簡單的向量搜索,測試他們的想法?!毖Ψ普f。

“在構建可擴展的AI增強應用階段,正如Tanya提出的一個關鍵問題,向量能力是作為單獨的數據庫還是與現有的數據庫結合?我的觀點認為是后者會贏得市場。構建第二階段的AI應用必須從現有數據應用中發(fā)展而來。因此,客戶的核心需求并不是單純的向量,而是向量搜索需要有機地與其他現有技術結合,如全文搜索和SQL。他們需要確保向量全文搜索和SQL能夠完全交織在一起,以保證AI增強應用程序的順利運行?!?/p>

薛菲表示,目前看到市場上有很多客戶也紛紛進入這一階段,尤其是許多在線零售商和從事在線旅行,支持聊天機器人等服務的公司。

而對于未來,可能還會有許多的公司會邁向AI原生應用程序的階段?!霸谶@一階段,我們的數據存儲需要更深度與大語言模型結合。”薛菲說道。目前阿里云發(fā)布了一系列新的能力,其中包括將LLM嵌入到阿里云的數據倉庫中,或者構建一站式平臺,使數據和LLM能夠更緊密地交織在一起,使生態(tài)系統(tǒng)更加注重AI而不是數據,以便他們可以構建下一代完全AI-Native型的業(yè)務應用。

結語

站在2023年年末,回顧過去一年,不論是對數倉實時性、深層計算等技術問題的討論,還是對數倉成本等商業(yè)化問題的討論,這些眾多議題都在激發(fā)著數據庫領域的活力和生機。正如古人智者所言:“滾石不生苔”,在碰撞與交流的過程中,事物才能擺脫沉寂,煥發(fā)出源源不絕的活力,迎來真正的演變。

展望未來,薛菲提出了三個方向:數據倉庫會更加Serverless化(無服務器)、實時湖倉融合以及數據與人工智能的深度融合。與此同時,Tanya強調了“開放”的理念,她堅信未來的創(chuàng)新將在廣泛開放社區(qū)的土壤中蓬勃發(fā)生。

在大模型的引領下、在產業(yè)變革的潮頭中,數據庫將持續(xù)演進,而企業(yè)對其需求也將靈活變動。接下來,雷峰網(公眾號:雷峰網)也將持續(xù)推出《投資人,正逃離分析型數據庫賽道》《分析型數據庫公司相加,干不過一個李佳琪?》《大模型會顛覆分析型數據庫?》等文章,歡迎加作者微信(mindy1857)交流。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

主筆

關注云計算、企服,歡迎找我爆料。微信:mindy1857,加好友請備注公司、姓名及來意
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說