0
如今,伴隨著數(shù)字化轉型腳步的加快,大數(shù)據(jù)已成為企業(yè)經(jīng)營管理的主要手段之一,越來越多的行業(yè)也選擇通過大數(shù)據(jù)來實現(xiàn)業(yè)績增長。
政府機構通過大數(shù)據(jù)手段為市民提供優(yōu)質(zhì)服務,改善民生;醫(yī)療公司利用大數(shù)據(jù)和認知計算,從病人的病史和各部門醫(yī)生的處方中獲取有價值的見解;銀行通過大數(shù)據(jù)咨詢服務收集數(shù)據(jù)并進行分析,從而提高客戶對網(wǎng)上銀行的參與度...
大數(shù)據(jù)普惠千行百業(yè)的案例比比皆是。大數(shù)據(jù)相關人士曾這樣表述道:大數(shù)據(jù)時代已經(jīng)來臨,這是一場時代的變革,只有把握好機遇,建設大數(shù)據(jù)平臺并運用到企業(yè)中,才能不被時代所拋棄,并隨著時代的更迭演變出更適合發(fā)展的模式。
這段話說明了大數(shù)據(jù)時代到來的必然性,也說明了大數(shù)據(jù)時代下,大數(shù)據(jù)平臺建設的重要性。
大數(shù)據(jù)平臺是指以處理海量數(shù)據(jù)存儲、計算及不間斷流數(shù)據(jù)實時計算等場景為主的一套基礎設施。典型的包括Hadoop系列、Spark、Flume、Flink以及Kafka等大數(shù)據(jù)生態(tài)組件。
面對海量數(shù)據(jù)爆發(fā)式增長,越來越多的企業(yè)有了強烈的上云需求,在此背景下,大數(shù)據(jù)平臺又有了新的定義——云原生大數(shù)據(jù)平臺。
智領云CEO彭鋒表示,云原生大數(shù)據(jù)平臺的出現(xiàn)其實是在傳統(tǒng)大數(shù)據(jù)平臺的基礎上進行的,主要在于傳統(tǒng)大數(shù)據(jù)平臺的搭建,開發(fā)及運維都相對復雜。
一般來說,原始數(shù)據(jù)的誕生到價值產(chǎn)生過程中往往包括數(shù)據(jù)發(fā)現(xiàn)、集成、開發(fā)、分析等多個環(huán)節(jié),在這個過程中要想讓數(shù)據(jù)創(chuàng)造更高的價值就需要數(shù)據(jù)應用的開發(fā)部署,服務共享,持續(xù)發(fā)布,調(diào)度運維以及質(zhì)量監(jiān)控等一整套體系來管理。
而傳統(tǒng)大數(shù)據(jù)平臺主要集中在采集、數(shù)據(jù)組件安裝以及數(shù)據(jù)倉庫的建設方面。并且其開發(fā)管理運營環(huán)節(jié)散布在各個大數(shù)據(jù)組件中,并沒有一個完整的管理體系。此外,更重要的是傳統(tǒng)大數(shù)據(jù)平臺中的每個組件都有自己的安裝流程和管理流程,這就增加了平臺的建設難度和復雜度。
對此,彭鋒還舉例道,如果大家在今日頭條或者抖音中點贊一個足球視頻,它會給你推送相關的足球新聞或者周邊產(chǎn)品。從點擊這個視頻開始的數(shù)據(jù)采集到最后根據(jù)用戶畫像推薦給你的內(nèi)容,中間要經(jīng)過多個大數(shù)據(jù)組件,諸如日志、數(shù)據(jù)庫、數(shù)據(jù)采集、數(shù)據(jù)倉建設、機器學習、模型服務、流式數(shù)據(jù)處理等數(shù)據(jù)應用都是不可或缺的部分。
像下面這個簡化版的數(shù)據(jù)流水線圖展示的一樣, 依靠傳統(tǒng)大數(shù)據(jù)平臺實現(xiàn)這個任務要去開發(fā)至少八條數(shù)據(jù)線,涉及到包括Kafka、Hive、Spark,Redis、Hadoop、Flume等內(nèi)在的多個大數(shù)據(jù)組件。
這八條數(shù)據(jù)線背后代表整個數(shù)據(jù)產(chǎn)品的八個不同的數(shù)據(jù)處理步驟,傳統(tǒng)上這些數(shù)據(jù)處理步驟都發(fā)布和運行在不同的集群組件中, 其代碼也以不同形式存放于不同子系統(tǒng)中。一個小的應用場景其背后數(shù)據(jù)平臺的搭建往往比想象中的復雜。
顯然傳統(tǒng)大數(shù)據(jù)平臺已不能完全適應大數(shù)據(jù)時代下企業(yè)的運營需求,因此云原生大數(shù)據(jù)平臺的概念開始被業(yè)界推崇。
其實云原生并不是一個新的概念,云原生是面向云而設計的應用,采用基于云原生的技術和管理方法,可以更好地把業(yè)務生于“云”或遷移到云平臺,從而享受“云”的高效和持續(xù)的服務能力,也就是讓企業(yè)的業(yè)務生于云,長于云。
相對云原生而言,云原生大數(shù)據(jù)平臺在國內(nèi)似乎是一個新的概念,并且其熱度并不算高,但在彭鋒看來,去年兩大標志性事件的發(fā)生,預示著大數(shù)據(jù)平臺的云原生化將成為大勢所趨,一是去年3月份Apaceh的Spark支持了Kubernetes;二是去年5月份,Kafka也公開支持了Kubernetes。
同時他指出,云原生大數(shù)據(jù)平臺會呈現(xiàn)出三大趨勢:
基于Hadoop的大數(shù)據(jù)生態(tài)會逐漸遷移到K8s上,MapReduce和Yarn被K8s計算和調(diào)度框架取代,K8s可直接運行所有大數(shù)據(jù)workload,便于多租戶管理,資源混排,提升資源使用率;
各種大數(shù)據(jù)組件都可以在K8s上直接運行,使集成開發(fā)管理成為可能;
數(shù)據(jù)即產(chǎn)品成為可能,以往我們所看到的數(shù)據(jù)能力會以一種集成的方式體現(xiàn),這在傳統(tǒng)大數(shù)據(jù)平臺時代是無法實現(xiàn)的。
顯而易見,云原生大數(shù)據(jù)平臺的優(yōu)勢在于可以解決傳統(tǒng)大數(shù)據(jù)平臺無法解決的問題,諸如平臺建設方式效率低、開發(fā)發(fā)布流程復雜無法形成客戶的自助數(shù)據(jù)能力、系統(tǒng)性能低下導致的數(shù)據(jù)孤島與應用孤島等問題。
在兩大事件的推動下,國內(nèi)各大巨頭企業(yè)包括華為云、阿里云、騰訊云等也進行著K8s云原生大數(shù)據(jù)平臺的具體實踐,其中值得關注的是,智領云就將在Mesos上所做的云原生大數(shù)據(jù)平臺全部遷移到了K8s,并發(fā)布了第一個純K8s在線數(shù)據(jù)開發(fā)平臺——BDOS Online。
彭鋒表示,對大數(shù)據(jù)平臺進行云原生改造并非一件易事。
首先體系之間存在沖突,原來大數(shù)據(jù)體系有自己的分布式管理和內(nèi)部工作通訊機制,現(xiàn)有大數(shù)據(jù)組件對于K8s原生技術棧的使用有一定的沖突,比如Hadoop、Spark等大數(shù)據(jù)框架只能支持某一個版本的K8s;另外一個沖突體現(xiàn)在K8s需要的是存算分離,但是大數(shù)據(jù)講究的是把數(shù)據(jù)存在什么地方,計算存在什么地方。
其次,組件的安裝運維及使用。原有大數(shù)據(jù)組件的安裝運維流程都是通過手動管理方式完成的,而K8s組件的運維、安裝均使用自動方式運行,想要把所有大數(shù)據(jù)組件的安裝運維方式全部改成K8s理念仍有很大挑戰(zhàn)。
再者,現(xiàn)有業(yè)務的無縫遷移?,F(xiàn)有大數(shù)據(jù)運行著很多以前的業(yè)務,包括ETL數(shù)據(jù)分析、數(shù)據(jù)倉建設等,不能為了使用K8s就把以前的業(yè)務應用全部重寫,如何“不用重起爐灶”將其無縫遷移到K8s體系上是另外一大技術難點。
無論是傳統(tǒng)大數(shù)據(jù)平臺還是新興的云原生大數(shù)據(jù)平臺其最終的服務對象是客戶,一款產(chǎn)品的好壞往往取決于市場的接受度。
彭鋒表示,早期我們面臨的問題很多時候是向客戶解釋什么叫容器?什么叫云計算?云計算的好處是什么?容器發(fā)布的好處是什么等問題。大家對容器發(fā)布的復雜度,性能損耗和管理都有一定的顧慮。
而現(xiàn)在大家對云的接受程度越來越高了,大部分客戶都在尋找上云的方案。不管是私有云還是公有云,越來越多的客戶愿意把業(yè)務系統(tǒng)放在云上。如果一個解決方案不是在云上,而是使用傳統(tǒng)集群管理方式發(fā)布,客戶會有“為什么不是在云端發(fā)布,有什么原因嗎?”等類似的疑問。
目前大多數(shù)客戶采取的并非“一次上云”的方式,上云的過程可以跟現(xiàn)有業(yè)務架構,數(shù)據(jù)架構并行,一些新的組件、新的功能也可發(fā)布到云上,然后系統(tǒng)再逐漸遷移。這種上云的好處在于可以讓客戶切身體驗到彈性、高可用、容錯、高效率。
彭鋒坦言,大家已經(jīng)基本認可了云原生的體系架構,但人才方面比較欠缺。
其實除了市場認可外,能否為企業(yè)和千行百業(yè)創(chuàng)造價值也是衡量一款產(chǎn)品的重要標準之一。
提到行業(yè)賦能,據(jù)了解,智領云所提供的云原生大數(shù)據(jù)平臺并不特別強調(diào)行業(yè)屬性,客戶在云上主要有兩種使用方式。
第一種在公有云上直接使用,主要面向中小客戶或者是大客戶中的創(chuàng)新團隊。這種客戶的特點是他們不希望自己來管理一個復雜的大數(shù)據(jù)平臺,但是有一些數(shù)據(jù)分析的需求,需要這種大數(shù)據(jù)業(yè)務開發(fā)的管理方式。
第二種是企業(yè)內(nèi)部使用,這種客戶大多已經(jīng)有大數(shù)據(jù)平臺或者需要搭建大數(shù)據(jù)平臺,但是需要更高效的數(shù)據(jù)應用開發(fā)能力,這類企業(yè)往往希望能夠把整個開發(fā)統(tǒng)一管理起來,并且希望能夠與現(xiàn)有的集群一起使用,這也是云原生大數(shù)據(jù)平臺的一個目標使用場景。
正如前文所言,目前云原生大數(shù)據(jù)平臺在圈內(nèi)逐漸熱了起來,這也在一定程度上推動了各個大數(shù)據(jù)平臺廠商進行云原生大數(shù)據(jù)平臺的具體實踐。如今,智領云發(fā)布的國內(nèi)第一款純K8s在線數(shù)據(jù)平臺——BDOS Online,正填補了國內(nèi)同類產(chǎn)品的空白。
當然,從無到有,從傳統(tǒng)到云原生,云原生大數(shù)據(jù)平臺仍需要很長的一段時間去驗證。
(雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。