0
作者 | 王德清
出品 | 雷鋒網產業(yè)組
當前,對于每一個企業(yè)的數字化轉型和可持續(xù)發(fā)展來說,數據起到了至關重要的作用。
“一切業(yè)務數據化,一切數據業(yè)務化”,也成為當今諸多企業(yè)的口頭禪。
據知名咨詢機構統(tǒng)計,到2025年全球數據總量將超過160ZB,全球數據總量的近 20% 將成為影響日常生活的關鍵數據,近 10% 將變?yōu)槌P鍵數據。
隨之而來的就是,企業(yè)對于數據洞察敏捷度要求的不斷提升,同時企業(yè)也迫切需要可以利用多個數據源、使用不同的大數據分析技術,快速構建靈活友好的數據架構,解決多元化分析場景的數據需求。
基于這一洞察,日前,騰訊云首次對外展示完整云端數據湖產品圖譜,并推出兩款“開箱即用”數據湖產品——數據湖計算服務DLC和數據湖構建DLF。
云原生智能數據湖到底具有了哪些能力?可為企業(yè)帶來哪些價值?為了探討這些問題的答案,會后,雷鋒網與騰訊云大數據產品中心副總經理雷小平、騰訊云容器產品總經理鄒輝、騰訊云AI應用產品中心總經理王磊進行了一場對話。
眾所周知,數據湖并非是一個新的概念,早在2010年,Pentaho創(chuàng)始人兼CTO詹姆斯·狄克遜(James Dixon)就提出數據湖概念,同期Pentaho發(fā)布了開源框架的Hadoop第一版。
隨后,藍色巨人IBM、EMC等也推出了數據湖解決方案,其核心基于分布式文件系統(tǒng)建立的數據存儲方式,橫向擴展比較強大,實現了集中統(tǒng)一管理。與此同時,基于HDFS系統(tǒng)帶來的Hadoop和Spark開源生態(tài)構建,也在一定程度上推進了企業(yè)數據湖的進程。
但受限于開源軟件本身能力的限制,傳統(tǒng)數據湖技術無法滿足企業(yè)用戶在數據規(guī)模、存儲成本、查詢性能以及彈性計算架構升級等方面的需求,無法達到數據湖架構的理想目標。
在雷小平看來,傳統(tǒng)的數據湖產品只是解決了大數據“存”的問題,在“用”的維度上并沒有產生更大的價值。
而伴隨著數字化時代的到來,企業(yè)用戶對于大數據產品有了更高的要求,需要更低廉的數據存儲成本、更精細的數據資產管理、可共享的數據湖元數據、更實時的數據更新頻率以及更強大的數據接入工具。
這直接導致了傳統(tǒng)數據湖產品難以深入企業(yè)級行業(yè)用戶。
面對著企業(yè)對于大數據工具需求的全面變化,以及以云計算為中心、以數據驅動業(yè)務及可組合式數據架構成為數智時代的數據分析的趨勢下,云原生智能數據湖應勢而生。
“云原生智能數據湖,能夠很好的擴展計算和存儲資源,同時能極大地降低運維管理難度,實現業(yè)務靈活部署。同時可以助力各行各業(yè)解決多元化數據分析場景的新需求,更好地激發(fā)大數據在企業(yè)數字化升級過程中的價值?!崩仔∑浇又鴮卒h網表示到。
“相比過去的數據湖,云原生數據湖的優(yōu)勢主要體現在能夠以極低的價格共享存儲服務;計算資源能夠按需擴容,按量付費;同時隨著數據湖全鏈路解決方案的不斷完善和增強,也在打破數據孤島、實現多元化數據分析等方面具有獨特優(yōu)勢?!?/strong>
基于對行業(yè)的這一理解,在雷小平看來,企業(yè)需要一個具備端到端的云原生數據湖解決方案,從存儲、計算到智能的數據分析,再到偏向業(yè)務場景的各種數據應用,通過“從下到上”的把這些能力聚合在一起,同時結合數據湖的能力去解決業(yè)務中的具體問題,并能夠快速搭建并運用數據湖的技術架構。
隨著技術的不斷演進,數據庫技術正在與云計算以及人工智能技術相融合,結合云計算以及人工智能的特性,云數據庫正呈現出更高的數據敏捷度、更優(yōu)的數據存儲分析成本,以及更極致的資源彈性能力,在打破數據孤島、實現多元化數據分析等方面具有獨特優(yōu)勢。
就以騰訊云原生智能數據湖為例,其產品矩陣包括數據湖存儲、數據湖算力調度、數據湖大數據分析、數據湖AI能力、以及數據湖應用和云上基礎服務六個層面,提供一體化的全方位服務。
在存儲方面,騰訊云原生數據湖存儲以對象存儲COS服務為核心,理論上可以存儲任意規(guī)模的異構數據,具有高可靠性和高持久性,同時也支持將其他云端數據設施作為數據湖的存儲服務。
對于騰訊云對象存儲,雷鋒網曾在《騰訊存儲技術背后的十五年往事》一文中進行詳細描寫過,騰訊云對象存儲COS基于新一代存儲引擎YottaStore打造,不僅具有高可用、高性能和低成本等優(yōu)勢,且在存儲可靠性、開放兼容和數據安全方面也為海量數據的存儲和管理提供了更強大的支持。此外,騰訊云對象存儲COS還進一步通過“三級加速器”,提供存儲端元數據、近計算端數據緩存以及AZ級全閃存硬件加速能力,可以滿足用戶低成本、高性能、流批一體地挖掘數據資產價值的需求。
在算力調度方面,騰訊云彈性容器服務EKS,具備存算分離、緩存加速、彈性計算能力,既能幫助企業(yè)充分利用云上資源的彈性能力,極大減少集群空閑時期的成本浪費,也能快速、安全的提供多樣的算力資源。
據鄒輝介紹,彈性容器服務EKS不僅經歷了三次大的技術架構重構,同時也在騰訊云幾十萬、幾百萬臺的物理機上做了部署,實踐驗證了其高可用和穩(wěn)定性,它既可以提供一個運維簡單、兼容原生Kubernetes的Serverless容器平臺,也能更快更彈性更安全且無需對集群管理實現管理,同時更具備跨可用區(qū)的容災,容器沙箱及熱遷移等高級功能,真正實現了極致的資源使用靈活性。
同時,面向企業(yè)的混合云部署場景,騰訊云的EKS可以在用戶的機房中部署一個插件,當客戶需要更多算力資源的時候,通過這一個插件就可以使用騰訊云提供的性容器服務EKS服務。
其次,在數據湖分析方面,騰訊云原生數據湖同樣既提供半托管的泛Hadoop服務,滿足用戶自定義需求,也提供全托管的數據服務,便于用戶獲取海量數據的洞察力。同時,用戶還可利用騰訊云提供的數據協(xié)作工具對計算服務進行編排和調用,大幅度提升企業(yè)數據的便捷性和敏捷度。
在數據湖智能應用方面應用方面,騰訊云推出了基于數據湖的數據應用服務,如企業(yè)畫像、聯(lián)邦計算、商業(yè)智能分析等。同時,騰訊云數據湖更包含了豐富的AI服務,能夠為圖像處理、音頻處理、自然語言處理、視頻處理等提供有力的數據支撐。
據王磊介紹,云原生數據湖為AI的應用提供了統(tǒng)一的數據架構,在數據收集、標注、訓練、推理等領域都能夠發(fā)揮更大的作用,而騰訊云憑借全球領先的技術和創(chuàng)新方案,打造了領先的數據湖與AI融合平臺,為更多的應用場景提供了智能化的能力。
以騰訊云內容安全智能服務為例,該服務基于云原生數據湖架構,以AI智能審核能力為核心,從接口輸入、輔助判斷、模型識別、客戶策略處理以及人工審核與平臺六大維度,為用戶提供了完整的內容安全解決方案,讓客戶一次調用即可完成所有的內容審核工作。在此基礎上,騰訊云也不斷通過數據湖結合AI的能力賦能客戶,在科技戰(zhàn)“疫”、OCR識別、智能票財稅等應用場景領域發(fā)揮了更多的價值和作用。
當滿足了用戶對于大數據產品需求之后,對于產品提供者來說,如何讓用戶快速的用上該產品則成為了下一個問題。
為了讓用戶更快的建立起數據湖環(huán)境,騰訊云原生智能數據湖還打造了兩款全新的“開箱即用”數據湖產品——數據湖計算服務(Data Lake Compute,簡稱:DLC)和數據湖構建DLF(Data Lake Formation,簡稱:DLF)。
其中,數據湖計算服務DLC服務采用無服務器架構(Serverless)設計,用戶無需關注底層架構或維護計算資源,使用標準SQL即可完成對象存儲服務(COS)及其他云端數據設施的聯(lián)合分析計算。借助該服務,用戶無需進行傳統(tǒng)的數據分層建模,大幅縮減了海量數據分析的準備時間,有效提升了企業(yè)數據敏捷度。
不僅如此,騰訊云數據湖構建DLF則提供了數據湖的快速構建,以及與湖上元數據管理服務,能夠幫助用戶快速高效的構建企業(yè)數據湖技術架構,包括統(tǒng)一元數據管理、多源數據入湖、任務編排、權限管理等數據湖構建工具,借助數據湖構建,用戶可以極大的提高數據入湖準備的效率,方便的管理散落各處的孤島數據。
值得注意的是,DLF不僅可以兼容騰訊產品產生的異構數據,它也可以兼容騰訊云之外的異構數據。
數據顯示,基于這兩款數據湖產品,相比于本地自建大數據集群,數據湖構建時間減少了60%,數據分析計算性能提升35.5%,云端數據湖架構投入使用后可使存算數據量增長75%,配合其他大數據服務,在業(yè)務峰值期可以節(jié)約30%的硬件資源,以及一半的大數據工程師和運維工程師。
對于任何大數據產品而言,其穩(wěn)定性的重要性是不言而喻的。
對此雷小平對雷鋒網表示,騰訊云此次發(fā)布的騰訊云原生數據湖產品在內部經歷過長期實踐和錘煉之后才對外發(fā)布的。
以騰訊新聞為例,騰訊新聞?chuàng)碛星|級的文章數量,每篇文章各環(huán)節(jié)數據維度達到幾百個,多維度的數據主題導致各個業(yè)務環(huán)節(jié)的數據量線性膨脹,也這給數據分析帶了極大的挑戰(zhàn)。
為此,基于騰訊云原生數據湖技術架構,在數據采集、數據存儲、數據分析的全數據鏈條上提供了高可靠高可用的彈性數據能力。目前已接入全量文章的索引數據,文章索引達日均30-50億/100G+ ,支持準實時寫入更新,業(yè)務數據鏈路延遲提升至分鐘級別,使得算力資源節(jié)約超過50%,綜合運行成本降低了30%,大數據運維工程師的工作量提升了100%。
“騰訊新聞的數據應用中,既有偏離線的,也有偏實時的,更有偏批量和小部分數據查詢的,場景十分的多樣化,而騰訊云基于多樣化的應用場景,不斷對云原生數據湖方案進行孵化和打磨,最終讓騰訊云原生數據湖應勢而生?!?/p>
除此之外,騰訊云正在積極推動數據湖在政務、工業(yè)、零售等領域的大規(guī)模落地。
目前,騰訊云數據湖體系已服務眾多內外部客戶,其整體算力彈性資源池已達500萬核,存儲數據超過100PB,每日分析任務數達1500萬,每日實時計算次數超過萬億,能支持上億維度的數據訓練。
顯然,作為數智時代的數據處理的新引擎,云原生智能數據湖能夠為用戶帶來更多的可能性。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。