0
本文作者: 王德清 | 2020-12-22 15:09 |
近年來(lái),騰訊云、阿里云等新進(jìn)IT廠商的身影頻繁的出現(xiàn)在政企市場(chǎng)中,政府、企業(yè)第一時(shí)間想到的是直接購(gòu)買云服務(wù),而并非再去購(gòu)買服務(wù)器,搭建系統(tǒng)。
而這一變化,也讓云計(jì)算成為一個(gè)創(chuàng)新之地。
“隨著云計(jì)算承載的業(yè)務(wù)規(guī)模越來(lái)越大,傳統(tǒng)服務(wù)器難以完全滿足云計(jì)算數(shù)據(jù)中心場(chǎng)景下對(duì)超大規(guī)模、需求多樣、高性價(jià)比、安全可靠以及軟硬件一體化等方面的要求?!?/p>
說(shuō)這句話的是騰訊云服務(wù)器與供應(yīng)鏈管理部總經(jīng)理劉裕勛,實(shí)際上,隨著云計(jì)算產(chǎn)業(yè)的發(fā)展,從技術(shù)的角度說(shuō),云計(jì)算已經(jīng)超過(guò)IT基礎(chǔ)設(shè)施的范疇,正向上定義軟件應(yīng)用服務(wù),向下定義芯片、服務(wù)器等IT硬件。
在劉裕勛看來(lái),隨著云原生理念的不斷推進(jìn),云基礎(chǔ)架構(gòu)的演進(jìn)過(guò)程中會(huì)呈現(xiàn)出三個(gè)特點(diǎn):高復(fù)雜度、高性價(jià)比、安全性。
當(dāng)海量業(yè)務(wù)承載在云基礎(chǔ)架構(gòu)設(shè)施的時(shí)候,業(yè)務(wù)的多樣性,對(duì)于軟硬件一體化的系統(tǒng)實(shí)際上提出了更高的要求。面臨這樣的復(fù)雜度,云廠商必須要聯(lián)合芯片產(chǎn)商、整機(jī)廠商進(jìn)行深度的定制化,以此來(lái)解決各種復(fù)雜場(chǎng)景下的兼容性問(wèn)題。
而高性價(jià)比,我們以英特爾的CPU為例,CPU的另外一個(gè)名字叫通用計(jì)算。而這也就代表著,搭載通用CPU的服務(wù)器具有很高的通用性,但是實(shí)際的應(yīng)用中,勢(shì)必會(huì)造成性能的浪費(fèi)。
對(duì)于普通用戶來(lái)說(shuō),可能十幾上百臺(tái)服務(wù)器就是應(yīng)用的極限了,但是互聯(lián)網(wǎng)大廠的服務(wù)器動(dòng)輒就是上萬(wàn)甚至幾十萬(wàn)臺(tái),因此每臺(tái)性能的略微降低累積起來(lái)都是一個(gè)不得了的數(shù)字
更重要的是,由于互聯(lián)網(wǎng)應(yīng)用的特殊性,相當(dāng)一部分新采購(gòu)的服務(wù)器都要進(jìn)行針對(duì)性的優(yōu)化,或者需要進(jìn)行部分配件的調(diào)整與革新,也就需要投入大量的人力、精力和財(cái)力,造成資源的浪費(fèi)。
因此對(duì)于以騰訊云為代表的云廠商來(lái)說(shuō),勢(shì)必要從整機(jī)的設(shè)計(jì)上面,去精簡(jiǎn)不需要的功能;優(yōu)化整機(jī)的散熱能力,降低能耗。配備一個(gè)非常強(qiáng)的供應(yīng)鏈的管控。去降低計(jì)算力的單位成本,并進(jìn)而將這種成本紅利釋放給數(shù)百萬(wàn)的云上用戶。
而在安全方面,從芯片層面就進(jìn)行定制化,勢(shì)必能更好的保證整機(jī)系統(tǒng)的安全可靠。
可見(jiàn)的是,面對(duì)未來(lái)將呈現(xiàn)井噴式增長(zhǎng)的海量數(shù)據(jù),對(duì)于騰訊云這般體量的云服務(wù)商來(lái)說(shuō),自研服務(wù)器將是一條必須要走的路線。
就在2020 Techo Park開(kāi)發(fā)者大會(huì)“下一代軟硬一體化的云計(jì)算基礎(chǔ)設(shè)施”分論壇上,騰訊云重磅發(fā)布星星海首款自研GPU服務(wù)器和星星海新一代自研雙路服務(wù)器,后者也是國(guó)內(nèi)首款搭載即將發(fā)布的第三代英特爾至強(qiáng)可擴(kuò)展處理器(Ice Lake)的雙路服務(wù)器。
劉裕勛表示:“在云游戲場(chǎng)景中,客戶對(duì)單卡TCO,單用戶成本非常敏感,迫切需要降低成本。但現(xiàn)存所有GPU服務(wù)器機(jī)箱長(zhǎng)度過(guò)長(zhǎng),當(dāng)遇到需要低延時(shí)邊緣部署時(shí),無(wú)法滿足需求,會(huì)出現(xiàn)單卡掛死,導(dǎo)致整機(jī)掛死的情況”
針對(duì)類似的場(chǎng)景和業(yè)務(wù)需求,星星海首款自研GPU服務(wù)器在設(shè)計(jì)上,支持在同一框架內(nèi),靈活更換主板,支持多平臺(tái)兼容,使得業(yè)務(wù)在面對(duì)GPU 選擇時(shí)獲得非常充分的競(jìng)爭(zhēng)優(yōu)勢(shì);同時(shí)結(jié)合業(yè)務(wù)對(duì)PCIe帶寬要求低的特點(diǎn),支持16卡GPU+4路intel服務(wù)器,達(dá)到業(yè)界最高密度,可大幅降低單卡TCO。
同時(shí)支持邊緣部署,提高帶寬穩(wěn)定性,在可用性上,這款GPU服務(wù)器的RAS特性以及PCIe熱插拔特性,使得單GPU故障對(duì)整機(jī)無(wú)影響。
星星海新一代自研雙路服務(wù)器則是基于即將發(fā)布的第三代英特爾至強(qiáng)可擴(kuò)展處理器,采用英特爾的10納米制程,能夠滿足通用計(jì)算、異構(gòu)計(jì)算、裸金屬、高性能計(jì)算等全業(yè)務(wù)場(chǎng)景需求。
測(cè)試數(shù)據(jù)顯示,與搭載第二代英特爾至強(qiáng)處理器的雙路服務(wù)器相比,新款服務(wù)器的浮點(diǎn)性能提高70%,同時(shí)單機(jī)最高支持的內(nèi)存可達(dá)12TB,可充分滿足大型數(shù)據(jù)庫(kù)等業(yè)務(wù)需求。
經(jīng)測(cè)試,星星海新一代自研雙路服務(wù)器通過(guò)深度優(yōu)化定制,計(jì)算密度提升50%;通過(guò)高性能散熱器和研發(fā)創(chuàng)新獨(dú)立風(fēng)道設(shè)計(jì),散熱方案支持CPU功效提升45%;基于增強(qiáng)的可靠性、可用性和可服務(wù)性(RAS)技術(shù),可多維度全覆蓋故障診斷、精細(xì)化定位等問(wèn)題明確故障,使宕機(jī)率減少50%。
事實(shí)上,在騰訊云自研服務(wù)器的邏輯中,單純硬件的更新是不足以支撐未來(lái)云計(jì)算的業(yè)務(wù)的。
在騰訊看來(lái),隨著云計(jì)算承載的業(yè)務(wù)規(guī)模呈現(xiàn)指數(shù)級(jí)增長(zhǎng),軟件和硬件的結(jié)合成為剛需。
據(jù)騰訊云服務(wù)器運(yùn)營(yíng)中心專家工程師牛犇介紹,在來(lái)料質(zhì)量方面,騰訊云采取基于業(yè)務(wù)模型的來(lái)料篩選機(jī)制,通過(guò)云業(yè)務(wù)模型與硬盤(pán)底層參數(shù)建模,分析參數(shù)統(tǒng)計(jì)分布,定制化篩選標(biāo)準(zhǔn),使得硬盤(pán)年化故障率顯著降低至1/5。
在運(yùn)營(yíng)監(jiān)控方面,騰訊云的硬盤(pán)智能監(jiān)控系統(tǒng)通過(guò)多維度硬盤(pán)健康評(píng)分和AI 故障預(yù)測(cè),使硬盤(pán)故障提前識(shí)別率提升至80%。
據(jù)雷鋒網(wǎng)了解到,截止目前,騰訊數(shù)據(jù)中心正在運(yùn)行的服務(wù)器超過(guò)100萬(wàn)臺(tái),經(jīng)統(tǒng)計(jì),硬件故障導(dǎo)致的系統(tǒng)宕機(jī)中,內(nèi)存故障占比排第一。
騰訊云通過(guò)優(yōu)化算法進(jìn)行內(nèi)存篩選、優(yōu)選X4顆粒內(nèi)存條、使能多種內(nèi)存RAS特性等方式大大提升了服務(wù)器的可靠性,并通過(guò)部署MCA Recovery技術(shù),有效緩解了不可糾正錯(cuò)誤的影響,減少40%以上內(nèi)存故障導(dǎo)致的宕機(jī)。
此外,在網(wǎng)絡(luò)、運(yùn)維等方面,騰訊云也都打造了軟硬一體化解決方案,去進(jìn)行優(yōu)化。
其實(shí)不僅僅是自研服務(wù)器,以騰訊云為代表的云服務(wù)廠商也在數(shù)據(jù)中心、云端軟件等領(lǐng)域也進(jìn)行了廣泛的投入。
對(duì)此,劉裕勛對(duì)雷鋒網(wǎng)表示到,云上的客戶是非常的“挑剔”的,同時(shí)云計(jì)算市場(chǎng)的競(jìng)爭(zhēng)也很激烈,客戶都希望用低成本,高質(zhì)量的產(chǎn)品,客戶要求的苛刻會(huì)推動(dòng)我們?nèi)プ龈嗟淖兏锖脱葸M(jìn)。
在此背景下,通過(guò)自研服務(wù)器、自研數(shù)據(jù)中心技術(shù)、再到上層的IaaS、PaaS、SaaS平臺(tái)的協(xié)同打造,勢(shì)必能夠更好地滿足用戶的業(yè)務(wù)需求。(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。