0
當AIOps與云計算相容,Azure還是那個Azure?
2022年1月13日,微軟亞洲研究院在“智能運維”媒體溝通會上分享了智能運維的應用場景、面臨的挑戰(zhàn)及未來發(fā)展方向,并詳解微軟亞洲研究院智能運維為Azure所提供的智能原動力。
隨著越來越多的企業(yè)擁抱云計算,企業(yè)上云成為共識,企業(yè)在享用云計算帶來快捷服務的同時也要面對傳統(tǒng)運維帶來的挑戰(zhàn)。
那么如何對云服務進行規(guī)劃與設計?如何讓運維體系更加適應云的變化?如何快速部署、監(jiān)控云資源?“AIOps”應運而生。
結(jié)合了大數(shù)據(jù)和人工智能的AIOps,可以實現(xiàn)智能化操作,快速地分析和處理大量數(shù)據(jù),得出有效的運維決策,可以有效地開展大規(guī)模系統(tǒng)軟件的運維。
如今微軟亞洲研究院與微軟云產(chǎn)品團隊深度合作,目前有哪些成果?有了AIOps的微軟云有什么變化?目前AIOps發(fā)展現(xiàn)狀如何?
會議現(xiàn)場,雷峰網(wǎng)及相關(guān)媒體與微軟亞洲研究院常務副院長、微軟杰出首席科學家張冬梅,首席研究員林慶維展開了深入交流。
微軟亞洲研究院常務副院長、微軟杰出首席科學家張冬梅
微軟亞洲研究院首席研究員林慶維
一、AIOps市場規(guī)??捎^,“吃肉”還是“喝湯”?
“AIOps”是 Gartner 于 2016 年創(chuàng)立的術(shù)語。AIOps通過創(chuàng)新的AI/ML技術(shù),可以有效且高效的設計、構(gòu)建并運營大規(guī)模的復雜云服務。AIOps平臺綜合了大數(shù)據(jù)、機器學習和可視化技術(shù),用于增強和部分取代 IT運維流程和任務,包括可用性和性能監(jiān)控,事件關(guān)聯(lián)和分析,IT服務管理和自動化。
Research and Markets預計,到2025年,AIOps市場規(guī)模將達到143億美元。
面對如此大的市場規(guī)模,AIOps賽道發(fā)展真的好嗎?數(shù)據(jù)量少、應用場景等都是人們所關(guān)注的問題。
而隨著云計算時代的到來,AIOps成為了云計算當中不可或缺的一環(huán)。正如張冬梅院長所說:“現(xiàn)在云計算平臺已經(jīng)變成了整個世界的基礎(chǔ)設施,而未來云計算會像水、電、氣一樣不可或缺。”
而對于整個系統(tǒng)管理來講,也正面臨著前所未有的挑戰(zhàn)。海量用戶、大規(guī)模集群、復雜的系統(tǒng)架構(gòu)使傳統(tǒng)的運維方式力不從心。
傳統(tǒng)運維走向智能運維是一個必然趨勢。
而早在10年前,微軟亞洲研究院就率先開展云智能以及AIOps相關(guān)領(lǐng)域的研究,在該領(lǐng)域提出了全新的方法與設計,如主動系統(tǒng)設計、數(shù)據(jù)驅(qū)動型安全部署等;在全球高影響力的學術(shù)會議上,發(fā)表論文超過50篇。發(fā)起、組織系列討論會@AAAI 2020、ICSE 2021、Chinasoft、MLSys 2022等。
目前微軟亞洲研究院的AIOps研究成果已經(jīng)應用到了微軟Azure、Skype、OneDrive、Office 365、Azure等諸多在線服務中。
在AIOps這一賽道中,微軟走的比較早也比較靠前,無論誰“吃肉”還是誰“喝湯”, 微軟實力都不容小覷。
二、AIOps在微軟云應用如何?
目前微軟云有上千萬臺多物理服務器部署在世界五大洲,上千個數(shù)據(jù)中心運行著上百萬客戶的應用和服務,其中包括 95% 以上的全球500強企業(yè),每個月都會更新硬件,每天都會更新軟件。
微軟云計算與人工智能事業(yè)部首席數(shù)據(jù)科學家黨映農(nóng)指出:“面對微軟云這樣的大規(guī)模高度復雜并承載大量客戶應用的云計算系統(tǒng),用傳統(tǒng)的非智能的軟件開發(fā)和運維技術(shù)進行高效開發(fā)部署運營和管理是不可行的,而早在五六年前微軟云就意識到實現(xiàn)智能運維的必要性,因此開始加強與微軟亞洲研究院的合作,現(xiàn)在看來在微軟云中,AIOps的應用和影響是深遠的?!?/p>
在Azure的應用中,AIOps也已經(jīng)顯現(xiàn)出了不俗的能力。
據(jù)了解,微軟云已經(jīng)在智能運維方面積累了很多重要的技術(shù)創(chuàng)新,包括云服務系統(tǒng)的智能化和管理的自動化、云開發(fā)和部署的智能化以及智能化客戶響應等。另一方面,人工智能和機器學習技術(shù)已經(jīng)深度集成到了微軟云的基礎(chǔ)設施的管理軟件站,包括智能監(jiān)控、智能預測、智能修復等。
自動化和智能化一起推進,一方面使得云服務的可用性、可靠性以及效率的提升,另一方面云服務運行的自主性得到提高,需要進行人工維護的場景不斷減少,機器學習技術(shù)也極大的改善并增強了微軟云的開發(fā)和維護,比如像智能測試、智能診斷、智能部署等,大大提高開發(fā)和運營工程師的效率。
根據(jù)Gartner數(shù)據(jù),微軟Azure占據(jù)全球云計算近20%的份額。微軟將AIOps能力賦能給Azure,想必微軟也看到了在人人都可上云的時代, Azure“升維”AIOps必不可少。
三、服務、客戶、工程是AIOps的核心
過去的運維是小數(shù)據(jù),每一個運維模塊都是一個數(shù)據(jù)孤島,不涉及算法,僅能滿足傳統(tǒng)運維的使用場景。而發(fā)展至今傳統(tǒng)的運維已經(jīng)不能適應現(xiàn)在云計算時代的新運維。
隨著人工智能大潮來臨,基于人工智能的智能運維(AIOps)開始火爆起來了,得到了更廣泛的關(guān)注。
張冬梅院長表示:“AIOps的三個核心是服務/系統(tǒng)、客戶、開發(fā)/運維?!?/p>
具體來說,AIOps一方面可以讓服務/系統(tǒng)設計和構(gòu)建更加可靠、高性能和更高效;另一方面智能化運維可以改善用戶體驗、提升用戶滿意度;最后AIOps智能運維工具可以賦能給工程人員,讓開發(fā)/運維實現(xiàn)更高生產(chǎn)力。
據(jù)林慶維介紹,目前AIOps已經(jīng)可以應用于云系統(tǒng)的故障預測、異常檢測、智能診斷、容量規(guī)劃、事故管理等諸多實際應用場景。
比如為了保證云平臺的高可靠性和高可用性,實時檢測可能的系統(tǒng)異常尤為重要。大規(guī)模系統(tǒng)的異常檢測通過監(jiān)控平臺的各種運行狀態(tài)數(shù)據(jù)來實現(xiàn),如性能指標數(shù)據(jù)(訪問成功率、響應速度、CPU 使用率、內(nèi)存占用率),系統(tǒng)事件,系統(tǒng)日志等,從數(shù)據(jù)窺探系統(tǒng)的健康狀況。
除此之外,還有智能診斷:利用系統(tǒng)數(shù)據(jù)自動定位可能的故障原因、縮小問題空間;故障預測:在故障發(fā)生之前,提前預測以避免可能的損失,比如硬盤故障預測、大規(guī)模服務故障預測等。
與此同時,我們也不得不關(guān)注,AIOps所面臨的短板挑戰(zhàn)。在檢測、診斷、預測以及優(yōu)化中都面臨著不同的問題,比如差異化需求、缺乏標注數(shù)據(jù)、在線系統(tǒng)的大規(guī)模和復雜性為運維帶來難度??偟膩碚f,機器學習所適用的場景與現(xiàn)實環(huán)境還是存在一定差距的。
因此,微軟亞洲研究院將繼續(xù)探索AIOps領(lǐng)域,讓AIOps在未來更加自動化、主動化、通用化。(雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。