0
1980年,英國生物化學(xué)家Frederick Sanger與美國生物化學(xué)家Walter Gilbert建立了DNA測序技術(shù)并獲得諾貝爾化學(xué)獎。在此后的40年時間里,測序技術(shù)發(fā)生了多次革命。
北京大學(xué)的謝曉亮教授曾表示,2007年發(fā)生的新一代DNA測序儀的革命,使測序價格的下降速度比半導(dǎo)體工業(yè)的指數(shù)衰減還快。
“只要1000美元,一天之內(nèi)就可以完成個人基因組測序,為治療和預(yù)防疾病提供個性化方案參考?!?/p>
2009年,單細胞測序技術(shù)首次問世。四年后,單細胞測序技術(shù)被Nature Methods評為年度技術(shù)。2015年,單細胞測序技術(shù)再度登上Science 轉(zhuǎn)化醫(yī)學(xué)封面。目前,單細胞測序的全球潛在科研市場體量已經(jīng)達到130億美元。
單細胞測序到底有什么好?
簡單來說,世界上沒有兩片相同的葉子,對于多細胞生物來說,細胞與細胞之間是有差異的。傳統(tǒng)的研究方法在多細胞水平進行,因此,最終得到的信號值,其實是多個細胞的平均,丟失了異質(zhì)性信息。
這就好比一場大合唱,比的是平均水平,其中有人渾水摸魚也不會被察覺。
從2018年起,單細胞基因測序技術(shù)就開始飛速發(fā)展。作為一項高效的醫(yī)療輔助手段,基因測序在預(yù)防出生缺陷、檢測遺傳性疾病、腫瘤用藥等領(lǐng)域提供了有效幫助。
但是,這項被寄予厚望的技術(shù),如今卻撞在了一堵墻上。
尋因生物做的,是單細胞基因測序。
這家成立于2018年、駐扎在北大醫(yī)療產(chǎn)業(yè)園的初創(chuàng)企業(yè),在2022年1月獲得B輪融資,從去年開始商業(yè)化銷售。僅一年時間,已與100多家客戶建立科研合作關(guān)系,并在上海、廣州和成都同步設(shè)立地方實驗室。
來自尋因生物信息部門的張廣鑫說,“單細胞檢測技術(shù)沒有太大的客戶偏好性,只要是在單細胞水平上的需求對象,例如制藥公司、科研院所等都是我們的客戶。”
不過,客戶多也會帶來更多的挑戰(zhàn)。就像早些年雙11的高并發(fā)會讓淘寶app崩潰,同一時刻幾千萬人同時訪問,消費者可能就搶不到限時的優(yōu)惠等。所以,尋因生物也面臨這個問題:超大數(shù)據(jù)量和分析復(fù)雜性,會導(dǎo)致任務(wù)并發(fā)度低、數(shù)據(jù)加載速率慢。
張廣鑫舉了一個例子,僅一個單細胞測序文件的大小可達100GB以上,而隨著一個單細胞項目包含的樣本量越來越多,細胞數(shù)據(jù)級別往往達數(shù)百GB甚至TB。
其次,單細胞數(shù)據(jù)的分析復(fù)雜,需要反復(fù)做數(shù)據(jù)讀取和參數(shù)調(diào)整,導(dǎo)致處理海量細胞樣本的分析任務(wù),通常要數(shù)小時甚至數(shù)天才能完成。當(dāng)樣品量上來,各個樣品之間又要做各種關(guān)聯(lián)或者是更復(fù)雜的計算,所以對算力的消耗量就會非常大?,F(xiàn)在,逐漸又出了很多多組學(xué)的檢測,在普通單細胞的維度上又加了很多維度,對算力的需求會來到一個更高的水平。
如果說生信分析行業(yè)的本性如此,那么計算機系統(tǒng)架構(gòu)本身的“阿喀琉斯之踵”才是問題的關(guān)鍵。
生物信息行業(yè)缺少一個覆蓋全程的開源軟件,通常一個生物計算項目需要多個軟件配合。因此,第一步的輸出往往是是第二步的輸入,中間存在大量的I/O(輸入/輸出)過程。
張廣鑫說到:“不夸張的說,12天中我們有10天都在I/O。而且,隨著單細胞檢測的成本逐漸降低,應(yīng)用面越來越廣,生信數(shù)據(jù)將是指數(shù)級的增長?!?/p>
所以,生信分析的慣用操作是將樣本參數(shù)調(diào)低,或者僅運行一個比較大型的單細胞分析任務(wù)。但在測序任務(wù)多的情況下,多個單細胞分析項目只能排隊執(zhí)行。
在張廣鑫看來,不考慮時間周期和算力投入的話,客戶需求都能滿足。但要考慮到單細胞的檢測和分析將會科研和藥物研發(fā)領(lǐng)域越來越普及,所需要分析的數(shù)據(jù)和維度都在增加的情況,生信行業(yè)不得不尋求更優(yōu)化的計算架構(gòu)。
他的顧慮,并不只是生信領(lǐng)域的問題,在AI行業(yè)也是如此。
此前,曾有AI行業(yè)的人士向雷峰網(wǎng)(公眾號:雷峰網(wǎng))坦言,“AI訓(xùn)練未來的瓶頸不是算力,而是GPU內(nèi)存?!弊鲆粋€簡單的對比:2019年GPT-2所需的內(nèi)存容量,已經(jīng)是2012年的AlexNet的7倍以上。
隨著機器學(xué)習(xí)、計算機視覺、自然語言處理等AI應(yīng)用的興起,處理器需要更加頻繁地對存儲器進行訪問與數(shù)據(jù)傳輸。傳統(tǒng)的馮諾依曼計算機體系架構(gòu)依賴總線進行存儲器與處理器之間數(shù)據(jù)傳輸,在面對這類數(shù)據(jù)密集型應(yīng)用時,往往難以兼顧低延時與高能效。
這一數(shù)據(jù)傳輸瓶頸現(xiàn)象常被描述為“內(nèi)存墻”和“功耗墻”。以尋因生物為代表的單細胞領(lǐng)域就像是一個武林高手,需要一個更好的借力點,以施展輕功。
問題在三年前得到轉(zhuǎn)機。2019年,尋因生物與阿里云開展了合作,前者曾是阿里云ecs.g5、g6、g7三代產(chǎn)品的用戶。阿里云彈性計算產(chǎn)品總監(jiān)王志坤對雷峰網(wǎng)表示,"企業(yè)客戶最關(guān)心的永遠不是誰跑得最快、誰擁有最極致的產(chǎn)品,他們關(guān)心的是性能、成本、可靠性之間的平衡。"
在王志坤看來,如何判斷一家企業(yè)是否適合使用“大內(nèi)存云”,有兩點可作為衡量標(biāo)準(zhǔn):
一,企業(yè)的數(shù)據(jù)量是不是足夠大。由于數(shù)據(jù)量大,IO是否是主要瓶頸;
二,具體任務(wù)的計算量是不是大。由于計算量大,運行時間是否耗時。
同樣,客戶在選擇大內(nèi)存云之前也要先有建立一個CPU、內(nèi)存以及IO的預(yù)估模型。但企業(yè)在預(yù)估之前,阿里云平臺上涵蓋了類似的行業(yè)方案,并已經(jīng)經(jīng)過其他客戶POC驗證,使得企業(yè)方案互通,行業(yè)共建成為可能。
王志坤稱,這種能力是阿里云作為云廠商的獨特基因,“我們更擅長的是互聯(lián)網(wǎng)平臺打法,將海量的業(yè)務(wù)場景融合起來,從而加速整個行業(yè)的研發(fā)效率?!?/p>
談及上云的理由,張廣鑫表示, “將企業(yè)本地自建機房變?yōu)槭褂冒⒗镌频挠嬎愠?,不僅能夠保證整體算力,而且付費模式多元,用多少拿多少,不會浪費;二是阿里云多年深耕生物信息行業(yè),已形成多種服務(wù)方案和客戶資源,能夠為上下游生物科技企業(yè)的互聯(lián)互通提供更多支持,這是很多生物公司所看重的?!?/p>
正是有過多代產(chǎn)品的使用,張廣鑫對“上云”的評價直接了當(dāng):算得快、成本低。
經(jīng)過測算,尋因生物的單細胞基因測序,數(shù)據(jù)加載和導(dǎo)出性能從1000秒縮至2.5秒;單任務(wù)的樣本規(guī)模是原來的2倍。在運行時間和單任務(wù)的運行時間幾乎差不多的情況下,測序任務(wù)的并發(fā)運行數(shù)由原來的1個提升到了5個,任務(wù)處理效率提升了5倍之多。
從現(xiàn)在的結(jié)果來看,尋因生物找對人了。
沒有一次的變革不是從最直接的需求而來。
醫(yī)療健康產(chǎn)業(yè)由于其技術(shù)要求高、數(shù)字化水平低等特性,成為數(shù)字化最重要的應(yīng)用落地場景之一。從面向藥企的藥品數(shù)字化全流程追溯,到面向醫(yī)院的以電子病歷三級醫(yī)院全覆蓋為首的醫(yī)療信息化改革,都折射出真實存在的行業(yè)痛點。
因此,尋因生物這樣的下游客戶對于“內(nèi)存”的需求,也在一步步倒逼芯片商、ISV(獨立軟件開發(fā)商)以及在此之上的云服務(wù)提供商,不斷拿出新的解決之道。
對于沖破“內(nèi)存墻”,各方如此心智統(tǒng)一,個中原因是它們對計算機基礎(chǔ)架構(gòu)尋求“革命”的決心。事實上,發(fā)端于云主機時代的產(chǎn)品,在一定意義上是對傳統(tǒng)CPU和內(nèi)存堆料所不滿的一次爆發(fā)。
數(shù)據(jù)分析對底層技術(shù)的需求是一個漫長的歷史演變過程。雖然近年來不少企業(yè)已有上云的趨勢,但過去的云主機,一直是缺啥補啥。舉個例子,過去所有云主機類的產(chǎn)品,比如2路服務(wù)器使用最多的是X86架構(gòu),但英特爾推出來的每一代內(nèi)存插槽數(shù)是固定的,單條內(nèi)存的容量也是固定的。
如果還會出現(xiàn)算力和存儲難題,解決辦法是繼續(xù)Scale up(垂直擴展),將2路服務(wù)器升級為4路、甚至8路,但是多CPU與內(nèi)存之間的緩存一致性、主板復(fù)雜度等也會急劇上升。所以,各行業(yè)客戶要么選擇非常昂貴的大內(nèi)存產(chǎn)品,要么是選擇小內(nèi)存組成的集群型產(chǎn)品。
王志坤也坦言:“阿里云很早推出了超大內(nèi)存的實例,但當(dāng)時的成本確實很高。”長此以往,計算機基礎(chǔ)架構(gòu)可謂是四個字:積重難返。直至,英特爾在2021年推出采用新介質(zhì)的第二代英特爾傲騰持久內(nèi)存200系列,一度迫于堆料的業(yè)內(nèi)人士,開始求變。
英特爾相關(guān)負責(zé)人表示,2017年,隨著傲騰SSD(傲騰固態(tài)盤)的推出,我們知道這是真正的游戲改變者,具有DIMM接口的傲騰持久內(nèi)存的誕生也為期不遠。但在當(dāng)時,之所以能賦予大眾這種遠見,在于這款產(chǎn)品兌現(xiàn)了兩年前的承諾,正式推出了基于3D XPoint介質(zhì)的的SSD產(chǎn)品。
2015年,英特爾打造了基于3D Xpoint存儲介質(zhì)的傲騰技術(shù),一舉改變了傳統(tǒng)的內(nèi)存和存儲層級結(jié)構(gòu)。通過縮小冷熱數(shù)據(jù)間的差距、減少IO瓶頸和解決數(shù)據(jù)延遲,使內(nèi)存更靠近計算,為數(shù)據(jù)中心提供更高的靈活性和更多的價值。
而傲騰SSD的問世,無疑證實新介質(zhì)做成了,而且極有可能是一個過渡型產(chǎn)品,將掀起內(nèi)存產(chǎn)品的一次革命。
隨后的故事不斷描摹出新的劇本。
2019年4月,英特爾正式發(fā)布傲騰內(nèi)存DIMM版本;2020年,英特爾發(fā)布傲騰持久內(nèi)存100系列,成功完成大規(guī)模的商業(yè)化;2021年,英特爾發(fā)布第三代英特爾至強可擴展處理器(代號: Ice Lake) 及英特爾傲騰持久內(nèi)存200系列, 生態(tài)系統(tǒng)更加壯大 。
英特爾? 傲騰? 持久內(nèi)存支持分層架構(gòu),從而實現(xiàn)高性能、大內(nèi)存計算
2021年,阿里云基于第三代英特爾至強可擴展處理器和第二代英特爾傲騰持久內(nèi)存200系列產(chǎn)品,開發(fā)了性能更加強大的不同規(guī)格實例:re7p、 r7p和 i4p,應(yīng)用于更廣泛的場景。
尤其是i4p,它能夠提供性能極高的本地盤,相比于傳統(tǒng)NVMe SSD在十幾到二十微秒的延時水平,其延時可以縮短至170ns,非常適用于重IO型應(yīng)用,能夠幫助此類應(yīng)用突破性能上的瓶頸。
從目前的合作形式來看,尋因生物的單細胞測序分析任務(wù),就部署在了基于第三代英特爾至強可擴展處理器 (代號: Ice Lake) 和第二代英特爾傲騰持久內(nèi)存的阿里云i4p持久內(nèi)存型實例上。
尋因生物的張廣鑫說到,“好的大內(nèi)存云,是使用之后就感受不到它的存在,我只管專心做好我的業(yè)務(wù)?!?/p>
大內(nèi)存云架構(gòu)
其次,阿里云找到合作伙伴MemVerge。
MemVerge做什么?簡單來說,它推出的Memory Machine是內(nèi)存虛擬化軟件,相當(dāng)于存儲的“操作系統(tǒng)”。
MemVerge? 的Memory Machine? 軟件是業(yè)界第一款虛擬化內(nèi)存硬件的軟件,用于對容量、性能、可用性和移動性進行精細化的資源調(diào)配。在透明內(nèi)存服務(wù)的基礎(chǔ)上,Memory Machine還提供了另一個行業(yè)第一的技術(shù)——ZeroIO?內(nèi)存快照,該技術(shù)可以在幾秒鐘內(nèi)封裝數(shù)TB的應(yīng)用程序狀態(tài),并以內(nèi)存速度實現(xiàn)數(shù)據(jù)管理。
MemVerge CEO范承工對雷峰網(wǎng)表示,“從2017年3月,英特爾推出傲騰SSD。某種程度上,這是一個新的內(nèi)存存儲架構(gòu)。要做成‘大內(nèi)存’架構(gòu)的話,除了硬件,還需要有相應(yīng)的軟件來產(chǎn)生。這就是我們成立的初衷。”
他認為,每次一種新硬件的使用,都必須開發(fā)一個新的軟件堆棧,使應(yīng)用程序能夠充分利用新硬件的優(yōu)點。
通過阿里云的計算巢模式(即云廠商開放給企業(yè)應(yīng)用服務(wù)商和其客戶的服務(wù)管理PaaS平臺),阿里云讓后者的Memory Machine大內(nèi)存虛擬化軟件與云平臺的標(biāo)準(zhǔn)化集成,加速軟件交付部署并標(biāo)準(zhǔn)化運維管理,大幅提升了業(yè)務(wù)效率。
范承工向雷峰網(wǎng)表示,“基礎(chǔ)IT行業(yè)會逐漸意識到‘大內(nèi)存’技術(shù)對于生產(chǎn)力、計算速度的重要性。同時,我們通過內(nèi)存快照和應(yīng)用膠囊的技術(shù),可以使尋因生物不需要經(jīng)歷太多的IO。三家合力,來給客戶的生物分析工作提供價值。”
對于MemVerge的作用,阿里云也給出了肯定的回答。
王志坤坦言,阿里云不太可能構(gòu)建起一個端到端、無縫的全場景覆蓋能力,服務(wù)行業(yè)客戶需要MemVerge這樣ISV(獨立軟件開發(fā)商)進來。
“業(yè)界還存在鴻溝,而這種鴻溝需要像MemVerge這樣創(chuàng)新的技術(shù)服務(wù)提供商來填補。通過他們的技術(shù)創(chuàng)新,來使用好基于阿里云和英特爾傲騰持久內(nèi)存的能力,同時又能滿足面向垂直行業(yè)、面向垂直擴展領(lǐng)域的大內(nèi)存場景?!?/p>
最后,是聯(lián)動阿里云內(nèi)部生態(tài)。
縱觀阿里云的架構(gòu),除了有自主研發(fā)“神龍”云服務(wù)器架構(gòu)之外,還有“飛天”云操作系統(tǒng)、“盤古”存儲平臺、“洛神”網(wǎng)絡(luò)平臺、PolarDB云原生數(shù)據(jù)庫等等,構(gòu)成了統(tǒng)一的云平臺,讓阿里云具備了從虛擬化層到操作系統(tǒng)內(nèi)核層全鏈路的整合與調(diào)優(yōu)能力。這些能力最終使得阿里云彈性計算團隊對持久內(nèi)存的產(chǎn)品化研發(fā)變得更加敏捷。
對于基礎(chǔ)IT市場的演變趨勢,范承工坦言,“市場仍然屬于早期。但在未來2-3年里,尤其是隨著英特爾CXL(Compute EXpress Link)的完善,生態(tài)會變得更加完整。”
對于未來,范承工也非常期待,“阿里云是中國云計算的領(lǐng)頭羊。所以,我們之后會繼續(xù)和阿里云、英特爾合作,一方面共同培養(yǎng)‘大內(nèi)存’市場里的客戶,包括生物信息、EDA仿真、金融等其他行業(yè);另一方面,我們在技術(shù)上也會有更多的整合和合作,讓聯(lián)合方案有更好的用戶體驗?!?/p>
21世紀(jì)是生命科學(xué)的世紀(jì)。不管是從經(jīng)濟成本,還是業(yè)務(wù)開展的角度考量,更多的廠商越來越往云端去走,把數(shù)據(jù)處理的部分交給專業(yè)廠商去做。
2021年7月的新一輪疫情,湖南省將流調(diào)任務(wù)交給了長沙超算中心,通過強大的HPC把時間縮短至1.4秒。但是,如果用戶有大數(shù)據(jù)相關(guān)業(yè)務(wù),那么部署到傳統(tǒng)超算中心上將帶來很大的難度,因為數(shù)據(jù)移動既耗時又耗力。這也是E-HPC誕生的初衷。
早在2017年,阿里云就發(fā)布了中國首個公共云上的彈性高性能計算平臺E-HPC。彼時的“云上超算中心”,一亮相吸引了公眾的目光,可一鍵部署彈性伸縮的高性能計算集群環(huán)境,幫助科研院所和企業(yè)處理大規(guī)??茖W(xué)計算問題。
張廣鑫表示,面向生物產(chǎn)業(yè),阿里云能提供一些調(diào)度資源的方案,例如E-HPC的解決方案可以幫我們?nèi)ズ喕帉懥鞒獭⒈O(jiān)控任務(wù)投遞,以及任務(wù)運算的過程。
他談到了后續(xù)尋因生物對阿里云的一些使用規(guī)劃:
從算得快的層面來看,用一些更有彈性的東西,例如業(yè)務(wù)量來了之后,可以很快出來很多節(jié)點,并發(fā)去進行計算。尋因生物還要對集群或阿里云平臺進行一些精細化的管理。因此,在E-HPC層面上,尋因生物仍有比較足的需求。
從省錢的角度看,阿里云的服務(wù)有不同定價,要考慮數(shù)據(jù)保存的性能和周期,再進行精細化的調(diào)整。后面尋因也會基于阿里云開發(fā)出直接向用戶提供服務(wù)的單細胞分析平臺,賦予科研用戶和藥物研發(fā)用戶分析單細胞數(shù)據(jù)的能力。
從大的社會背景下看,數(shù)據(jù)和算力成為新一輪的新焦點,也給云計算廠商們帶來更多的時代命題。繼“南水北調(diào)”、“西電東送”、“西氣東輸”等工程之后,今年2月,“東數(shù)西算”工程啟動,其本質(zhì)就是通過構(gòu)建數(shù)據(jù)中心、云計算、大數(shù)據(jù)一體化,形成一種新型算力網(wǎng)絡(luò)體系。
國家發(fā)展改革委等部門聯(lián)合印發(fā)通知,同意在京津冀、長三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏等8地啟動建設(shè)國家算力樞紐節(jié)點,并基于樞紐規(guī)劃了10個國家數(shù)據(jù)中心集群。
王志坤對雷峰網(wǎng)表示,“阿里云早期的機房建設(shè)是租用的形式。從六年前起,阿里云開始規(guī)劃自建大規(guī)模的基地型數(shù)據(jù)中心,與東數(shù)西算里面幾大算力樞紐的方向是一致的?!?/p>
其中,服務(wù)京津冀地區(qū)的阿里云張北數(shù)據(jù)中心已于2016年9月投產(chǎn),大力采用風(fēng)電、光伏等綠色能源,宣化數(shù)據(jù)中心也在建設(shè)中;在內(nèi)蒙古樞紐,烏蘭察布超級數(shù)據(jù)中于2020年6月開始提供云計算服務(wù);在成渝樞紐,阿里云西部云計算中心及數(shù)據(jù)服務(wù)基地于2020年11月落戶成都。
更關(guān)鍵的是,東數(shù)西算的國家戰(zhàn)略工程,與云的模式十分吻合。因為,云計算的模式是據(jù)客戶的需求按量配比,計算和存儲更有彈性、安全。這與東數(shù)西算的跨區(qū)域數(shù)據(jù)調(diào)度和計算、數(shù)據(jù)中心適度聚集、集約發(fā)展,在性質(zhì)上有天然的契合。
王志坤表示,“不管是我們底層的能力,還是云資源調(diào)度的能力,我們都有信心成為國家大戰(zhàn)略中的重要一環(huán)?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。