0
本文作者: 溫曉樺 | 2017-10-30 11:28 |
雷鋒網(wǎng)AI金融評論報道,今年的“天貓雙11支付技術(shù)溝通會”近日在杭州召開,螞蟻金服副總裁胡喜等出席了溝通會,并對天貓雙11支付技術(shù)進行了展示和解說。
過去兩年,圍繞天貓雙11,螞蟻金服對外強調(diào)較多的是支付保障能力,以及去年在消費金融場景下增加了很多新動作。而今年的情況是怎樣呢?與10月中旬剛結(jié)束不久的云棲大會螞蟻金服ATEC金融科技開放峰會上的主題相呼應(yīng),除了“未問先答”這樣的智能客服黑科技,螞蟻金服副總裁胡喜再次強調(diào)了金融科技基礎(chǔ)技術(shù)升級。
參加溝通會前雷鋒網(wǎng)AI金融評論很好奇,為什么天貓雙11支付技術(shù)每年都被作為重點進行解讀?而這,是有門道的。
不受控制的剁手帶來快感,也帶給技術(shù)男爆炸性的挑戰(zhàn)。
每年的“天貓雙11”都會創(chuàng)造不少世界紀錄,這些世界紀錄的背后是一個個世界級的挑戰(zhàn)。在過去9年的雙11,螞蟻金服都在挑戰(zhàn)自我中度過。
支付寶剛起步時,技術(shù)遠沒有今天那么受重視,原因很簡單,不需要,沒必要。在創(chuàng)業(yè)之初,2004年時,支付寶還是淘寶中的一個結(jié)算部門,淘寶的會計人員用兩臺電腦和一張 Excel 表就能進行結(jié)算。螞蟻金服向雷鋒網(wǎng)AI金融評論表示,那時每天的交易金額是三位數(shù),全天交易筆數(shù)只有十幾筆,如果分攤到每秒鐘,則接近于零。即便是到了2010 年,支付寶每秒鐘交易筆數(shù)也只有300筆。
但是,2016 年的“天貓雙11”時,支付寶的交易峰值飆到了每秒 12 萬筆。
在此之前,支付寶也剛完成二代架構(gòu)的升級改造。在二代架構(gòu)做完之后,支付寶的技術(shù)團隊感覺能解決的技術(shù)問題都已經(jīng)解決了很多人認為未來系統(tǒng)也許就可以這樣發(fā)展下去。
因此在 2010年雙11大促之前支付寶的系統(tǒng)規(guī)劃是按照每年增長100%余量預(yù)估的。即系統(tǒng)永遠有一倍的余量,按照當(dāng)時的估測,大家覺得一倍余量一定夠用。退一步說,即使出現(xiàn)問題,也可以等到交易量增長到一定程度時再繼續(xù)增加資源。
因此,當(dāng)天突如其來的巨大交易量讓支付寶的技術(shù)團隊措手不及。
回憶起當(dāng)年,2010年11月11日零點剛過,坐在電腦旁邊的程立(現(xiàn)任螞蟻金服首席技術(shù)官)突然發(fā)現(xiàn),支付寶的業(yè)務(wù)量正在快速攀升,一下子高出了平時最高值的三倍。程立清楚,這時系統(tǒng)只有一倍的余量。
剛開始,程立有些僥幸,他覺得大促剛開始時用戶最活躍,等白天時情況會慢慢好轉(zhuǎn)起來。然而直到當(dāng)天早上六七點,業(yè)務(wù)量還沒有降下來,依然是平時的幾倍。
這時,支付寶的技術(shù)人員開始著急了,大家意識到,當(dāng)天的交易量一定會遠遠超出系統(tǒng)的容量。
情急之下,支付寶技術(shù)團隊開始不停地 “搬資源”。哪里有富余的計算資源就搬過來應(yīng)急。如核心交易系統(tǒng)容量不足了,就把一些相對不重要的業(yè)務(wù)資源拿過來,到后來再不夠了,就采用“砍業(yè)務(wù)”的方法,將那些暫時可以犧牲的業(yè)務(wù)砍掉,再把資源搬過來。
那天,所有開發(fā)人員都坐在電腦前,如臨大敵般地處理問題: “到底這個機器是否要重啟一下? 這個系統(tǒng)容量不夠我要不要調(diào)一些機器過來? ”
直到當(dāng)天的23時59分30秒,眼看2010年雙11大促就要結(jié)束,突然核心賬務(wù)系統(tǒng)報警。
“嘀、嘀、嘀” 短促清晰的警報聲讓在場的每個人都打了一個寒戰(zhàn)。
“資源馬上耗盡!趕緊殺掉非關(guān)鍵應(yīng)用!”聽到報警聲后,負責(zé)數(shù)據(jù)庫的同事一邊沖過來一邊大喊。
?程立倒吸一口冷氣,他清楚可能產(chǎn)生的后果。那時支付寶的賬務(wù)數(shù)據(jù)庫還沒有做拆分,而所有交易都經(jīng)過虛擬賬戶,一旦核心賬目系統(tǒng)出現(xiàn)問題,支付寶所有的業(yè)務(wù)都會停掉,數(shù)據(jù)庫再想恢復(fù)就需要經(jīng)過很長的時間。如果出現(xiàn)這種情況,對淘寶和支付寶都將是災(zāi)難性的。
急中生智,技術(shù)團隊決定臨時把會計的應(yīng)用殺掉。回憶起這個驚險的過程時,程立向雷鋒網(wǎng)表示,因為當(dāng)時支付寶的賬務(wù)應(yīng)用和會計應(yīng)用是在一個數(shù)據(jù)庫中,而會計的應(yīng)用更多,是在交易之后進行,暫時停用還可以恢復(fù)過來,這樣便可騰出系統(tǒng)的資源,把賬務(wù)系統(tǒng)的性能提升50%。
情急之下,負責(zé)消息系統(tǒng)的幾個同學(xué)沖上去,爭分奪秒地在每臺機器上敲上一行行的代碼,緊急殺掉非關(guān)鍵應(yīng)用,確保核心數(shù)據(jù)庫資源。
當(dāng)敲完最后一行代碼,將一個會計系統(tǒng)的應(yīng)用殺掉,將資源釋放出來,離數(shù)據(jù)庫崩潰只剩下四秒。
盡管過程很驚險,不過,2010 年的 天貓雙11,支付寶全天成功交易1261萬筆,平均每分鐘有1萬筆成功交易。但經(jīng)過了這次 “大考” 之后,所有人都在反思,以后每年的 雙11 大促,業(yè)務(wù)量的增長只會更快,支付寶的系統(tǒng)怎樣才能頂?shù)米∧?
事后復(fù)盤,當(dāng)時支付寶的CTO李靜明在和技術(shù)團隊總結(jié)時說,對于 2010 年的 雙11整個團隊都是在做 “人肉的云計算”,而系統(tǒng)接下來的改造方向就是使“人肉的云計算”。真正變成“底層系統(tǒng)的云計算”,這正是支付寶系統(tǒng)的第三代架構(gòu)“云支付”的開始。
螞蟻金服介紹,從 2005 年開始,支付寶的技術(shù)架構(gòu)經(jīng)歷了“煙囪型”、“面向服務(wù)型”、 “云平臺型”三個時期。而從第二代架構(gòu)到第三代架構(gòu)轉(zhuǎn)變,螞蟻金服又做對了一件事——構(gòu)建分布式系統(tǒng)。這是今天“云支付”的基礎(chǔ)。
當(dāng)時,分布式系統(tǒng)在互聯(lián)網(wǎng)界的應(yīng)用并不罕見,規(guī)模較大的互聯(lián)網(wǎng)公司系統(tǒng)都分布化了。但是對于金融系統(tǒng)而言,分布化是沒有先例的,這是因為金融系統(tǒng)要求高穩(wěn)定性和高安全性,任何改進都要先保證用戶賬目上的錢分毫不差,在系統(tǒng)數(shù)據(jù)分離之后,保證系統(tǒng)之間業(yè)務(wù)處理的一致性就成了核心的問題。
“但是,如果使用云計算,系統(tǒng)首先要分布,只有這樣才能用很多小型機器、云資源作為支撐?!?/p>
“支付寶的第一代架構(gòu)就像一個個獨立的“煙囪”,沒有基礎(chǔ)架構(gòu)可言,做一個業(yè)務(wù)就豎起一個“煙囪”?!盁焽琛敝g的關(guān)聯(lián)性不大,每做一個新業(yè)務(wù)就要將一個煙囪,進行手動改造,而支持主要業(yè)務(wù)的“大煙囪” 經(jīng)歷了無數(shù)次的改動。
應(yīng)該說第一代“煙囪型”的系統(tǒng)較好地滿足了小團隊開發(fā)、業(yè)務(wù)快速試錯的需求。但是這個架構(gòu)不能支持大團隊的分布式研發(fā)。在“煙囪型”的技術(shù)架構(gòu)下,每當(dāng)開發(fā)新的產(chǎn)品和功能時,只能允許所有人在一個系統(tǒng)里去寫代碼。與此同時,它的部署也是集中的,核心系統(tǒng)就是一個集群,數(shù)據(jù)庫也只有一個。因此,隨著業(yè)務(wù)量的上升,這樣的數(shù)據(jù)庫和集群都會達到極限。
所以,據(jù)雷鋒網(wǎng)了解,從2006 年開始,支付寶的技術(shù)團隊意識到,“煙囪”架構(gòu)無法支持支付寶未來業(yè)務(wù)的發(fā)展。如果要繼續(xù)拓展業(yè)務(wù),必須先把架構(gòu)分布化,建立底層服務(wù)架構(gòu),讓專業(yè)模塊做專業(yè)的事情。
2007年初,隨著分布式系統(tǒng)技術(shù)的逐漸成熟,特別是大規(guī)模 SOA 系統(tǒng)中的分布式事務(wù)處理標(biāo)準逐漸明晰。程立就和同事一起,從 2007 年上半年開始準備將支付寶的系統(tǒng)做分布式的改造,現(xiàn)在看來就是把支付寶的架構(gòu)改成一個分布式服務(wù)和分布式架構(gòu)。
二代架構(gòu)在支付寶技術(shù)發(fā)展過程中是很關(guān)鍵的一步。因為新系統(tǒng)將原來的大系統(tǒng)拆開了,在當(dāng)時這個項目叫作 “交易服務(wù)化”,有“交易服務(wù)化” 作為基礎(chǔ),后來支付寶又做了賬務(wù)三期,做完賬務(wù)三期之后,核心賬務(wù)系統(tǒng)也分布化了。從 2007 年開始,支付寶陸續(xù)用了三年左右的時間對整個系統(tǒng)進行分布化。核心賬務(wù)可以分布、核心交易也可以分布、所有的業(yè)務(wù)都可以分開來做。
結(jié)果是,支付寶的系統(tǒng)可以伸縮了,每一個系統(tǒng)都是分布式的,如果遇到業(yè)務(wù)峰值,就可以增加資源。
幸運的是,當(dāng)支付寶的二代架構(gòu)做完后不久,淘寶就開始搞雙11 大促了。
但二代架構(gòu)過渡到三代架構(gòu)的過程并非一帆風(fēng)順。在二代架構(gòu)完成后,雖然支付寶把系統(tǒng)拆開了,但是如何讓新業(yè)務(wù)長在復(fù)雜的分布式系統(tǒng)上是一個非常復(fù)雜的問題。在業(yè)務(wù)很多的情況下,系統(tǒng)會變成一張復(fù)雜的網(wǎng)。
后來,支付寶技術(shù)團隊對業(yè)務(wù)進行了拆分和梳理。比如,系統(tǒng)里有一個支付服務(wù)的平臺,它的作用是對外提供支付服務(wù)。類似地,各類會員服務(wù)的系統(tǒng)、運營服務(wù)的系統(tǒng)與營銷服務(wù)的系統(tǒng)也都陸續(xù)搭建。
總的來說,第三代云支付架構(gòu)能夠完成兩方面的改造。一方面是在底層使用云計算技術(shù),另一方面是在上層把服務(wù)變成云服務(wù)。這樣建立在其上的業(yè)務(wù)就可以很快地生長。
據(jù)雷鋒網(wǎng)AI金融評論了解,從二代架構(gòu)過渡到三代架構(gòu)這個過程,支付寶又花了三年時間。用程立的話說,如果這個事情做得晚一點,這幾年的 “天貓雙11”大促就別想挺過來了。也正是這樣的轉(zhuǎn)變,讓支付寶技術(shù)團隊在天貓雙11之夜,不用再喝紅牛了。
不過,螞蟻金服對此并不滿足,現(xiàn)在已經(jīng)開始研發(fā)第四代架構(gòu)。
對于支付寶技術(shù)來說,2010年是一個拐點,那一年,峰值比此前番了三番?!叭绻€是用傳統(tǒng)型架構(gòu),很難滿足我們快速的發(fā)展,我們分析了整個業(yè)界的架構(gòu),支付寶遇到的問題,已經(jīng)不是任何一個現(xiàn)有業(yè)界技術(shù)可以解決的,我們必須自己去淌出一條解決之道?!焙舱f道。
“在此前一年,我們開始自主研發(fā)數(shù)據(jù)庫OceanBase。我們也試著嘗試一種新的對策——分布式‘異地多活’的架構(gòu)?!?/p>
這種分布式的架構(gòu)有一個最核心的設(shè)計前提:用最通用的硬件設(shè)備(PC服務(wù)器),滿足我們最小單元計算的要求;用最縝密的軟件邏輯,滿足金融交易的最高可靠性要求。
胡喜表示,
這就像是拆掉了高端中央收銀臺,換成了分散在商場各個角落的無數(shù)小型計算器,每臺計算器雖然不如單一中央收銀臺高端厲害,但個個都能記點帳,更重要的是,有一種統(tǒng)籌全局的力量為分散在各處的計算器設(shè)計了相互關(guān)聯(lián)的邏輯關(guān)系,它們互為補充,互相備份,從全局上保證了運算可靠,因而任何單個計算器的故障,都不會影響整盤生意。這就是這種架構(gòu)中最核心的云計算能力。
這種努力的成果是顯著的,在滿足支付寶系統(tǒng)同樣穩(wěn)定的前提下,極大的降低了對于成本的投入?!皬?010年開始,我們給自己定的目標(biāo)是,每年專為雙11提供技術(shù)保障投入的成本比前一年都降30~50%左右,到2019年,我們將不再花一分錢投到雙11當(dāng)天的技術(shù)保障上,也就是說,雙11將完全常態(tài)化?!?/p>
據(jù)胡喜介紹,“彈性架構(gòu)具備在云計算平臺上快速伸縮容量的能力,50%流量基于云計算資源彈性伸縮,快速擴充支付容量,從而優(yōu)化運維成本。理論上我們可以做到每秒百萬級的交易支付能力。”
“天貓雙11”應(yīng)急技術(shù)常態(tài)化意味著什么呢?如果說上述的一切升級都是針對于雙11的挑戰(zhàn)性環(huán)境,那么,對于一般性行業(yè)來說這些技術(shù)改進有什么意義?
“金融科技下一版本模型分為四層模型,最下面就是最基礎(chǔ)的能力我們叫做BASIC,B代表的是區(qū)塊鏈,A代表的是AI,S代表的是安全,I代表的是IoT,C代表的是云計算,我今天講的很多都是在云計算領(lǐng)域。Cloud是最基礎(chǔ)的能力,我們先具備這個能力,你沒有強大的計算資源,其他一切都無法進行。”胡喜向雷鋒網(wǎng)AI金融評論表示,“未來,螞蟻向前走的愿景是普惠金融,需要服務(wù)更多的消費者和小微企業(yè),需要的計算能力是非常大的,我們要做的就是通過‘雙11’把計算能力逐漸鍛煉出來。其他基層分別是風(fēng)控能力,信用能力,連接能力?!?/p>
螞蟻金服是目前世界上體量最大的科技金融公司之一,每一步探索都有實驗性質(zhì)。從支付的視角看螞蟻金服2007年到2013年的三代系統(tǒng)架構(gòu)變遷,我們也看到了云計算時代“云平臺型”系統(tǒng)架構(gòu)的逐步成型;除此之外,從分布式架構(gòu)、異地多活,也看到了國內(nèi)金融機構(gòu)基礎(chǔ)設(shè)施“去IOE”的轉(zhuǎn)向。
因此,遵循這個邏輯我們也可以回顧一下:去年,螞蟻金服對于天貓雙11突出了風(fēng)控、精準營銷等消費金融方面的實力(請看《備戰(zhàn)雙11,螞蟻金服準備了這些“重型武器”》)。與此同時,我們也看見了在過去的一年中,螞蟻金服逐步開放出來的信用評分服務(wù)以及風(fēng)控服務(wù)能力。
也就是說,基礎(chǔ)技術(shù)的爆炸升級,背后也是服務(wù)能力的升級。
走訪了一圈螞蟻金服Z空間大樓,這里有平日辛勤的淘寶小二。不過,這個杭州服務(wù)團隊,只有600人左右規(guī)模;算上全國外包團隊,不過小數(shù)千人。而且,螞蟻金服智能客服負責(zé)人子孟說道:“淘寶天貓平臺業(yè)務(wù)量逐年增長,但是,我們的客服沒有增加,反而在減少?!?br/>
這背后,也是一個技術(shù)的進步史。
子孟介紹道,客服分三個階段:
更多是查詢類的事情,把很多回答的內(nèi)容做成一個類目數(shù)讓大家查詢,不管在熱線電話還是在PC端、APP端,更多讓大家自己去查詢,導(dǎo)致了大家效率很低,往往找不到準確的答案。
第二階段,尤其是互聯(lián)網(wǎng)企業(yè)往往采用第二個手段,包括我們也在很多場景下切換到這個情況,就是在傳統(tǒng)的查詢回答的基礎(chǔ)上,快捷應(yīng)答。
有兩個點:一是更多在APP端、PC端用問答機器人方式解決用戶問題,通過用戶問題可以快速識別什么問題,快速指向到某一個具體答案或者人工;二是在傳統(tǒng)的電話過程當(dāng)中,傳統(tǒng)用很多按鍵模式,但是新一代服務(wù)模式去按鍵化,減少按鍵輸入,更多用語音交互方式。
很多時候我們客服的角色是相對滯后的,要等用戶找上門來提出問題,甚至反復(fù)不斷提出要求才能夠回應(yīng),我們認為極致服務(wù)應(yīng)該是把事情做到事前,在用戶可能遇到問題的時候提前化解他的障礙和疑問。
所以到了第三階段,由于前一階段積累了很多數(shù)據(jù)和用戶行為的數(shù)據(jù),我們現(xiàn)在希望推出的叫做“未問先答”服務(wù)。
在所有服務(wù)渠道中,我們不斷依據(jù)于用戶的實時數(shù)據(jù),經(jīng)過學(xué)習(xí)和分析,怎樣讓用戶沒有開口的時候就知道他可能想問什么問題,更快速的解決問題,這是“未問先答”這樣一個技術(shù)在整個服務(wù)中的角色。我們希望這個是作為客戶服務(wù)3.0的標(biāo)志性的新客服產(chǎn)品和能力。
大家可以感受一下:
此外,未問先答還有其他的功能,舉個例子,用戶在app上反復(fù)操作在研究一個功能,但是多步操作后還沒有成功,那么客服就會自動跳出來,詢問是否在某些方面遇到困難,然后給出方案幫助客戶解決。
據(jù)介紹,經(jīng)過這樣的提前介入服務(wù),在這個節(jié)點上有一半以上用戶成功修改銀行卡的預(yù)留手機,可見,智能化的客服對業(yè)務(wù)效率的提升效果。子孟介紹稱,這樣的主動性客戶服務(wù),每幫助一個用戶消除疑慮,就可以增加產(chǎn)品的剁手率。另一方面,上了“未問先答”后,客服重復(fù)來電降低減少一半,通過95188來電咨詢的比例也減少了一半。
“客服的改進看起來雖然只是一個細節(jié),但它讓客戶服務(wù)完成從被動型服務(wù)到主動型服務(wù)的改變。”
上述貼心聰明的智能小二可能給你增加了足夠的剁手快感,而支付寶背后的數(shù)據(jù)庫系統(tǒng)更重要的是安全感。
首先,前面已經(jīng)有介紹,螞蟻金服通過開發(fā)的OceanBase數(shù)據(jù)庫系統(tǒng),以及升級系統(tǒng)架構(gòu),采用三地五中心、異地多活等形式來提升容災(zāi)能力,保障系統(tǒng)穩(wěn)健。最后的結(jié)果是,胡喜介紹稱,天貓雙11中:核心的交易、支付、會員、賬務(wù)等支付核心鏈路今年都運行在OceanBase上;另一個是螞蟻自主研發(fā)的新一代彈性架構(gòu),能夠利用全國多個城市的云計算資源。“所以,12萬筆/秒的支付峰值,是2015年的1.4倍,也毫無壓力。”
通俗的說,OceanBase是一個海量數(shù)據(jù)庫,可以存放千億條以上的記錄。它就像一位超級會計師,單臺普通的服務(wù)器每秒可以處理百萬筆事務(wù),平均一次花的時間是毫秒級別。
三地五中心,主庫突發(fā)故障,或者任何一個甚至兩個機房同時斷電、斷網(wǎng),或者任何一個城市故障,業(yè)務(wù)都會在極短時間內(nèi)自動恢復(fù),不需要任何形式的人工對賬。
而另一方面,來自全國12萬筆每秒的交易量,當(dāng)中有多少的欺詐安全隱患呢?
據(jù)介紹,除了OB,螞蟻技術(shù)團隊還自主研發(fā)了一個叫GEABASE(以下簡稱GB)的金融級圖數(shù)據(jù)庫。“圖”,指網(wǎng)絡(luò)關(guān)系的意思。它能從百億個節(jié)點、千億條邊(關(guān)系)的海量數(shù)據(jù)規(guī)模中,在幾十毫秒內(nèi)徹查目標(biāo)對象的多跳資金轉(zhuǎn)移關(guān)系、設(shè)備關(guān)聯(lián)關(guān)系等組成的復(fù)雜網(wǎng)絡(luò),從而迅速鎖定目標(biāo)、識別欺詐。
刷單黨、羊毛黨黨、欺詐、花唄套現(xiàn)黨等行為,都依靠這張網(wǎng)絡(luò)來識別。
回顧過去,不難發(fā)現(xiàn),有了天貓雙11,然后才有后來支付寶在信用、風(fēng)控、營銷、客服等推動新零售的能力開放。過去一年,也才是新零售、新商業(yè)概念真正破曉起航。
那么,再看未來呢?技術(shù)創(chuàng)造場景,AI、云計算等技術(shù)將繼續(xù)驅(qū)動怎樣的商業(yè)和社會發(fā)展,以及行業(yè)變革,將是留與大家書寫的空間。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。