0
近日,國內(nèi)領(lǐng)先的對沖基金公司「幻方」宣布,其新一代AI超級計算機“螢火一號”,已于2020年3月正式投入運行。
該服務(wù)器是由一個存儲集群和一個計算集群組成。存儲集群提供4.1Tbps讀寫帶寬以及1.2PB容量。計算集群搭載1100張高端顯卡,每秒可以進行1.84億億次浮點運算,相當(dāng)于4萬臺個人電腦算力。
在全球著名對沖基金Two Sigma的主頁上,公司介紹中寫到,只有基于數(shù)據(jù)的、不斷優(yōu)化迭代的科學(xué)方法才是最好投資方式。他們使用42 PB(1PB=1000TB,1TB=1000GB)數(shù)據(jù)用于投資模型,涵蓋了10000個以上的數(shù)據(jù)源,并使用33萬個CPU以上的集群處理數(shù)據(jù)。
數(shù)字化時代
數(shù)字化時代,基于傳統(tǒng)統(tǒng)計、計量的方法已無法處理如此大的數(shù)據(jù)量。而機器學(xué)習(xí)、深度學(xué)習(xí)的優(yōu)勢隨著大數(shù)據(jù)、計算機處理能力的飛速發(fā)展逐漸展現(xiàn)出來。
數(shù)據(jù)驅(qū)動的量化策略,是指通過相關(guān)數(shù)據(jù),直接識別金融市場的模式或規(guī)律,尋找投資機會,這一直是對沖基金主流的策略模式之一。在數(shù)字化時代,這類策略將越來越得到重視,而機器學(xué)習(xí)自然是這類策略主要的技術(shù)與方法之一。
全球每年數(shù)據(jù)增長表
數(shù)據(jù)近幾十年都一直在指數(shù)級增長, 當(dāng)5G全面普及,物聯(lián)網(wǎng)中各樣設(shè)備接入互聯(lián)網(wǎng),每年產(chǎn)生的數(shù)據(jù)還將幾何式爆炸增長。
IDC預(yù)計,到2025年全球數(shù)據(jù)每年將達到163ZB。
隨著石油的價格一降再降,將數(shù)據(jù)比作世界上最有價值的資源,已然沒有任何疑問。
數(shù)據(jù)將使我們有機會改進我們的決策,在經(jīng)濟、社會中的作用將更加舉足輕重。越來越多的公司使用這些數(shù)據(jù)用于企業(yè)自身決策,并為他們的客戶提供更好的服務(wù)。那些能夠充分利用數(shù)據(jù)為用戶服務(wù),解決問題的企業(yè)將會在新的競爭中脫穎而出。
在金融投資領(lǐng)域亦是如此,來自手機、社交媒體、物聯(lián)網(wǎng)各式傳感器的數(shù)據(jù),將對金融投資機構(gòu)的數(shù)據(jù)處理能力提出挑戰(zhàn)。
能收集更大范圍、更實時的數(shù)據(jù),并有能力處理分析并發(fā)現(xiàn)新投資價值的機構(gòu),必將獲得更強的競爭力。
數(shù)據(jù)是墻壁上的投影
信息是用來消除隨機不確定性的東西。
—— 香農(nóng)(Shannon)
柏拉圖在《理想國》中有一個著名的比喻——洞穴之喻(Allegory of the Cave)。
設(shè)想在一個地穴中有一批囚徒,他們自小被鎖鏈?zhǔn)`,不能轉(zhuǎn)頭,只能看見面前洞壁上的影子。
在他們后上方有一堆火,有一條橫貫洞穴的小道,沿小道筑有一堵矮墻,如同木偶戲的屏風(fēng)。
人們扛著各種器具走過墻后的小道,而火光便把那些器物的影像投射到面前的洞壁上,囚徒自然地以為影子是惟一真實的事物。
【 圖片:洞穴之喻 】
洞穴之喻簡直是關(guān)于事實與數(shù)據(jù)之間關(guān)系最好的解讀。
數(shù)據(jù)就像印在壁洞上的影像——人們試圖利用低維的數(shù)據(jù),去描繪一個高維的事實。這和我們認(rèn)為,在數(shù)字化時代亦不存在全局性信息,大抵是一個含義。
但數(shù)字化時代,墻壁上將不再是火把的倒影,各種器具進行數(shù)據(jù)化處理,可以生成一個全息的影像,這必然能讓洞穴人感知到一個更加真實的世界。
不遠的未來,隨著物理世界數(shù)字化不斷發(fā)展,數(shù)據(jù)就不再是一個火把照出的影像,而是成為一個全息影像。更多維度、更實時的數(shù)據(jù),將幫助我們真正理解我們的周遭環(huán)境、事物以及我們自己。
信息的基本作用是消除人們對事物的不確定性。
信息熵(Information Entropy)是對信息的量化度量,也是對不確定性的度量。關(guān)于信息熵,還有更準(zhǔn)確的公式描述,感興趣的讀者請參考相關(guān)專業(yè)書籍。這里只需要了解,信息和不確定性是逆向關(guān)系,有效信息可以減少不確定性,增加確定性。
金融市場,如果對某個資產(chǎn)價格非常不確定,市場參與各方都有不同預(yù)期,資產(chǎn)價格就會劇烈波動。需要大量信息才能消除這不確定性,隨著信息不斷在市場中傳播,資產(chǎn)價格的不確定性也不斷下降逐步趨于均衡價。
我們強調(diào)經(jīng)濟、社會中是存在不確定性的。哈耶克有一段關(guān)于經(jīng)濟不確定性不能被統(tǒng)計有效消除的論述:”經(jīng)濟學(xué)家們越來越容易忘記組成整個經(jīng)濟體系的經(jīng)常不斷的小變化,其原因之一也許是他們越來越耽于統(tǒng)計總數(shù),這種統(tǒng)計總數(shù)比具體細節(jié)的運動表現(xiàn)出更大的穩(wěn)定性。
然而,這種統(tǒng)計中的相對穩(wěn)定性并不能像統(tǒng)計學(xué)家時常想做的那樣以’大數(shù)定律’即隨機變化的相互補償來解釋。我們必須處理的因素,其數(shù)量并非大得足以使這些偶然力量產(chǎn)生穩(wěn)定性。
貨物和服務(wù)的不間斷流動得以維持,是由于持續(xù)不斷的精心調(diào)節(jié),由于每天要根據(jù)前一天所不知的情況做出新的安排,由于一旦A不能交付就馬上由B代替。”
筆者非常認(rèn)同,但數(shù)字化時代,將改進原有人們基于統(tǒng)計的決策。
隨著收集技術(shù)以及各類傳感器不斷優(yōu)化,生產(chǎn)過程中哪些是由A交付,哪些是由B交付都被記錄下來,再加上實時反饋系統(tǒng),從而有可能實現(xiàn)更高效的調(diào)度。
而且,原有抽樣統(tǒng)計中被忽略的變量也將被有效收集,大數(shù)據(jù)不同于統(tǒng)計樣本抽樣,是更大的樣本集,甚至是全樣本集,有效避免樣本統(tǒng)計過程中的信息損失。
數(shù)字化時代離不開機器學(xué)習(xí)
面對大數(shù)據(jù)集時,部分統(tǒng)計學(xué)習(xí)算法無法處理大數(shù)據(jù)的高維、稀疏、海量等特性。
之后,隨著分布式存儲、計算技術(shù)、分布式機器學(xué)習(xí)平臺的發(fā)展,機器學(xué)習(xí)能夠有效處理更大規(guī)模的數(shù)據(jù)集,大數(shù)據(jù)的價值才更好的得到體現(xiàn),才有了數(shù)據(jù)被認(rèn)為是世界上最重要的資源一說。所以,大數(shù)據(jù)與機器學(xué)習(xí)是相輔相成的。
相對于大數(shù)據(jù)的興起,機器學(xué)習(xí)、人工智能已經(jīng)過半個多世紀(jì)的發(fā)展,幾經(jīng)興衰,冷暖沉浮,興時,改變世界;衰時,無法就業(yè)。雖然有人說這幾年機器學(xué)習(xí)大熱,可能會和之前幾次人工智能浪潮一樣退去。
但筆者相信,即使在熱潮中,機器學(xué)習(xí)會有些被濫用,但年深月久,經(jīng)過專家學(xué)者們持續(xù)不斷地探索,不可逆轉(zhuǎn)的數(shù)字化進程,不間斷的計算能力提升,大可樂觀。只有在數(shù)字化時代,機器學(xué)習(xí)、人工智能才成為一個不退去的浪潮。
目前,通常所說的大數(shù)據(jù),數(shù)據(jù)量都達到PB級以上,必須借助于云計算才能處理。
而且在大數(shù)據(jù)上的建模已然離不開機器學(xué)習(xí)和深度學(xué)習(xí)。那些圖像識別、翻譯、無人駕駛等領(lǐng)域,都是因為有了大數(shù)據(jù)集,才發(fā)揮了深度學(xué)習(xí)的優(yōu)勢。
大數(shù)據(jù)將原有抽樣樣本集變?yōu)槿繕颖炯?,呈現(xiàn)出抽樣樣本上無法揭示的規(guī)律。并且機器學(xué)習(xí)、深度學(xué)習(xí)模型在大數(shù)據(jù)集上,能夠更有效地學(xué)習(xí)之前統(tǒng)計模型中忽略的那些結(jié)構(gòu)和關(guān)系,這也是之前所說數(shù)據(jù)中無法處理的信息中的一部分,從而可能得到更好的模型預(yù)測效果。
在數(shù)據(jù)處理、收集成本的下降的同時,機器學(xué)習(xí)、算法的成本也下降了,并且易用性也提高了。機器學(xué)習(xí)算法的實現(xiàn)已然不是各領(lǐng)域應(yīng)用人工智能需要考慮的問題。
那些云計算供應(yīng)商們會不斷降低機器學(xué)習(xí)的應(yīng)用成本并提高易用性。也就是說預(yù)測的性價比將越來越高,金融投資領(lǐng)域也不例外,機器學(xué)習(xí)的應(yīng)用將無處不在。
另外,金融投資領(lǐng)域和各行各業(yè)的發(fā)展都息息相關(guān),既然實體經(jīng)濟都在數(shù)字化、智能化,自然金融投資領(lǐng)域也必須數(shù)字化、智能化。
自建大數(shù)據(jù)、機器學(xué)習(xí)平臺的好處與缺點
通常來說,對于金融投資機構(gòu),選擇外部云計算服務(wù)商也是比較合適的選擇。
那另一個問題來了,為什么頂級金融投資機構(gòu)需要自建平臺、系統(tǒng)呢?
當(dāng)金融投資機構(gòu)的目標(biāo)是在他們的公司中投資的決策各個環(huán)節(jié)嵌入大數(shù)據(jù),進行投資全流程數(shù)字化升級,將數(shù)據(jù)的分析結(jié)果作為投資依據(jù)的重要來源。
那么外部的大數(shù)據(jù)供應(yīng)商或咨詢機構(gòu)都無法代替公司內(nèi)部的大數(shù)據(jù)團隊。數(shù)據(jù)團隊的工作分成兩大部分,一是搭建數(shù)據(jù)存儲和計算平臺,二是提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù)。
對數(shù)據(jù)平臺有更高掌控要求的機構(gòu)來說,在開源大數(shù)據(jù)技術(shù)上,構(gòu)建定制化大數(shù)據(jù)存儲和計算平臺亦是不錯的選擇。數(shù)據(jù)處理團隊則主要負(fù)責(zé)對各類業(yè)務(wù)數(shù)據(jù)進行清洗、加工、分類以及挖掘分析,然后把數(shù)據(jù)結(jié)果存儲到數(shù)據(jù)平臺,構(gòu)建公司的數(shù)據(jù)中心。
在互聯(lián)網(wǎng)行業(yè),大數(shù)據(jù)效果非常容易體現(xiàn)。
采集、處理并利用數(shù)據(jù),可以實現(xiàn)改善用戶體驗或研發(fā)新產(chǎn)品等作用,依托數(shù)據(jù)化運營吸引、留住用戶并使之活躍是互聯(lián)網(wǎng)公司的生存之道。
這些都有明確的相關(guān)指標(biāo)量化效果,所以大數(shù)據(jù)團隊的價值很容易被認(rèn)可。然而在金融機構(gòu)的數(shù)據(jù)處理團隊并不直接參與投資,往往是作為中后臺支持團隊,其價值多是通過與前中臺團隊有效合作產(chǎn)生。
如果公司是一個數(shù)據(jù)驅(qū)動型投資公司,在投資決策體系依據(jù)數(shù)據(jù)支持,數(shù)據(jù)團隊職能定位比較明確,并擁有較好的信息化基礎(chǔ)和較強的數(shù)據(jù)驅(qū)動意識,那么大數(shù)據(jù)團隊比較容易產(chǎn)生價值。
但,如果公司高層和業(yè)務(wù)團隊對數(shù)據(jù)團隊有著過高的期待,團隊職能定位不明確,數(shù)據(jù)團隊本身投資領(lǐng)域知識不足的話,大數(shù)據(jù)團隊的價值將難以發(fā)揮。
所以,金融機構(gòu)有效利用大數(shù)據(jù)團隊一般需具備以下幾點:
公司高層認(rèn)可大數(shù)據(jù)的價值,清晰的大數(shù)據(jù)團隊目標(biāo)。打造一支數(shù)據(jù)科學(xué)團隊是有一定成本的,建立大數(shù)據(jù)團隊前,必須在高層達成一致,確認(rèn)投入資源打造一支數(shù)據(jù)科學(xué)團隊的必要性,并能明確團隊目標(biāo)和期待。
將大數(shù)據(jù)和數(shù)據(jù)分析納入投資決策流程。數(shù)據(jù)在投資中的作用是不言而喻的,但對新的大數(shù)據(jù)集,交易團隊和量化、風(fēng)控等團隊往往心存疑慮,需要建立合適的流程,確保大數(shù)據(jù)集經(jīng)過驗證后進入投資決策。鼓勵交易團隊、量化團隊多多接觸大數(shù)據(jù)集,共同探討新數(shù)據(jù)集的價值。只有大數(shù)據(jù)能夠真正應(yīng)用于投資,大數(shù)據(jù)團隊的價值才能顯現(xiàn)。
尋找到合適的數(shù)據(jù)人才。對于金融機構(gòu)的大數(shù)據(jù)團隊,往往傾向于有金融背景的大數(shù)據(jù)和機器學(xué)習(xí)人才,但這方面人才在國內(nèi)相對較少,而且互聯(lián)網(wǎng)行業(yè)也在大力爭奪相關(guān)人才。只要明確各團隊職責(zé),可適當(dāng)放寬要求,不同背景的人員也是能夠有效合作的。
一般來說,機器學(xué)習(xí)團隊是和大數(shù)據(jù)團隊劃歸為后臺支持團隊的。
由于并不直接參與投資,機器學(xué)習(xí)團隊價值是通過與前中臺團隊有效合作體現(xiàn)的。
另外一種組織方案是將機器學(xué)習(xí)團隊劃入前、中臺量化團隊,這樣更有利于機器學(xué)習(xí)算法直接應(yīng)用于交易策略以及風(fēng)險模型中,但這時就需要和后臺大數(shù)據(jù)團隊有效合作了。
不論如何選擇組織架構(gòu),目的都是為了將大數(shù)據(jù)和機器學(xué)習(xí)納入投資決策流程中。將大數(shù)據(jù),機器學(xué)習(xí)融入原有金融投資機構(gòu)在線交易決策、風(fēng)控系統(tǒng)中,并支持線下策略、風(fēng)控模型研究,這將涉及整體公司內(nèi)IT系統(tǒng)的重構(gòu)。
但這樣的趨勢已不可避免,面對數(shù)字化時代不斷發(fā)展,物理世界、實體經(jīng)濟數(shù)字化進程加速,金融投資機構(gòu)應(yīng)該以更加開放的心態(tài),將機器學(xué)習(xí)等技術(shù)有效融合到原有投資決策流程中才能獲得行業(yè)競爭優(yōu)勢。
既然談了自建大數(shù)據(jù)、機器學(xué)習(xí)平臺的好處,那也應(yīng)該說說缺點:費錢。
需要和互聯(lián)網(wǎng)公司掙強人才。即使金融機構(gòu)給的待遇更高些,但考慮到學(xué)習(xí)環(huán)境、股權(quán)激勵等原因,一般大家還是更愿意選擇互聯(lián)網(wǎng)公司。當(dāng)然,對于不差錢的頂級投資機構(gòu)來說,自然不在考慮之列,原微軟首席人工智能科學(xué)家鄧力就加盟了對沖基金巨頭之一Citadel公司。
最后,筆者要喊句,雖然金融投資市場不是公平的,過去不是,現(xiàn)在也不是,將來應(yīng)該也不是。但如果,市場中的新座次取決于誰擁有最強的機器、最多的數(shù)據(jù)、最厲害的算法,那亦是違背市場機制了。更多的論述請參見即將出版的《人工智能為金融投資帶來了什么》。
本文作者袁峻峰,螞蟻金服人工智能部,復(fù)旦金融學(xué)碩士,F(xiàn)RM金融風(fēng)險管理師。10年以上從事金融IT相關(guān)領(lǐng)域工作經(jīng)驗,主要包括國內(nèi)銀行間市場金融產(chǎn)品的量化分析、市場風(fēng)險管理以及相關(guān)系統(tǒng)實現(xiàn)等。目前從事螞蟻金服公司內(nèi)機器學(xué)習(xí)的資金優(yōu)化項目。新書《人工智能為金融投資帶來了什么》即將出版,歡迎探討。微信: IA_FIN。(雷鋒網(wǎng))
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。