0
AI+投資其實并不新鮮,但為什么不少模型和算法的表現(xiàn)都不盡如人意?
在微軟亞洲研究院副院長劉鐵巖看來,原因之一是動態(tài)變化的股市里,人們往往很難確定各種投資因子到底在哪個時段更加有效,如果機(jī)器能識別出當(dāng)時的市場是否“正?!保瑢W(xué)透不同的歷史規(guī)律,那無疑會給投資策略帶來更有效的決策依據(jù)。
創(chuàng)辦時間超過二十年的微軟亞洲研究院被譽為“AI黃埔軍?!保珹I+投資也正是這家科研機(jī)構(gòu)長期關(guān)注的領(lǐng)域之一。近日,在通聯(lián)數(shù)據(jù)主辦的全球資產(chǎn)管理數(shù)字化轉(zhuǎn)型峰會上,副院長劉鐵巖就以《共同探索智能投資研究的新邊界》為主題進(jìn)行了分享。
劉鐵巖從高頻數(shù)據(jù)、市場狀態(tài)、交易成本等多個角度出發(fā),詳細(xì)介紹了他們對于智能化投資的研究,并討論了金融投資的實戰(zhàn)和研究之間存在的巨大鴻溝:算法有時只在論文的小型數(shù)據(jù)上有效果,研究者不清楚金融場景特有的實現(xiàn)細(xì)節(jié),缺乏領(lǐng)域知識,缺乏穩(wěn)定公開的數(shù)據(jù)源等等。
以下是劉鐵巖的演講內(nèi)容,雷鋒網(wǎng)AI金融評論做了不改變原意的整理和編輯:
今天跟大家探討一下我們在智能投資研究方面的心得體會。
微軟亞洲研究院是微軟在海外最大的基礎(chǔ)和應(yīng)用型研究機(jī)構(gòu),在過去20年間,我們在計算機(jī)領(lǐng)域,全球最頂級的會議和期刊上發(fā)表了大量學(xué)術(shù)成果,被MIT技術(shù)評論譽為全球最火的計算機(jī)實驗室。中國各大高校的學(xué)界精英、各大高科技企業(yè)的領(lǐng)軍人物,很多都是微軟亞洲研究院培養(yǎng)的院友。
雖然我來自這樣一個基礎(chǔ)科研機(jī)構(gòu),但和金融也不是毫無關(guān)系。2017年微軟亞洲研究院成立了創(chuàng)新匯,它的目標(biāo)是和中國各行各業(yè)領(lǐng)軍企業(yè)一起探索智能化、數(shù)字化轉(zhuǎn)型。正是借助創(chuàng)新匯的平臺,我有幸和金融界的朋友探討智能化投資話題,也激起了我本人的興趣。
所以在過去的一段時間里,我們針對智能投資做了一系列的研究工作,這也正是今天想要和大家分享的內(nèi)容。
作為一名學(xué)者,我關(guān)心的并不是股市的風(fēng)云變換、大盤的漲跌起伏,相反更關(guān)注的是投資背后的科學(xué)規(guī)律,希望從表象能抽取出行之有效的技術(shù)框架,能夠服務(wù)更多的金融機(jī)構(gòu)和行業(yè)。
我們雖然關(guān)注的是金融投資方面的研究,但是也不完全是紙上談兵,過去4年中我們研發(fā)了一系列金融投資場景下的技術(shù),也和合作伙伴一起進(jìn)行了AI技術(shù)的實盤測試。
這張圖展示的是其中一個AI模型在過去一年的表現(xiàn),對標(biāo)的是中證500,與指數(shù)相比大概有超過30%的超額收益。
不過,今天和大家分享的并不是這個模型,而是從更廣泛的角度探討AI對于資管、投資行業(yè)有什么樣的啟示。
在過去幾年間,我們開發(fā)了一套自頂向下、比較完善的智能投資技術(shù)框架,包含:
數(shù)據(jù)智能:從海量的數(shù)據(jù)當(dāng)中挖掘有效的α因子;
智能預(yù)測:針對市場動態(tài)性自適應(yīng)地訓(xùn)練高效的人工智能模型;
智能策略:基于AI的風(fēng)險分析和投資組合構(gòu)建,
智能交易:用AI技術(shù)輔助自動化訂單執(zhí)行。
不過,這里我想強(qiáng)調(diào)的是,所有這些技術(shù)都只是一種工具和服務(wù),是用來輔助人類投資者的,只有HI(human intelligence,人類智能)+AI,才能實現(xiàn)混合智能,做出最好的投資決策。
在金融投資中,當(dāng)進(jìn)行日頻、周頻、月頻投資時,很少利用高頻交易數(shù)據(jù)。那些關(guān)心高頻數(shù)據(jù)的人,很多是為了實現(xiàn)日內(nèi)的算法交易。這里其實有一個很有意思的問題:在做中低頻投資時,高頻交易數(shù)據(jù)到底有沒有用?
智能投資的優(yōu)勢在于,從更廣泛更海量的原始數(shù)據(jù)里,抽取有效的投資信號。某種意義上來講,在金融投資這個大型博弈場里,誰擁有更多的數(shù)據(jù),誰對數(shù)據(jù)挖掘的更充分、更全面,誰就占有更多的先機(jī)。
從這個角度講,高頻數(shù)據(jù)應(yīng)該是有價值的,因為它確實包含了更加豐富的信息。但是天下沒有免費的午餐,高頻數(shù)據(jù)的信噪比很低,有時高頻數(shù)據(jù)所蘊含的趨勢和規(guī)律與中低頻數(shù)據(jù)可能存在矛盾。
另外,雖然有高頻數(shù)據(jù)作為輸入,但是我們能夠利用的反饋信號(如收益),通常還是中低頻的。這種中低頻反饋信號對于高頻數(shù)據(jù)而言,密度很低且有效性存疑。
為了解決這些問題,我們的研究團(tuán)隊開發(fā)了一套基于自監(jiān)督對比學(xué)習(xí)的表征預(yù)訓(xùn)練方法。該方法的基本想法是:人為定義一些反饋信號用以提高反饋信號的密度,如果設(shè)計得當(dāng),它有可能作為高頻數(shù)據(jù)和中低頻預(yù)測目標(biāo)之間的橋梁。
為此,我們利用了兩種依賴關(guān)系:
一、空間依賴,指來自高頻數(shù)據(jù)和中低頻數(shù)據(jù)的信息,要在某種程度上保持一致;
二、時間依賴,指的是在時間軸上不太遠(yuǎn)的兩個高頻數(shù)據(jù),需要具有某種一致性。
有了這樣的自監(jiān)督對比學(xué)習(xí)方法,我們有望從高頻數(shù)據(jù)里去偽存真,找到對我們有用的信息。那么效果如何呢?
首先來看一下左邊這個圖,它是直接使用純粹的高頻數(shù)據(jù),不使用額外的自監(jiān)督對比學(xué)習(xí)方法。其中,紅點是未來一周按照股票價格走向衡量表現(xiàn)最差的20%股票,綠點是表現(xiàn)最好的20%股票。
可以看到,直接對比二者的高頻信號,其實沒什么區(qū)別;但使用自監(jiān)督對比學(xué)習(xí)之后得到右圖,可以清晰地看到,頭部20%和尾部20%的區(qū)分力被明顯擴(kuò)大。
我們對自監(jiān)督對比學(xué)習(xí)進(jìn)行了更系統(tǒng)的評估,計算了它所對應(yīng)的Rank IC。
藍(lán)色:簡單使用中低頻(日頻)信號;
橙色:把日頻信號和高頻信號簡單拼接在一起;
灰色:用自監(jiān)督對比學(xué)習(xí)技術(shù)從高頻數(shù)據(jù)中學(xué)到的因子。
可以看出,通過使用自監(jiān)督對比學(xué)習(xí),我們得到了更好的投資有效性。在將近一年的時間里,其整體預(yù)測效果明顯超越只使用日頻或者簡單拼接日頻+高頻的方法。
用自監(jiān)督對比學(xué)習(xí)方法解決了反饋信號密度的問題,但還有一個問題沒有回答——反饋信號的有效性。有關(guān)這個問題,我們需要考察兩點:
一,頻率的差別。從中低頻數(shù)據(jù)中得到反饋信號,去指導(dǎo)高頻學(xué)習(xí),這種頻率之間的跨越是不是需要一些技術(shù)來填補(bǔ);
二,投資鏈條很長,預(yù)測只是其中一環(huán),如果用下期的預(yù)測目標(biāo)作為反饋信號,有可能并不能代表未來整體投資的收益,是否應(yīng)該重新考量如何定義反饋信號。
為了解決這些問題,我們發(fā)明了基于元學(xué)習(xí)的模塊,為預(yù)測模塊提供新的反饋信號。
圖中畫圈處(Meta Model)即是元學(xué)習(xí)模塊,它的輸入既有高頻數(shù)據(jù)也有低頻數(shù)據(jù),既有歷史數(shù)據(jù)又有未來數(shù)據(jù),在此基礎(chǔ)上為預(yù)測模型提供反饋信號。
而反饋信號好壞的評價準(zhǔn)則,是整個投資鏈條最后的收益。其實元學(xué)習(xí)是近年來人工智能領(lǐng)域的常用技術(shù),換句話說就是用機(jī)器學(xué)習(xí)來指導(dǎo)機(jī)器學(xué)習(xí)。預(yù)測模型是一個機(jī)器學(xué)習(xí)任務(wù),元學(xué)習(xí)也是一個機(jī)器學(xué)習(xí)任務(wù),后者對前者的訓(xùn)練過程進(jìn)行指導(dǎo)。
為了更好地展示元學(xué)習(xí)模塊的效果,我們限定它的行為——要求它只對未來20天的預(yù)測目標(biāo)進(jìn)行加權(quán)平均,用它來作為預(yù)測模型的反饋信號。從圖中可以看出通過引入元學(xué)習(xí)模塊,我們在年化收益的層面上有了大幅度提高。
圖中綠色曲線表示元學(xué)習(xí)模塊給預(yù)測模塊提供反饋信號;而藍(lán)色曲線表示用下一期的目標(biāo)作為反饋信號指導(dǎo)預(yù)測學(xué)習(xí)。
通過調(diào)整投資過程的交易成本,我們發(fā)現(xiàn)隨著交易成本的提升,元學(xué)習(xí)模塊會把權(quán)重更多的分配給更長期的目標(biāo)值。
換言之,交易成本越高,元學(xué)習(xí)模塊越希望我們頻繁交易,算法希望關(guān)注長期趨勢。這說明元學(xué)習(xí)模塊可以自動學(xué)到有用信息,提高預(yù)測模型的反饋信號效果。
大家知道,金融投資有個很大的挑戰(zhàn):股票市場是動態(tài)變化的,各種投資因子的有效性隨著時間此起彼伏;其中的悖論就是,我們不能確定哪一個因子在哪一個時間段更加有效。
面對這一復(fù)雜問題,我們并不是無能為力,至少能做如下的問題拆解:
第一,判斷一下當(dāng)前的市場狀態(tài)是否在歷史上曾經(jīng)出現(xiàn)過?一旦出現(xiàn)過,就可以利用歷史數(shù)據(jù)中的蛛絲馬跡,對當(dāng)前市場進(jìn)行處理;如果當(dāng)前市場狀態(tài)在歷史上從未出現(xiàn)過,說明這是異常的市場,其實我們也不必糾結(jié),“躺平”也許是最好的辦法。
第二,假設(shè)當(dāng)前市場狀態(tài)在歷史上曾經(jīng)出現(xiàn)過,我們需要對歷史數(shù)據(jù)進(jìn)行充分的學(xué)習(xí)和總結(jié),以希望從中找到有用的規(guī)律。那么相關(guān)的問題就是:歷史規(guī)律是否只有一種?如果有多種相互矛盾的規(guī)律,比如動量和反轉(zhuǎn),又該如何學(xué)習(xí)?
第三,假設(shè)我們已經(jīng)可以學(xué)習(xí)了不同的歷史規(guī)律,那么針對當(dāng)前市場,該如何動態(tài)選擇一種或者幾種歷史規(guī)律,做出最好的投資決策呢?
為了回答這些問題,我們研發(fā)了基于市場狀態(tài)調(diào)整和選擇投資策略的框架。
我們使用了自編碼器對市場狀態(tài)進(jìn)行表達(dá),再把這種表達(dá)傳給異常檢測模塊。如果異常檢測模塊對當(dāng)前市場狀態(tài)給予非常低的置信度,我們應(yīng)該采取被動的投資策略。如果置信度比較高,說明我們有一定自信,可以通過組合歷史數(shù)據(jù)和歷史規(guī)律處理當(dāng)前情況。
右圖是異常市場檢測模塊的性能,藍(lán)色對應(yīng)指數(shù)波動,橙色對應(yīng)于異常檢測模塊給出的置信度??梢钥匆姡?015年股災(zāi)附近,異常檢測模塊就給了很低的置信度,并且提前有所預(yù)警。
可能有人會說,當(dāng)時整個市場走勢異常肉眼可見,何必使用那么復(fù)雜的模型來判斷呢?
那我們再看一個例子:2019年貿(mào)易戰(zhàn)期間的市場狀態(tài),變化其實沒有那么劇烈,人眼不太看出得來。但事實上當(dāng)時很多行業(yè)受到打擊,也有很多行業(yè)因此得到機(jī)會,行業(yè)結(jié)構(gòu)的調(diào)整,單從指數(shù)上是看不到的,但是自編碼器就能充分感知。這就是為什么我們的模型,在2019年之初就有非常明確的預(yù)警信號。
當(dāng)我們能夠判斷當(dāng)前市場是異?;蛘V螅酉聛淼娜蝿?wù),就是從歷史數(shù)據(jù)中找到未來可以借鑒的規(guī)律。
但難點在于,因為歷史數(shù)據(jù)存在各種互不兼容的規(guī)律,這些規(guī)律反復(fù)出現(xiàn),不同時段出現(xiàn)的頻率也不穩(wěn)定。如果忽略規(guī)律的矛盾性,只簡單學(xué)習(xí)一種模型,那這種模型通常會顧此失彼,學(xué)到模糊的平均狀態(tài),對每一種歷史規(guī)律的刻畫都不到位。
我們的做法是:同時學(xué)習(xí)多個模型,希望這些模型盡可能不同,盡可能體現(xiàn)出各自的特點,并且能夠?qū)κ袌鲇幸粋€非常好的解釋。
我們發(fā)現(xiàn),這個任務(wù)和最優(yōu)運輸問題異曲同工。我們的任務(wù)是把每一條歷史數(shù)據(jù)分配到某個歷史規(guī)律之下。歷史數(shù)據(jù)相當(dāng)于最優(yōu)運輸問題里的物品,歷史規(guī)律相當(dāng)于最優(yōu)運輸問題里的目的地。而歷史數(shù)據(jù)和規(guī)律的契合度,就相當(dāng)于物品到達(dá)目的地的運輸成本。
做了這個對應(yīng)之后,我們就可以利用最優(yōu)運輸問題的各種優(yōu)化方法,幫我們實現(xiàn)高效的數(shù)據(jù)劃分。
下圖展示了基于最優(yōu)運輸問題進(jìn)行數(shù)據(jù)劃分,得到的各種歷史模型之間的性能。
左邊是一個基線算法,采取的是簡單的多路神經(jīng)網(wǎng)絡(luò),沒有做預(yù)先的數(shù)據(jù)劃分;右邊這個圖展示的是基于最優(yōu)運輸算法實現(xiàn)數(shù)據(jù)劃分之后再進(jìn)行學(xué)習(xí)的結(jié)果。左圖中,各個模型表現(xiàn)大差不差,相關(guān)性非常高,在各時段的表現(xiàn)都沒有那么亮眼。
相反,我們的方法可以學(xué)到相關(guān)性比較低的多個模型,這些模型在不同時間段的表現(xiàn)非常不同,這就給我們提供了機(jī)會——因為這些模型越不同,越此消彼漲,我們就越有機(jī)會用動態(tài)的方式組合它們,最終應(yīng)對比較復(fù)雜的市場。
為了動態(tài)組合這些模型,我們使用了注意力網(wǎng)絡(luò)。所謂注意力網(wǎng)絡(luò),是近年來人工智能領(lǐng)域非常有用的技術(shù)。從本質(zhì)上來講,它是對既有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)根據(jù)外部輸入進(jìn)行調(diào)整,所以我們得到的不是一張靜態(tài)的神經(jīng)網(wǎng)絡(luò),而是隨著時間和外部信息動態(tài)變化的神經(jīng)網(wǎng)絡(luò)。
正是利用這種動態(tài)性,我們才有可能在跌蕩起伏的股市上保證常勝狀態(tài)。這個圖告訴我們,在使用了自適應(yīng)網(wǎng)絡(luò)之后,最終可以取得各種模型性能的上包絡(luò)。
俗話說:投資有風(fēng)險、入市須謹(jǐn)慎。也就是說:風(fēng)險控制是金融投資里面非常重要的環(huán)節(jié)。一個人之所以成為投資高手,不是因為他能發(fā)現(xiàn)一兩個阿爾法因子,而是他能夠有效地控制風(fēng)險,能夠在股市里面找到常勝的規(guī)律。
那么,投資過程中的風(fēng)險有哪些類別?
首先,未來市場充滿未知,我們總是會面臨投資不確定性,這就是所謂的固有風(fēng)險。
其次,在使用預(yù)測模型輔助投資時,因為模型本身的誤差,會引入額外的模型風(fēng)險。
只有在構(gòu)建投資組合時,把所有這些風(fēng)險都考慮在內(nèi),才能在投資時立于不敗之地。
人們雖然對于風(fēng)險因子的重要性沒有什么異議,但是對風(fēng)險因子的研究進(jìn)展卻非常緩慢。因為傳統(tǒng)因子的構(gòu)建需要依賴專家的理論創(chuàng)新和經(jīng)驗積累,同時對于不同的市場需要用不同的方式人工去定義因子。
大家知道,從最早的CAPM模型到Fama TFM模型經(jīng)過了31年,也無外乎增加了size、value這幾個風(fēng)險因子。而從Fama TFM發(fā)展到BARRA CNE5,經(jīng)過了20年,也只是增加了動量、成長等為數(shù)不多的幾個因子。
在風(fēng)險因子挖掘方面人工智能大有所為,因為人工智能可以自動從數(shù)據(jù)當(dāng)中發(fā)現(xiàn)有用的規(guī)律,可以把風(fēng)險因子的刻畫做得更充實、有效、及時。在人工智能的眼中,所謂固有風(fēng)險因子就是要學(xué)習(xí)出市場狀態(tài)的正交基;而所謂模型風(fēng)險就是刻畫出預(yù)測結(jié)果的置信度和相關(guān)性。
具體而言,針對固有風(fēng)險的學(xué)習(xí),我們的任務(wù)是利用少量獨立的風(fēng)險因子解釋市場,未來希望投資組合在這些因子上有充分的暴露。
用數(shù)學(xué)語言來描述,就是希望從高維非線性的原始數(shù)據(jù)空間,變化到低維的隱式風(fēng)險因子空間。
為了實現(xiàn)這一點,要有一個優(yōu)化目標(biāo),我們希望在低維的隱式風(fēng)險因子空間里,各維度盡量獨立,同時對市場解釋能力足夠強(qiáng),這就對應(yīng)于幻燈片里展示的優(yōu)化式子。
這個式子的藍(lán)色部分,表達(dá)的是最大化股票收益在這些因子上的投影;紅色描述的是各因子之間的相關(guān)性,希望最小化相關(guān)性或者最大化差異度。
通過這個優(yōu)化過程,我們可以自動學(xué)習(xí)出一組風(fēng)險因子。它們可能不像傳統(tǒng)風(fēng)險因子那么容易解釋,但它們對市場的描述更充分,并且先天具有非線性性。在構(gòu)建投資組合時,效果更好。
接下來,我們談一談模型風(fēng)險。單只股票的模型風(fēng)險很容易理解,描述的是股票實際收益低于預(yù)期收益的情況——但并不是單只股票模型風(fēng)險大,投資組合的風(fēng)險就一定大。
比如左圖里兩只股票,預(yù)測得分都很高,但實際收益很低,顯然單點的模型風(fēng)險和組合風(fēng)險是一致的。右圖兩個股票的預(yù)測值很高,但是實際上一個高收益一個低收益,這種情況下投資組合的風(fēng)險其實是不高的。
投資組合之所以要做風(fēng)險控制,就是希望至少有一些股票表示強(qiáng)勁,不要大家同漲同跌,所以在這種情況下我們認(rèn)為投資組合的模型風(fēng)險并不高。
換句話說,投資組合的模型風(fēng)險,需要考慮股票之間的關(guān)系,而不是簡單由每支股票自己的單點模型風(fēng)險所決定的。
為了更好地給模型風(fēng)險建模,我們考慮到圖神經(jīng)網(wǎng)絡(luò),在這里面每個點描述的是單只股票的模型風(fēng)險,邊描述的是兩只股票之間的關(guān)聯(lián)關(guān)系。
在整個圖神經(jīng)網(wǎng)絡(luò)迭代的過程中,單點模型風(fēng)險會不斷修正投資組合的模型風(fēng)險,反過來投資組合模型也會修正單點的模型風(fēng)險。所以當(dāng)整個圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)收斂之后,我們就得到了一個整體的模型風(fēng)險矩陣Σμ,這個矩陣加上之前自動學(xué)習(xí)出來的隱式固有風(fēng)險的矩陣,共同用于投資組合的優(yōu)化。
我們對于這種基于AI的風(fēng)控方法進(jìn)行了評測。右圖中,藍(lán)點表示基線方法(BARRA模型),紅點使用了隱式固有風(fēng)險技術(shù),而綠點則同時考慮了隱式固有風(fēng)險和基于圖神經(jīng)網(wǎng)絡(luò)模型組合風(fēng)險。
從圖中可以清楚地看到,使用新的風(fēng)險因子確實可以得到更好的收益和風(fēng)險的平衡。
當(dāng)我們有了好的投資組合之后,最后一公里的事情就是執(zhí)行換倉的訂單。
這個事情非常重要,因為給定一個換倉的訂單,不同的執(zhí)行方案會對應(yīng)完全不同的交易成本,所以很多有實力的交易機(jī)構(gòu)都會在日級別元訂單的基礎(chǔ)上,關(guān)注小時、分鐘甚至秒級的操作,希望能控制交易成本。
而一個訂單執(zhí)行方法的好壞,通常我們會用訂單完成后的平均價格去衡量。
這張圖是訂單執(zhí)行策略的基本概念,如果有一組訂單把他們按照時間均勻執(zhí)行,就會得到按照時間加權(quán)的平均價格。
如果可以預(yù)測每一個時間段的交易量TWAP,并且按照這個預(yù)測結(jié)果調(diào)整訂單速度,就會得到按照交易量加權(quán)平均的價格VWAP。
它們都是市面上常用的交易算法,但顯然它們都不是最優(yōu)的,因為如果我們真有本事在價值最高點去執(zhí)行訂單,一定會有更好的平均價格——但這個事情又不是那么簡單,因為在任何時間點都有交易量的上限,很可能在價格最高點沒有足夠的市場容量去完成訂單的交易。
因此,訂單的執(zhí)行不是一件簡單的事情,需要很好的算法支撐。
我們嘗試了使用強(qiáng)化學(xué)習(xí)來實現(xiàn)自動的訂單執(zhí)行。強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域非常重要的門類,大家都聽過的AlphaGo就是使用深度強(qiáng)化學(xué)習(xí)的算法。
我們的訂單執(zhí)行任務(wù)因為可以很好地建模成強(qiáng)化學(xué)習(xí)的問題:給定一個狀態(tài)(市場信息、剩余時間、剩余訂單量),選擇合適的動作(控制當(dāng)前訂單執(zhí)行的速度),從而得到某種獎勵(比如訂單執(zhí)行后的平均交易成本、訂單是否如期完成、瞬間的交易量是否過大等等)。
看起來強(qiáng)化學(xué)習(xí)是非常好的工具,可以解決訂單學(xué)習(xí)的問題,但如果大家是行家就知道,強(qiáng)化學(xué)習(xí)是不容易駕馭的工具。
強(qiáng)化學(xué)習(xí)有很多缺點,其中包括:訓(xùn)練過程不穩(wěn)定;樣本效率比較低。為了解決這些問題我們發(fā)明了一套新的技術(shù),叫做先知教練,它具有完美信息的訪問權(quán),可以看到未來的價格和交易量,不需要去猜,所以可以通過優(yōu)化的手段得到全局最優(yōu)的執(zhí)行策略。
有了先知教練之后,可以用它為基礎(chǔ),利用策略蒸餾的方式,把它的所知所得傳遞給RL智能體,以此提高學(xué)習(xí)智能體的學(xué)習(xí)效率和穩(wěn)定性。
最終實際使用AI模型在線實現(xiàn)訂單交易時,我們當(dāng)然不能使用先知教練,但被完美先知教練調(diào)教出來的智能體已經(jīng)有了很好的表現(xiàn)。
到此為止我向大家介紹了數(shù)據(jù)智能、智能預(yù)測、智能策略、智能交易等研究的進(jìn)展。當(dāng)然,四年的積累遠(yuǎn)比我今天介紹的內(nèi)容多得多,如果大家有興趣,可以通過微軟亞洲研究院創(chuàng)新匯的平臺和我們建立長期的戰(zhàn)略研究合作關(guān)系,共同去探索智能投資的邊界。
最后還想和大家分享一下我關(guān)于智能投資研究與實戰(zhàn)的思考。通過這4年的親身經(jīng)歷,我發(fā)現(xiàn)金融投資的實戰(zhàn)和研究之間存在巨大的鴻溝,很多算法僅在論文里的小型數(shù)據(jù)上有效果,拿到實盤上測試表現(xiàn)就大相徑庭。
其中一部分原因是這些研究者并不了解金融場景特有的實現(xiàn)細(xì)節(jié),缺乏領(lǐng)域知識,缺乏穩(wěn)定公開的數(shù)據(jù)源等等。我們只有填平這個鴻溝,架起連接研究和實戰(zhàn)的橋梁,才能讓學(xué)界和金融業(yè)界共同促進(jìn)智能投資的發(fā)展。
懷著這樣的愿望,我們團(tuán)隊開源了一個項目叫Qlib,是全球第一個智能輔助量化投資的技術(shù)框架。我們采用MIT協(xié)議,將我們的研究環(huán)境,向廣大金融從業(yè)者開放,未來也會逐步將我們的研究成果通過這個平臺進(jìn)行分享。這個開源項目剛剛上線幾個月就得到很多關(guān)注,在GitHub上收獲了超過五千顆星,很多國際知名的投資機(jī)構(gòu)都因為這個項目和我們建立了交流和合作。
那么我們?yōu)槭裁醋鲞@個開源項目呢?它對促進(jìn)金融實戰(zhàn)和研究的融合能夠起到什么作用?
在做金融投資研究的過程中,我們需要構(gòu)建數(shù)據(jù)集,這里其實有非常多的陷阱。比如,左圖所示的幸存者偏差:其實很多股票在歷史上都消失了,今天幸存的股票是比較常見有韌性的股票。
如果我們只關(guān)注存留的股票,忽略當(dāng)時市場上存在的股票,我們學(xué)習(xí)的環(huán)境就會與當(dāng)時的市場不一致,就會出現(xiàn)學(xué)習(xí)的時候不錯,但拿到實盤上損失慘重的情況。
再比如,我們在構(gòu)建數(shù)據(jù)集時,經(jīng)常需要對股票價格進(jìn)行處理。通常有兩種方式,一是前復(fù)權(quán)價格,也就是把歷史股價按除權(quán)后的價格進(jìn)行調(diào)整,二是后復(fù)權(quán)價格,就是將當(dāng)前股價按除權(quán)前的價格進(jìn)行調(diào)整。
其實無論哪一種處理辦法聽起來好像都沒有問題,但是當(dāng)我們把它用于機(jī)器學(xué)習(xí)和人工智能的時候,就會出現(xiàn)一些隱患:
假設(shè)我們使用前復(fù)權(quán),就會把股票未來的走勢通過復(fù)權(quán)的行為融入到歷史數(shù)據(jù)中去,這時學(xué)習(xí)過程中就會出現(xiàn)未來信息泄露的問題,學(xué)到了看似很有效的模型,在真實場景中使用就會出現(xiàn)很大的紕漏。
回測的時候也是一樣,比如很多論文都沒有考慮漲停不可買入,跌停不可賣出的現(xiàn)象,沒有考慮最低交易量的種種限制,所以一旦把這些因素考慮在內(nèi),回測出的超額收益會有非常大幅度的變化。
所以我們認(rèn)為有一套通用的、非常接近實盤操作的開源框架,是促進(jìn)金融投資、智能投資方面的研究和實戰(zhàn)的必由之路。
除了前面提到的幾點以外,Qlib還在其他很多方面做了細(xì)致的工作。當(dāng)然我們不可能面面俱到,所以我們非常期待金融界的同行去試用這個項目,發(fā)現(xiàn)其中的問題,和我們一起把這個做的更好,在學(xué)界和業(yè)界之間架起更加通暢的橋梁。
最后,我想說:金融領(lǐng)域的智能化進(jìn)程剛剛拉開帷幕,雖然我們和合作伙伴一起在AI投資方面進(jìn)行了一些令人鼓舞的研究嘗試,但未來的路還很長。所以,我們呼吁大家一起努力,借助整個AI研究社區(qū)的力量,共同推動金融科技的發(fā)展。聯(lián)手攻克核心技術(shù),才能水漲船高,共同繁榮。謝謝大家!
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。