12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

本文作者：蔣寶尚

2020-05-27 18:26

導(dǎo)語：AI經(jīng)濟學(xué)家運用深度學(xué)習(xí)也有別樣的魅力。

2020年2月7日，在第34屆美國人工智能協(xié)會年會AAAI 2020現(xiàn)場，深度學(xué)習(xí)三巨頭齊聚，“計算機視覺”與“機器學(xué)習(xí)”分座兩旁，對最佳論文虎視眈眈。最終清華大學(xué)與南洋理工大學(xué)的一篇“混合可分割和不可分割商品的公平劃分”文章獲得最佳學(xué)生論文獎。

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

論文地址：https://arxiv.org/pdf/1911.07048.pdf

這時候人們猛然驚醒，原來，深度學(xué)習(xí)已經(jīng)在博弈論和經(jīng)濟學(xué)領(lǐng)域布局已久，從論文錄取率來看，每三篇錄取一篇的錄取率已經(jīng)占據(jù)了榜首。這在老牌經(jīng)濟學(xué)家眼里似乎不可思議，畢竟經(jīng)濟學(xué)研究的重心不在預(yù)測方面，而是對于經(jīng)濟現(xiàn)象的解釋，經(jīng)濟運作規(guī)律的揭示。具象一些，深度學(xué)習(xí)的黑盒性質(zhì)無法有效地解釋優(yōu)化好的參數(shù)，無法說明參數(shù)對經(jīng)濟規(guī)律具體作用機制。

但是，AI經(jīng)濟學(xué)家運用深度學(xué)習(xí)也有別樣的魅力。

強化學(xué)習(xí)之于稅收設(shè)計

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

兩級學(xué)習(xí)框架斯坦福大學(xué)副教授 Richard Socher 開發(fā)了一個包含智能體（工人）和稅收政策（政府）的兩級強化學(xué)習(xí)框架，用原生態(tài)的經(jīng)濟環(huán)境來設(shè)計稅收政策。

在動態(tài)模擬的世界中只設(shè)置了兩種資源：木材和石材，并假設(shè)資源再生的速度有限。工人通過在世界里隨機游走收集資源并通過買賣或者蓋房子賺錢。錢可以帶來效用（滿足程度），蓋房子付出勞動會降低效用。

另外，給予工人技能不同勞動效率不同的假設(shè)，工人賺的錢需要繳稅，系統(tǒng)所得稅收在所有工人之間平均分配。

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

平均分配的機制對工人戰(zhàn)略眼光進行了要求。當(dāng)模擬世界中的工人以效用最大化為目標(biāo)時，整個系統(tǒng)出現(xiàn)了這種狀況：低技能的工人自收集和銷售，高技能的工人買材料和建筑。

這種狀況在經(jīng)濟學(xué)中的術(shù)語是“分工專業(yè)化”，此舉能夠最大化系統(tǒng)的效用。

在整個模型運行的過程中，用強化學(xué)習(xí)的最佳稅收設(shè)計作為獎勵模式。政策制定者可以設(shè)置稅率影響工人稅后收入水平，工人通過買賣資源和蓋房子獲得金錢（效用），強化學(xué)習(xí)獎勵目標(biāo)是：整體系統(tǒng)效用最大化。

有了這個獎勵目標(biāo)，工人和政策制定者的行動對整個系統(tǒng)帶來了內(nèi)部循環(huán)和外部循環(huán)兩個挑戰(zhàn)。

在內(nèi)部循環(huán)中，工人在勞動、掙錢、納稅之中不斷調(diào)整自己的行為，如果這時候給定其一個固定的稅率，那么問題就變成具有固定獎勵函數(shù)的標(biāo)準(zhǔn)多智能體強化學(xué)習(xí)問題。

在外部循環(huán)中，稅收政策的調(diào)整是為了優(yōu)化社會目標(biāo)。這就形成了一個非靜態(tài)的學(xué)習(xí)環(huán)境，在這個環(huán)境中，強化學(xué)習(xí)中的智能體需要不斷地適應(yīng)不斷變化的效用環(huán)境。

最后，作者發(fā)現(xiàn)通過使用學(xué)習(xí)稅率表（類似美國所得稅的征稅方式）和熵正則化等技術(shù)，可以找到穩(wěn)定的收斂點。實驗結(jié)果表明，通過強化學(xué)習(xí)的AI經(jīng)濟學(xué)家能在提高47%的平等性的同時，只降低11%的生產(chǎn)率。

在虛擬世界中模擬現(xiàn)實經(jīng)濟狀況，想法設(shè)計更好的制度只是AI和經(jīng)濟學(xué)結(jié)合方式之一。其實深度強化學(xué)習(xí)在面臨風(fēng)險參數(shù)和不確定性不斷增加的現(xiàn)實經(jīng)濟問題時，也可以提供更好的性能和更高的精度。

深度學(xué)習(xí)在經(jīng)濟學(xué)中的應(yīng)用

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

論文下載：https://arxiv.org/ftp/arxiv/papers/2004/2004.01509.pdf

在論文《經(jīng)濟學(xué)中的強化學(xué)習(xí)》（Comprehensive Review of Deep Reinforcement Learning Methods and Applications in Economics）中，德累斯頓理工大學(xué)和牛津布魯克斯大學(xué)的研究員們細數(shù)了強化學(xué)習(xí)在經(jīng)濟學(xué)中的表現(xiàn)。

通過對股票定價、拍賣機制、宏觀經(jīng)濟等12個領(lǐng)域的調(diào)查，發(fā)現(xiàn)深度學(xué)習(xí)算法比傳統(tǒng)的經(jīng)濟、統(tǒng)計學(xué)算法在精確度和穩(wěn)健性發(fā)現(xiàn)要更加優(yōu)秀。

1、深度學(xué)習(xí)下的股票定價

股票價格有著極強的不確定性和風(fēng)險性，如果能有模型攻克股價預(yù)測，無疑會給模型建造者帶來巨額收益。關(guān)于用深度學(xué)習(xí)預(yù)測股價的最新進展如下表所示。

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

情緒對股價走勢無疑非常重要，當(dāng)前的大多數(shù)研究依賴于低效的情緒數(shù)據(jù)集，這往往會導(dǎo)致模型性能不佳，[68]提出的兩流門控循環(huán)單元發(fā)現(xiàn)比LSTM模型性能更佳。另外他們提出了Stock2Vec嵌入模型，并在使用哈佛IV-4的同時，對模型的穩(wěn)健性進行了市場風(fēng)險的證明。

[69]提出了一項聚光燈下的深度學(xué)習(xí)技術(shù)（spotlighted deep learning ）應(yīng)用于股價預(yù)測，主要創(chuàng)新點是濾波技術(shù)賦予了深度學(xué)習(xí)模型新穎的輸入特征。

[70]在分析股票價格模式的同時，利用深度學(xué)習(xí)技術(shù)對股票價值流進行了預(yù)測，具體是利用時間序列技術(shù)設(shè)計了一種DNN深度學(xué)習(xí)算法來尋找模式，雖然準(zhǔn)確度有86%。但是，DNN存在擬合過度、復(fù)雜度高等缺點，因此建議使用CNN和RNN。

[71]的研究中，采用了一種新的多層深度學(xué)習(xí)方法，利用時間序列的概念來表示數(shù)據(jù)，從而能夠預(yù)測當(dāng)前股票的收盤價。

2、深度學(xué)習(xí)下的保險業(yè)

保險業(yè)現(xiàn)在面臨的問題是，如何有效地管理欺詐檢測。相應(yīng)的，機器學(xué)習(xí)技術(shù)針對此問題，逐漸開發(fā)了測量所有類型風(fēng)險的算法。

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[75]等人利用社會化網(wǎng)絡(luò)分析法檢測大數(shù)據(jù)集的汽車保險職業(yè)欺詐。他們用循環(huán)概念構(gòu)建了間接碰撞網(wǎng)絡(luò)（ indirect collisions network），在更現(xiàn)實的市場假設(shè)下，此網(wǎng)絡(luò)能夠識別可疑的循環(huán)，從而獲得更多利潤。另外，他們還通過實際數(shù)據(jù)得出的造假概率，對可疑成分的方法進行了評價。

[76]等人采用LDA和DNNs技術(shù)相結(jié)合的方式提取事故的文本特征，發(fā)現(xiàn)其性能優(yōu)于傳統(tǒng)的方法。另外，為了考慮LDA對預(yù)測過程的影響，他們還在“有LDA”和“無LDA”兩種情況下，通過準(zhǔn)確度和精確度性能因子對結(jié)果進行評估。

[77]等人提出了一種結(jié)合自動編碼技術(shù)和遠程信息處理數(shù)據(jù)值的算法來預(yù)測與保險客戶相關(guān)的風(fēng)險。

3、深度學(xué)習(xí)下的拍賣機制

拍賣機制的核心是：投標(biāo)人需要規(guī)劃出最大化利潤的最優(yōu)策略。最新的研究成果如下表所示：

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[83]等人在預(yù)算約束和貝葉斯兼容性方面對[82]（增廣拉格朗日法）中的結(jié)果進行了擴展。他們的方法證明了神經(jīng)網(wǎng)絡(luò)能夠通過關(guān)注不同估值分布的多重設(shè)置問題，有效地設(shè)計出新穎的最優(yōu)收益拍賣。

[84]等人采用了數(shù)據(jù)為導(dǎo)向的方法。具體方法：假定可以對每個投標(biāo)者應(yīng)用多個投標(biāo)的前提下利用策略專業(yè)知識。

[85]等人是使用多層神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建了一種有效的拍賣機制，并應(yīng)用于移動區(qū)塊鏈網(wǎng)絡(luò)。

[86]設(shè)計了一種多投標(biāo)人的兼容拍賣機制，具體通過應(yīng)用多層神經(jīng)網(wǎng)絡(luò)對其機制進行編碼，從而最大化了利潤。與基于線性規(guī)劃的方法相比，采用增廣拉格朗日技術(shù)的方法能夠解決更復(fù)雜的任務(wù)。

4、深度學(xué)習(xí)下的銀行和在線市場

在網(wǎng)上購物和信用卡場景中對欺詐檢測要求非常高，當(dāng)前強化學(xué)習(xí)最先進的研究成果如下表所示：

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[90]應(yīng)用基礎(chǔ)實驗證實了AE（自動編碼）和RBM（玻爾茲曼機）方法能夠在海量數(shù)據(jù)集下準(zhǔn)確地檢測信用卡的風(fēng)險。但是深度學(xué)習(xí)在建立模型時需要利用影響其結(jié)果的不同參數(shù)。

[87]提出的研究設(shè)計了一種自動編碼器算法，建立的高效自動化工具可以處理世界各地日常交易。該模型使研究人員可以在不需要使用欠抽樣等數(shù)據(jù)平衡方法的情況下，給出關(guān)于不平衡數(shù)據(jù)集的報告。

[89]設(shè)計了一個使用自然語言處理(NLP)技術(shù)的新框架，能夠形成與各種數(shù)據(jù)源（如新聞和推文）相關(guān)聯(lián)的復(fù)雜機制，從而有效檢測洗錢活動。

5、深度學(xué)習(xí)下的宏觀經(jīng)濟

宏觀經(jīng)濟最重要的問題是指標(biāo)預(yù)測，包括失業(yè)率、GDP增長速率等。采用神經(jīng)網(wǎng)絡(luò)的方法，最新的研究成果如下圖所示：

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[92]提出了一種高魯棒性模型——編碼器-解碼器模型，利用深度神經(jīng)架構(gòu)提高失業(yè)問題預(yù)測精度，并且精度要求很低。另外，在此基礎(chǔ)上，其還采用平均絕對誤差（MAE）值來評估結(jié)果。

Haider 和 Hanif [93]構(gòu)建神經(jīng)網(wǎng)絡(luò)預(yù)測通貨膨脹，其結(jié)果由均方根（RMSE）值來評估。

[94]使用前饋神經(jīng)網(wǎng)絡(luò)進行戰(zhàn)術(shù)性資產(chǎn)配置，同時應(yīng)用宏觀經(jīng)濟指標(biāo)和價量趨勢。他們提出了兩種不同的方法來構(gòu)建投資組合，第一種方法用于估計預(yù)期收益和不確定性，第二種方法直接利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲得配置，并對投資組進行優(yōu)化。

6、金融市場中的深度學(xué)習(xí)

在金融市場中，有效處理信貸風(fēng)險至關(guān)重要。由于最近大數(shù)據(jù)技術(shù)的進步，深度學(xué)習(xí)模型可以設(shè)計出可靠的金融模型來預(yù)測銀行系統(tǒng)的信用風(fēng)險，最新研究如下表：

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[95]使用二進制分類技術(shù)給出了選定的機器學(xué)習(xí)和深度學(xué)習(xí)模型的基本特征。此外，考慮到貸款定價過程中的關(guān)鍵特征和算法，此研究分別使用這兩個模型對貸款違約概率進行了預(yù)測。

[96]研究的方法可以幫助金融機構(gòu)以較少的工作量進行信用評估，同時能夠提高信用評分和客戶評級方面的分類準(zhǔn)確性。另外，還對線性SVM，CART，k-NN，樸素貝葉斯，MLP和RF技術(shù)的精確度進行了比較。

[97]通過自動編碼、校準(zhǔn)、驗證等過程構(gòu)建了一個資產(chǎn)組合算法，可以應(yīng)用于包括看跌期權(quán)和看漲期權(quán)在內(nèi)的具有標(biāo)的股票的投資組合。

[98]建立了抵押貸款風(fēng)險的深度學(xué)習(xí)模型，能夠處理龐大的數(shù)據(jù)集。實驗結(jié)果發(fā)現(xiàn)：受當(dāng)?shù)亟?jīng)濟狀況影響的變量與債務(wù)人行為之間具有非線性關(guān)系。例如，失業(yè)變量在抵押貸款風(fēng)險中占有相當(dāng)大的比重。

7、深度學(xué)習(xí)下的投資

財務(wù)問題通常需要對多個來源的數(shù)據(jù)集進行分析。因此，構(gòu)建一個可靠的模型來處理數(shù)據(jù)中的異常值和特征非常重要。最新研究成果如下圖：

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[99]設(shè)計的模型具有提取非線性數(shù)據(jù)模式的能力。他們使用LSTM、自動編碼和智能索引等神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)來估計證券投資組合的風(fēng)險。

[100]利用DNN結(jié)構(gòu)對期權(quán)定價問題進行了研究，以相當(dāng)高的精度重構(gòu)了著名的BLACK-SCHOLES期權(quán)定價模型計算公式。

[101]結(jié)合交易復(fù)雜性研究了期權(quán)定價問題，其研究目標(biāo)是探索高頻交易方式下的有效投資策略。其中，LSTM-SVR模型應(yīng)用于最終交易的預(yù)測。

[102]提出了一種新的學(xué)習(xí)遺傳算法，該算法利用R-NN模型來模擬人類的行為。具體采用了復(fù)雜的深度學(xué)習(xí)結(jié)構(gòu)，包括：強化學(xué)習(xí)用于快速決策，深度學(xué)習(xí)用于構(gòu)建股票身份，聚類用于整體決策目的，遺傳用于轉(zhuǎn)移目的。

[103]通過超參數(shù)的多樣化選擇使模型更加準(zhǔn)確。實驗結(jié)果表明，該模型可以在誤差較小的情況下對期權(quán)進行定價。

8、深度學(xué)習(xí)和零售

零售用的最多的是增強現(xiàn)實（AR），此項技術(shù)能夠改善客戶的購買體驗。最新研究成果如下所示：

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[104]在一項研究中將深度學(xué)習(xí)技術(shù)和增強現(xiàn)實方法相結(jié)合，以便為客戶提供豐富的信息。他們還提出了一個移動應(yīng)用程序，使其能夠通過深度學(xué)習(xí)中的圖像分類技術(shù)來定位客戶。

[105]設(shè)計了一種新的DNN來準(zhǔn)確預(yù)測未來的銷售，該模型使用了一組完全不同的變量，如產(chǎn)品的物理規(guī)格和專家的想法。

[106]等人用CNN回歸模型來解決評估商店可用人數(shù)和檢測關(guān)鍵點的計數(shù)這兩個問題。

[107]同時采用k-均值算法和k-近鄰算法，將計算出的質(zhì)心合并到CNN中，以實現(xiàn)有效的分離和自適應(yīng)。該模型主要用于驗證食品生產(chǎn)日期等相關(guān)信息。

9、深度學(xué)習(xí)下的商業(yè)智能

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[108]發(fā)展了一項涉及元塑性概念（ the concept of meta plasticity）的工作，它具有提高學(xué)習(xí)機制靈活性的能力，能夠從數(shù)據(jù)中發(fā)現(xiàn)更深層次的有用信息并進行學(xué)習(xí)。研究的重點是MLP，在利用客戶數(shù)據(jù)的同時，輸出在BI（商業(yè)智能）中的應(yīng)用。

[109]提出的MLS和SAE相結(jié)合的方法可以用來對序列現(xiàn)象中的時間維進行建模，對于異常情況非常有用，也即業(yè)務(wù)日志中的異常檢測能力較高。

[31]設(shè)計了一種新的多層特征選擇，它與堆疊式自動編碼器(SAE)交互作用，只檢測數(shù)據(jù)的關(guān)鍵表示。

[110]使用遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以業(yè)務(wù)流程的方式進行預(yù)測，其中RNN的輸入是通過嵌入空間來建立的，在論文中還給出了精度驗證結(jié)果和該方法的可行性驗證結(jié)果。

強化學(xué)習(xí)在高維經(jīng)濟學(xué)問題中的應(yīng)用

前面介紹的是深度學(xué)習(xí)在經(jīng)濟學(xué)領(lǐng)域的應(yīng)用。對比傳統(tǒng)的深度學(xué)習(xí)，深度強化學(xué)習(xí)能夠有效處理高維問題。所以，在一些包含高維動態(tài)數(shù)據(jù)的經(jīng)濟學(xué)問題上，深度強化學(xué)習(xí)表現(xiàn)更加優(yōu)秀。

1、深度強化學(xué)習(xí)下的股票交易

由于缺乏處理高維問題的能力，傳統(tǒng)強化學(xué)習(xí)方法不足以找到最佳策略。下面是深度強化學(xué)習(xí)的最新研究。

12個場景應(yīng)用，百余種算法，AI是如何攻占經(jīng)濟學(xué)的？

[114]使用深度確定性政策梯度(DDPG)算法作為一種替代方案來探索動態(tài)股票市場中的最優(yōu)策略。算法處理較大的動作狀態(tài)空間，兼顧了穩(wěn)定性，消除了樣本相關(guān)性，提高了數(shù)據(jù)利用率。

[115]等人設(shè)計了一種新的自適應(yīng)深度確定性強化學(xué)習(xí)框架(Adaptive DDPG)，用于在動態(tài)復(fù)雜的股票市場中發(fā)現(xiàn)最優(yōu)策略。該模型結(jié)合了樂觀和悲觀的Deep RL（optimistic and pessimistic Deep RL），既依賴于負的預(yù)測誤差，也依賴于正的預(yù)測誤差。

[116]為了分析股票決策機制的多種算法，在深度RL中進行了調(diào)查研究。他們基于DQN、Double DQN和Dueling DQN三個經(jīng)典模型的實驗結(jié)果表明，其中DQN模型可以獲得更好的投資策略。另外，這項研究還應(yīng)用實證數(shù)據(jù)對模型進行了驗證。

[117]專注于使用深度強化學(xué)習(xí)實現(xiàn)證券交易中的自動振蕩，其中他們使用遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)方法從經(jīng)濟新聞中預(yù)測股票價值。

2、深度強化學(xué)習(xí)下的投資組合管理

[118]采用了不同的強化學(xué)習(xí)方法，例如DDPG方法、最近策略優(yōu)化(PPO)方法和PG方法。這些方法能夠獲得與連續(xù)行動空間中的金融投資組合相關(guān)的策略。他們結(jié)合中國資產(chǎn)市場對模型在不同環(huán)境下的表現(xiàn)進行了比較，結(jié)果表明PG模型在股票交易中比其他兩種模型更有利。本研究還提出了一種新穎的對抗性訓(xùn)練方法，能夠提高訓(xùn)練效率和平均回報。

[119]研究設(shè)計了無模型卷積神經(jīng)網(wǎng)絡(luò)(model-less RNN)，其中輸入是來自加密貨幣交易所的歷史資產(chǎn)價格，目的是產(chǎn)生一組投資組合權(quán)重。

[15]研究通過充分利用DPG方法來引入獎勵函數(shù)，以優(yōu)化累積收益。模型包含了獨立評估器集成拓撲結(jié)構(gòu)（ Independent Evaluators topology），在權(quán)值分擔(dān)方面結(jié)合了大的神經(jīng)網(wǎng)絡(luò)集。另外，為防止梯度損壞，還采用了投資組合矢量存儲器(Portfolio Vector Memory)。

Yu等人[120]在自動交易的意義上設(shè)計了一種新的基于模型的深度強化學(xué)習(xí)方案，能夠采取行動并做出與全局目標(biāo)相關(guān)的順序決策。該模型體系結(jié)構(gòu)包括注入預(yù)測模塊(IPM)、生成性對抗性數(shù)據(jù)增強模塊(DAM)和行為克隆模塊(BCM)，能夠用于處理設(shè)計的回溯測試。

3、深度強化學(xué)習(xí)下的在線服務(wù)

在線服務(wù)主要集中于推薦算法，當(dāng)前的多種推薦方法，如基于內(nèi)容的協(xié)同過濾（collaborative filtering）、因式分解機器（factorization machines）、多臂老虎機等。但是這些方法大多局限于用戶和推薦系統(tǒng)的靜態(tài)交互，并且關(guān)注的是短期獎勵。