0
本文作者: 蔣寶尚 | 2020-05-27 18:26 |
2020年2月7日,在第34屆美國(guó)人工智能協(xié)會(huì)年會(huì)AAAI 2020現(xiàn)場(chǎng),深度學(xué)習(xí)三巨頭齊聚,“計(jì)算機(jī)視覺(jué)”與“機(jī)器學(xué)習(xí)”分座兩旁,對(duì)最佳論文虎視眈眈。最終清華大學(xué)與南洋理工大學(xué)的一篇“混合可分割和不可分割商品的公平劃分”文章獲得最佳學(xué)生論文獎(jiǎng)。
論文地址:https://arxiv.org/pdf/1911.07048.pdf
這時(shí)候人們猛然驚醒,原來(lái),深度學(xué)習(xí)已經(jīng)在博弈論和經(jīng)濟(jì)學(xué)領(lǐng)域布局已久,從論文錄取率來(lái)看,每三篇錄取一篇的錄取率已經(jīng)占據(jù)了榜首。這在老牌經(jīng)濟(jì)學(xué)家眼里似乎不可思議,畢竟經(jīng)濟(jì)學(xué)研究的重心不在預(yù)測(cè)方面,而是對(duì)于經(jīng)濟(jì)現(xiàn)象的解釋,經(jīng)濟(jì)運(yùn)作規(guī)律的揭示。具象一些,深度學(xué)習(xí)的黑盒性質(zhì)無(wú)法有效地解釋優(yōu)化好的參數(shù),無(wú)法說(shuō)明參數(shù)對(duì)經(jīng)濟(jì)規(guī)律具體作用機(jī)制。
但是,AI經(jīng)濟(jì)學(xué)家運(yùn)用深度學(xué)習(xí)也有別樣的魅力。
兩級(jí)學(xué)習(xí)框架斯坦福大學(xué)副教授 Richard Socher 開(kāi)發(fā)了一個(gè)包含智能體(工人)和稅收政策(政府)的兩級(jí)強(qiáng)化學(xué)習(xí)框架,用原生態(tài)的經(jīng)濟(jì)環(huán)境來(lái)設(shè)計(jì)稅收政策。
在動(dòng)態(tài)模擬的世界中只設(shè)置了兩種資源:木材和石材,并假設(shè)資源再生的速度有限。工人通過(guò)在世界里隨機(jī)游走收集資源并通過(guò)買賣或者蓋房子賺錢。錢可以帶來(lái)效用(滿足程度),蓋房子付出勞動(dòng)會(huì)降低效用。
另外,給予工人技能不同勞動(dòng)效率不同的假設(shè),工人賺的錢需要繳稅,系統(tǒng)所得稅收在所有工人之間平均分配。
平均分配的機(jī)制對(duì)工人戰(zhàn)略眼光進(jìn)行了要求。當(dāng)模擬世界中的工人以效用最大化為目標(biāo)時(shí),整個(gè)系統(tǒng)出現(xiàn)了這種狀況:低技能的工人自收集和銷售,高技能的工人買材料和建筑。
這種狀況在經(jīng)濟(jì)學(xué)中的術(shù)語(yǔ)是“分工專業(yè)化”,此舉能夠最大化系統(tǒng)的效用。
在整個(gè)模型運(yùn)行的過(guò)程中,用強(qiáng)化學(xué)習(xí)的最佳稅收設(shè)計(jì)作為獎(jiǎng)勵(lì)模式。政策制定者可以設(shè)置稅率影響工人稅后收入水平,工人通過(guò)買賣資源和蓋房子獲得金錢(效用),強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)目標(biāo)是:整體系統(tǒng)效用最大化。
有了這個(gè)獎(jiǎng)勵(lì)目標(biāo),工人和政策制定者的行動(dòng)對(duì)整個(gè)系統(tǒng)帶來(lái)了內(nèi)部循環(huán)和外部循環(huán)兩個(gè)挑戰(zhàn)。
在內(nèi)部循環(huán)中,工人在勞動(dòng)、掙錢、納稅之中不斷調(diào)整自己的行為,如果這時(shí)候給定其一個(gè)固定的稅率,那么問(wèn)題就變成具有固定獎(jiǎng)勵(lì)函數(shù)的標(biāo)準(zhǔn)多智能體強(qiáng)化學(xué)習(xí)問(wèn)題。
在外部循環(huán)中,稅收政策的調(diào)整是為了優(yōu)化社會(huì)目標(biāo)。這就形成了一個(gè)非靜態(tài)的學(xué)習(xí)環(huán)境,在這個(gè)環(huán)境中,強(qiáng)化學(xué)習(xí)中的智能體需要不斷地適應(yīng)不斷變化的效用環(huán)境。
最后,作者發(fā)現(xiàn)通過(guò)使用學(xué)習(xí)稅率表(類似美國(guó)所得稅的征稅方式)和熵正則化等技術(shù),可以找到穩(wěn)定的收斂點(diǎn)。實(shí)驗(yàn)結(jié)果表明,通過(guò)強(qiáng)化學(xué)習(xí)的AI經(jīng)濟(jì)學(xué)家能在提高47%的平等性的同時(shí),只降低11%的生產(chǎn)率。
在虛擬世界中模擬現(xiàn)實(shí)經(jīng)濟(jì)狀況,想法設(shè)計(jì)更好的制度只是AI和經(jīng)濟(jì)學(xué)結(jié)合方式之一。其實(shí)深度強(qiáng)化學(xué)習(xí)在面臨風(fēng)險(xiǎn)參數(shù)和不確定性不斷增加的現(xiàn)實(shí)經(jīng)濟(jì)問(wèn)題時(shí),也可以提供更好的性能和更高的精度。
論文下載:https://arxiv.org/ftp/arxiv/papers/2004/2004.01509.pdf
在論文《經(jīng)濟(jì)學(xué)中的強(qiáng)化學(xué)習(xí)》(Comprehensive Review of Deep Reinforcement Learning Methods and Applications in Economics)中,德累斯頓理工大學(xué)和牛津布魯克斯大學(xué)的研究員們細(xì)數(shù)了強(qiáng)化學(xué)習(xí)在經(jīng)濟(jì)學(xué)中的表現(xiàn)。
通過(guò)對(duì)股票定價(jià)、拍賣機(jī)制、宏觀經(jīng)濟(jì)等12個(gè)領(lǐng)域的調(diào)查,發(fā)現(xiàn)深度學(xué)習(xí)算法比傳統(tǒng)的經(jīng)濟(jì)、統(tǒng)計(jì)學(xué)算法在精確度和穩(wěn)健性發(fā)現(xiàn)要更加優(yōu)秀。
股票價(jià)格有著極強(qiáng)的不確定性和風(fēng)險(xiǎn)性,如果能有模型攻克股價(jià)預(yù)測(cè),無(wú)疑會(huì)給模型建造者帶來(lái)巨額收益。關(guān)于用深度學(xué)習(xí)預(yù)測(cè)股價(jià)的最新進(jìn)展如下表所示。
情緒對(duì)股價(jià)走勢(shì)無(wú)疑非常重要,當(dāng)前的大多數(shù)研究依賴于低效的情緒數(shù)據(jù)集,這往往會(huì)導(dǎo)致模型性能不佳,[68]提出的兩流門控循環(huán)單元發(fā)現(xiàn)比LSTM模型性能更佳。另外他們提出了Stock2Vec嵌入模型,并在使用哈佛IV-4的同時(shí),對(duì)模型的穩(wěn)健性進(jìn)行了市場(chǎng)風(fēng)險(xiǎn)的證明。
[69]提出了一項(xiàng)聚光燈下的深度學(xué)習(xí)技術(shù)(spotlighted deep learning )應(yīng)用于股價(jià)預(yù)測(cè),主要?jiǎng)?chuàng)新點(diǎn)是濾波技術(shù)賦予了深度學(xué)習(xí)模型新穎的輸入特征。
[70]在分析股票價(jià)格模式的同時(shí),利用深度學(xué)習(xí)技術(shù)對(duì)股票價(jià)值流進(jìn)行了預(yù)測(cè),具體是利用時(shí)間序列技術(shù)設(shè)計(jì)了一種DNN深度學(xué)習(xí)算法來(lái)尋找模式,雖然準(zhǔn)確度有86%。但是,DNN存在擬合過(guò)度、復(fù)雜度高等缺點(diǎn),因此建議使用CNN和RNN。
[71]的研究中,采用了一種新的多層深度學(xué)習(xí)方法,利用時(shí)間序列的概念來(lái)表示數(shù)據(jù),從而能夠預(yù)測(cè)當(dāng)前股票的收盤價(jià)。
保險(xiǎn)業(yè)現(xiàn)在面臨的問(wèn)題是,如何有效地管理欺詐檢測(cè)。相應(yīng)的,機(jī)器學(xué)習(xí)技術(shù)針對(duì)此問(wèn)題,逐漸開(kāi)發(fā)了測(cè)量所有類型風(fēng)險(xiǎn)的算法。
[75]等人利用社會(huì)化網(wǎng)絡(luò)分析法檢測(cè)大數(shù)據(jù)集的汽車保險(xiǎn)職業(yè)欺詐。他們用循環(huán)概念構(gòu)建了間接碰撞網(wǎng)絡(luò)( indirect collisions network),在更現(xiàn)實(shí)的市場(chǎng)假設(shè)下,此網(wǎng)絡(luò)能夠識(shí)別可疑的循環(huán),從而獲得更多利潤(rùn)。另外,他們還通過(guò)實(shí)際數(shù)據(jù)得出的造假概率,對(duì)可疑成分的方法進(jìn)行了評(píng)價(jià)。
[76]等人采用LDA和DNNs技術(shù)相結(jié)合的方式提取事故的文本特征,發(fā)現(xiàn)其性能優(yōu)于傳統(tǒng)的方法。另外,為了考慮LDA對(duì)預(yù)測(cè)過(guò)程的影響,他們還在“有LDA”和“無(wú)LDA”兩種情況下,通過(guò)準(zhǔn)確度和精確度性能因子對(duì)結(jié)果進(jìn)行評(píng)估。
[77]等人提出了一種結(jié)合自動(dòng)編碼技術(shù)和遠(yuǎn)程信息處理數(shù)據(jù)值的算法來(lái)預(yù)測(cè)與保險(xiǎn)客戶相關(guān)的風(fēng)險(xiǎn)。
拍賣機(jī)制的核心是:投標(biāo)人需要規(guī)劃出最大化利潤(rùn)的最優(yōu)策略。最新的研究成果如下表所示:
[83]等人在預(yù)算約束和貝葉斯兼容性方面對(duì)[82](增廣拉格朗日法)中的結(jié)果進(jìn)行了擴(kuò)展。他們的方法證明了神經(jīng)網(wǎng)絡(luò)能夠通過(guò)關(guān)注不同估值分布的多重設(shè)置問(wèn)題,有效地設(shè)計(jì)出新穎的最優(yōu)收益拍賣。
[84]等人采用了數(shù)據(jù)為導(dǎo)向的方法。具體方法:假定可以對(duì)每個(gè)投標(biāo)者應(yīng)用多個(gè)投標(biāo)的前提下利用策略專業(yè)知識(shí)。
[85]等人是使用多層神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建了一種有效的拍賣機(jī)制,并應(yīng)用于移動(dòng)區(qū)塊鏈網(wǎng)絡(luò)。
[86]設(shè)計(jì)了一種多投標(biāo)人的兼容拍賣機(jī)制,具體通過(guò)應(yīng)用多層神經(jīng)網(wǎng)絡(luò)對(duì)其機(jī)制進(jìn)行編碼,從而最大化了利潤(rùn)。與基于線性規(guī)劃的方法相比,采用增廣拉格朗日技術(shù)的方法能夠解決更復(fù)雜的任務(wù)。
在網(wǎng)上購(gòu)物和信用卡場(chǎng)景中對(duì)欺詐檢測(cè)要求非常高,當(dāng)前強(qiáng)化學(xué)習(xí)最先進(jìn)的研究成果如下表所示:
[90]應(yīng)用基礎(chǔ)實(shí)驗(yàn)證實(shí)了AE(自動(dòng)編碼)和RBM(玻爾茲曼機(jī))方法能夠在海量數(shù)據(jù)集下準(zhǔn)確地檢測(cè)信用卡的風(fēng)險(xiǎn)。但是深度學(xué)習(xí)在建立模型時(shí)需要利用影響其結(jié)果的不同參數(shù)。
[87]提出的研究設(shè)計(jì)了一種自動(dòng)編碼器算法,建立的高效自動(dòng)化工具可以處理世界各地日常交易。該模型使研究人員可以在不需要使用欠抽樣等數(shù)據(jù)平衡方法的情況下,給出關(guān)于不平衡數(shù)據(jù)集的報(bào)告。
[89]設(shè)計(jì)了一個(gè)使用自然語(yǔ)言處理(NLP)技術(shù)的新框架,能夠形成與各種數(shù)據(jù)源(如新聞和推文)相關(guān)聯(lián)的復(fù)雜機(jī)制,從而有效檢測(cè)洗錢活動(dòng)。
宏觀經(jīng)濟(jì)最重要的問(wèn)題是指標(biāo)預(yù)測(cè),包括失業(yè)率、GDP增長(zhǎng)速率等。采用神經(jīng)網(wǎng)絡(luò)的方法,最新的研究成果如下圖所示:
[92]提出了一種高魯棒性模型——編碼器-解碼器模型,利用深度神經(jīng)架構(gòu)提高失業(yè)問(wèn)題預(yù)測(cè)精度,并且精度要求很低。另外,在此基礎(chǔ)上,其還采用平均絕對(duì)誤差(MAE)值來(lái)評(píng)估結(jié)果。
Haider 和 Hanif [93]構(gòu)建神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)通貨膨脹,其結(jié)果由均方根(RMSE)值來(lái)評(píng)估。
[94]使用前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行戰(zhàn)術(shù)性資產(chǎn)配置,同時(shí)應(yīng)用宏觀經(jīng)濟(jì)指標(biāo)和價(jià)量趨勢(shì)。他們提出了兩種不同的方法來(lái)構(gòu)建投資組合,第一種方法用于估計(jì)預(yù)期收益和不確定性,第二種方法直接利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲得配置,并對(duì)投資組進(jìn)行優(yōu)化。
在金融市場(chǎng)中,有效處理信貸風(fēng)險(xiǎn)至關(guān)重要。由于最近大數(shù)據(jù)技術(shù)的進(jìn)步,深度學(xué)習(xí)模型可以設(shè)計(jì)出可靠的金融模型來(lái)預(yù)測(cè)銀行系統(tǒng)的信用風(fēng)險(xiǎn),最新研究如下表:
[95]使用二進(jìn)制分類技術(shù)給出了選定的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的基本特征。此外,考慮到貸款定價(jià)過(guò)程中的關(guān)鍵特征和算法,此研究分別使用這兩個(gè)模型對(duì)貸款違約概率進(jìn)行了預(yù)測(cè)。
[96]研究的方法可以幫助金融機(jī)構(gòu)以較少的工作量進(jìn)行信用評(píng)估,同時(shí)能夠提高信用評(píng)分和客戶評(píng)級(jí)方面的分類準(zhǔn)確性。另外,還對(duì)線性SVM,CART,k-NN,樸素貝葉斯,MLP和RF技術(shù)的精確度進(jìn)行了比較。
[97]通過(guò)自動(dòng)編碼、校準(zhǔn)、驗(yàn)證等過(guò)程構(gòu)建了一個(gè)資產(chǎn)組合算法,可以應(yīng)用于包括看跌期權(quán)和看漲期權(quán)在內(nèi)的具有標(biāo)的股票的投資組合。
[98]建立了抵押貸款風(fēng)險(xiǎn)的深度學(xué)習(xí)模型,能夠處理龐大的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):受當(dāng)?shù)亟?jīng)濟(jì)狀況影響的變量與債務(wù)人行為之間具有非線性關(guān)系。例如,失業(yè)變量在抵押貸款風(fēng)險(xiǎn)中占有相當(dāng)大的比重。
財(cái)務(wù)問(wèn)題通常需要對(duì)多個(gè)來(lái)源的數(shù)據(jù)集進(jìn)行分析。因此,構(gòu)建一個(gè)可靠的模型來(lái)處理數(shù)據(jù)中的異常值和特征非常重要。最新研究成果如下圖:
[99]設(shè)計(jì)的模型具有提取非線性數(shù)據(jù)模式的能力。他們使用LSTM、自動(dòng)編碼和智能索引等神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)來(lái)估計(jì)證券投資組合的風(fēng)險(xiǎn)。
[100]利用DNN結(jié)構(gòu)對(duì)期權(quán)定價(jià)問(wèn)題進(jìn)行了研究,以相當(dāng)高的精度重構(gòu)了著名的BLACK-SCHOLES期權(quán)定價(jià)模型計(jì)算公式。
[101]結(jié)合交易復(fù)雜性研究了期權(quán)定價(jià)問(wèn)題,其研究目標(biāo)是探索高頻交易方式下的有效投資策略。其中,LSTM-SVR模型應(yīng)用于最終交易的預(yù)測(cè)。
[102]提出了一種新的學(xué)習(xí)遺傳算法,該算法利用R-NN模型來(lái)模擬人類的行為。具體采用了復(fù)雜的深度學(xué)習(xí)結(jié)構(gòu),包括:強(qiáng)化學(xué)習(xí)用于快速?zèng)Q策,深度學(xué)習(xí)用于構(gòu)建股票身份,聚類用于整體決策目的,遺傳用于轉(zhuǎn)移目的。
[103]通過(guò)超參數(shù)的多樣化選擇使模型更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,該模型可以在誤差較小的情況下對(duì)期權(quán)進(jìn)行定價(jià)。
零售用的最多的是增強(qiáng)現(xiàn)實(shí)(AR),此項(xiàng)技術(shù)能夠改善客戶的購(gòu)買體驗(yàn)。最新研究成果如下所示:
[104]在一項(xiàng)研究中將深度學(xué)習(xí)技術(shù)和增強(qiáng)現(xiàn)實(shí)方法相結(jié)合,以便為客戶提供豐富的信息。他們還提出了一個(gè)移動(dòng)應(yīng)用程序,使其能夠通過(guò)深度學(xué)習(xí)中的圖像分類技術(shù)來(lái)定位客戶。
[105]設(shè)計(jì)了一種新的DNN來(lái)準(zhǔn)確預(yù)測(cè)未來(lái)的銷售,該模型使用了一組完全不同的變量,如產(chǎn)品的物理規(guī)格和專家的想法。
[106]等人用CNN回歸模型來(lái)解決評(píng)估商店可用人數(shù)和檢測(cè)關(guān)鍵點(diǎn)的計(jì)數(shù)這兩個(gè)問(wèn)題。
[107]同時(shí)采用k-均值算法和k-近鄰算法,將計(jì)算出的質(zhì)心合并到CNN中,以實(shí)現(xiàn)有效的分離和自適應(yīng)。該模型主要用于驗(yàn)證食品生產(chǎn)日期等相關(guān)信息。
[108]發(fā)展了一項(xiàng)涉及元塑性概念( the concept of meta plasticity)的工作,它具有提高學(xué)習(xí)機(jī)制靈活性的能力,能夠從數(shù)據(jù)中發(fā)現(xiàn)更深層次的有用信息并進(jìn)行學(xué)習(xí)。研究的重點(diǎn)是MLP,在利用客戶數(shù)據(jù)的同時(shí),輸出在BI(商業(yè)智能)中的應(yīng)用。
[109]提出的MLS和SAE相結(jié)合的方法可以用來(lái)對(duì)序列現(xiàn)象中的時(shí)間維進(jìn)行建模,對(duì)于異常情況非常有用,也即業(yè)務(wù)日志中的異常檢測(cè)能力較高。
[31]設(shè)計(jì)了一種新的多層特征選擇,它與堆疊式自動(dòng)編碼器(SAE)交互作用,只檢測(cè)數(shù)據(jù)的關(guān)鍵表示。
[110]使用遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以業(yè)務(wù)流程的方式進(jìn)行預(yù)測(cè),其中RNN的輸入是通過(guò)嵌入空間來(lái)建立的,在論文中還給出了精度驗(yàn)證結(jié)果和該方法的可行性驗(yàn)證結(jié)果。
前面介紹的是深度學(xué)習(xí)在經(jīng)濟(jì)學(xué)領(lǐng)域的應(yīng)用。對(duì)比傳統(tǒng)的深度學(xué)習(xí),深度強(qiáng)化學(xué)習(xí)能夠有效處理高維問(wèn)題。所以,在一些包含高維動(dòng)態(tài)數(shù)據(jù)的經(jīng)濟(jì)學(xué)問(wèn)題上,深度強(qiáng)化學(xué)習(xí)表現(xiàn)更加優(yōu)秀。
由于缺乏處理高維問(wèn)題的能力,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法不足以找到最佳策略。下面是深度強(qiáng)化學(xué)習(xí)的最新研究。
[114]使用深度確定性政策梯度(DDPG)算法作為一種替代方案來(lái)探索動(dòng)態(tài)股票市場(chǎng)中的最優(yōu)策略。算法處理較大的動(dòng)作狀態(tài)空間,兼顧了穩(wěn)定性,消除了樣本相關(guān)性,提高了數(shù)據(jù)利用率。
[115]等人設(shè)計(jì)了一種新的自適應(yīng)深度確定性強(qiáng)化學(xué)習(xí)框架(Adaptive DDPG),用于在動(dòng)態(tài)復(fù)雜的股票市場(chǎng)中發(fā)現(xiàn)最優(yōu)策略。該模型結(jié)合了樂(lè)觀和悲觀的Deep RL(optimistic and pessimistic Deep RL),既依賴于負(fù)的預(yù)測(cè)誤差,也依賴于正的預(yù)測(cè)誤差。
[116]為了分析股票決策機(jī)制的多種算法,在深度RL中進(jìn)行了調(diào)查研究。他們基于DQN、Double DQN和Dueling DQN三個(gè)經(jīng)典模型的實(shí)驗(yàn)結(jié)果表明,其中DQN模型可以獲得更好的投資策略。另外,這項(xiàng)研究還應(yīng)用實(shí)證數(shù)據(jù)對(duì)模型進(jìn)行了驗(yàn)證。
[117]專注于使用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)證券交易中的自動(dòng)振蕩,其中他們使用遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)方法從經(jīng)濟(jì)新聞中預(yù)測(cè)股票價(jià)值。
[118]采用了不同的強(qiáng)化學(xué)習(xí)方法,例如DDPG方法、最近策略優(yōu)化(PPO)方法和PG方法。這些方法能夠獲得與連續(xù)行動(dòng)空間中的金融投資組合相關(guān)的策略。他們結(jié)合中國(guó)資產(chǎn)市場(chǎng)對(duì)模型在不同環(huán)境下的表現(xiàn)進(jìn)行了比較,結(jié)果表明PG模型在股票交易中比其他兩種模型更有利。本研究還提出了一種新穎的對(duì)抗性訓(xùn)練方法,能夠提高訓(xùn)練效率和平均回報(bào)。
[119]研究設(shè)計(jì)了無(wú)模型卷積神經(jīng)網(wǎng)絡(luò)(model-less RNN),其中輸入是來(lái)自加密貨幣交易所的歷史資產(chǎn)價(jià)格,目的是產(chǎn)生一組投資組合權(quán)重。
[15]研究通過(guò)充分利用DPG方法來(lái)引入獎(jiǎng)勵(lì)函數(shù),以優(yōu)化累積收益。模型包含了獨(dú)立評(píng)估器集成拓?fù)浣Y(jié)構(gòu)( Independent Evaluators topology),在權(quán)值分擔(dān)方面結(jié)合了大的神經(jīng)網(wǎng)絡(luò)集。另外,為防止梯度損壞,還采用了投資組合矢量存儲(chǔ)器(Portfolio Vector Memory)。
Yu等人[120]在自動(dòng)交易的意義上設(shè)計(jì)了一種新的基于模型的深度強(qiáng)化學(xué)習(xí)方案,能夠采取行動(dòng)并做出與全局目標(biāo)相關(guān)的順序決策。該模型體系結(jié)構(gòu)包括注入預(yù)測(cè)模塊(IPM)、生成性對(duì)抗性數(shù)據(jù)增強(qiáng)模塊(DAM)和行為克隆模塊(BCM),能夠用于處理設(shè)計(jì)的回溯測(cè)試。
在線服務(wù)主要集中于推薦算法,當(dāng)前的多種推薦方法,如基于內(nèi)容的協(xié)同過(guò)濾(collaborative filtering)、因式分解機(jī)器(factorization machines)、多臂老虎機(jī)等。但是這些方法大多局限于用戶和推薦系統(tǒng)的靜態(tài)交互,并且關(guān)注的是短期獎(jiǎng)勵(lì)。
[121]設(shè)計(jì)的推薦算法使用了行動(dòng)者-批評(píng)者(actor-critic model)模型,可以在連續(xù)的決策過(guò)程中顯式地獲取動(dòng)態(tài)交互和長(zhǎng)期回報(bào)。
[122]重點(diǎn)研究了實(shí)時(shí)競(jìng)價(jià)(RTB)在與用戶行為和競(jìng)價(jià)策略相關(guān)的復(fù)雜隨機(jī)環(huán)境下的付費(fèi)搜索(SS)拍賣。另外,基于阿里巴巴拍賣平臺(tái)的線上線下評(píng)價(jià)的實(shí)證結(jié)果表明了該方法的有效性。
[123]中提出了一種基于電子商務(wù)平臺(tái)的MDP(馬爾科夫鏈決策過(guò)程)框架下的定價(jià)算法。由于能夠有效地應(yīng)對(duì)動(dòng)態(tài)的市場(chǎng)環(huán)境變化,可以設(shè)置與復(fù)雜環(huán)境相關(guān)聯(lián)的有效獎(jiǎng)勵(lì)函數(shù)。
[124]使用DQN( deep Q-network)方案進(jìn)行在線新聞推薦,能夠同時(shí)獲得當(dāng)前和未來(lái)的獎(jiǎng)勵(lì)。本模型在考慮用戶活躍度的同時(shí),還采用Duling Bandit梯度下降法來(lái)提高推薦準(zhǔn)確率。
(雷鋒網(wǎng))、(雷鋒網(wǎng))、(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。