0
本文作者: 袁峻峰 | 2017-01-12 20:50 |
雷鋒網(wǎng)按:本文作者袁峻峰,花名觀妙,螞蟻金服人工智能部,復旦金融學碩士,F(xiàn)RM金融風險管理師。10年以上從事金融IT相關領域工作經(jīng)驗,包括國內(nèi)銀行間市場金融產(chǎn)品(包括衍生產(chǎn)品)的量化分析、市場風險管理以及相關系統(tǒng)實現(xiàn)等。目前從事并關注于金融領域機器學習相關主題與應用,歡迎探討。
對于閑聊機器人來說,如果告訴其你失戀了,能回個“藍瘦,香菇”。那這聊天機器人挺牛。一定是經(jīng)常更新訓練數(shù)據(jù),與時俱進。但回過來一想,求之不得的憂傷,恒久遠已,天下之才獨占八斗并且貴不可言的陳思王曹植,不也因為求不得寫了篇《洛神賦》。詩經(jīng)中也有“漢有游女 不可求思”, ”求之不得 寤寐思服”的句子。王菲的歌詞中也有”思念是一種很玄的東西,如影隨形,無聲又無息出沒在心底,轉眼吞沒我在寂默里,我無力抗拒,特別是夜里,想你到無法呼吸”。這么多樣的表達。情感是難以描述的,“我們的精神狀態(tài)是如此復雜,只能以類比的方式來描述”[1],中國歷來的文人墨客最是擅長比興手法,我們不排除“藍瘦,香菇”是一種表達,但中文中那么更優(yōu)美的表達也不該忽略。而按目前基于大量聊天樣本,當客戶反饋時既為正樣本,通過深度學習RNN之類的模型解決Sequence2Sequence的問題。如能學到一個機智對話的蠟筆小新已是很贊,而且目前也還有很長的路。
那我們?nèi)鐚⑻囟I域的問題答案做成樣本,同樣將其看做Sequence2Sequence映射問題。通過深度學習模型去擬合這個復雜映射函數(shù)。且不說這是個有多少人工就有多少智能的方案。可以想象這種方式《棋魂》中的佐為肯定也是訓練不出來的。
一 、理想中的智能助理
“人工智能助理:這里指的是Intelligent personal assistant/agent (IPA) ,指幫助個人完成多項任務或多項服務的虛擬助理”[2],如何幫助?在文章[2]中,提出對話式助理至少滿足這幾點功能:”具備基于上下文的對話能力,具備理解口語中的邏輯,所有能理解的需求,都要有能力履行。”[2]但這樣幫助就夠了嗎?能不能像YY玄幻小說中的深山偶獲老法師靈體,之后在你修行中的方方面面問題中提供指導。喬布斯在一次訪談中提到”我認為展望未來50至100年,如果我們真能開發(fā)出一款設備,它可以捕捉潛在精神,或者一套潛在的原則,或者是潛在的看待世界的方式,這樣當下一個亞里士多德出現(xiàn)的時候……也許他可以隨身攜帶這款設備,將所有東西都輸入其中。這樣當這個人死后,我們就可以問這款設備‘喂,對此亞里士多德會怎么說?’,我們得到的答案或許是錯誤的,或許是正確。但是想到此我就已經(jīng)很激動了?!边@應該也是指通過人工智能借助于大師、領域專家的經(jīng)驗為各樣的決策提供建議。那是不是理想中的智能助理定位是在收集各樣信息的基礎上,結合其強大的計算能力和人類已有的決策樣本數(shù)據(jù)提供預測與決策建議呢?
前幾天,AlphaGo升級版Master最終以60勝0負的成績在快棋戰(zhàn)橫掃中日韓三國頂尖棋手。聶衛(wèi)平賽后說:“Master顛覆了多年的定式。而且最后證明它的選擇都成立。” 柯潔九段也表示:“從來沒見過這樣的招法,圍棋還能這么下?看Master的招法,等于說以前學的圍棋都是錯誤的,原來學棋的時候要被罵的招法現(xiàn)在Master都下出來了。” 李喆在賽后總結“每盤棋里,AI大部分的招,都和人類棋手的想法接近。體現(xiàn)了人類經(jīng)驗仍然具有有效性。。。人無法完全做全局運算,因此會因經(jīng)驗局限性而錯失對當前盤面的針對性”??上攵Y合了人類經(jīng)驗(樣本數(shù)據(jù)),加上計算機強大的計算能力,在圍棋這樣的完全信息博弈游戲領域必然橫掃頂尖棋手。
那在非完全信息博弈領域呢? “撲克這類不完全信息擴展式博弈以其隨機性、信息不完全可見性、博弈規(guī)模大等特征”[4]是不是可以阻擋人工智能的腳步。答案是乎也是否定的?!坝煽突仿〈髮W(CMU)開發(fā)的名為 Libratus 的人工智能系統(tǒng)即將開始一場新的挑戰(zhàn):試圖在一對一、無限制投注的規(guī)則下?lián)魯∈澜缱顝姷娜祟惖轮輷淇送婕??!?sup>[5]借助于博弈論與強化學習等模型以及專業(yè)玩家的樣本數(shù)據(jù),結合計算的強大計算能力,在這一領域的游戲中人工智能終也將完勝人類。
二、理想中的提供預測與決策建議智能助理的可行嗎?
如此看來,是乎是可行的。不過還是先聽聽人工智能領域先驅馬文·明斯基等人的意見。
莫拉維克悖論
百度百科中描述:莫拉維克悖論(Moravec's paradox)是由漢斯·莫拉維克、布魯克斯、馬文·明斯基等人于1980年代所闡釋。人類所獨有的高階智慧能力只需要非常少的計算能力,例如推理,但是無意識的技能和直覺卻需要極大的運算能力。如莫拉維克所寫“要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的?!?/p>
馬文·明斯基在其著作《情感機器》[1]中討論了人類大腦思維運行方式,嘗試設計能理解、會思考的人工智能,也討論為什么會有莫拉維克悖論。書中明斯基提出“所有的現(xiàn)代程序都不具備常識性知識(Commonsense Knowledge)”[1]所以會給人感覺有時不夠智能。這些常識性知識和推理包括[1]:
正面經(jīng)驗(Positive Expertise):知道在哪種情況下該使用哪種類型知識。
負面經(jīng)驗(Negative Expertise):知道不該采取哪種行動,因為可能會使事情變得更糟。
調試技能(Debugging Skills):當常規(guī)方法不再適用時,還有其他可供選擇的方法。
適應技能(Adaptive Skills):知道這樣把原有知識應用到新情況之中。
明斯基提出了框架表示常識的結構化知識表示。這屬于機器學習中的符號主義(Symbolists),不同與當前聯(lián)結主義(Connectionists)的深度學習。目前該領域還在探索期,已有一些基于知識圖譜方面應用。并且這些常識性知識和推理難以在深度學習模型中得到解決。遷移學習也是試圖在聯(lián)結主義框架下將通用領域的訓練結果遷移到特定領域,目前也還在探索期。
來源:情感機器[1]
“專家是一位無須思考就知道結果的人”[1],所謂常識可以認為是一種直覺。愛迪生說過“天才就是99%的汗水+1%的靈感,但沒有這1%的靈感那99%的汗水也是徒勞”,靈感既大師在決策時的直覺。“郝伯特·西蒙對比過國際象棋世界冠軍十年間不同的下法,認為這是這是全部職業(yè)強選手的集體經(jīng)驗而積累起來的知識的結果。專家和新手區(qū)分不僅僅是前者具有大量和多樣的信息,而且是他的直覺經(jīng)驗使他能發(fā)現(xiàn)他所面對的形勢中的熟悉模式,長期記憶中儲存大量的棋子的共同模式,通過識別這些模式,從長期記憶中重新找到大量相關信息?!?sup>[5],這些并不需要大量復雜的全局計算,而“AlphaGo中使用蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS)結合估值網(wǎng)絡(Value Network)來做可選方案集合選取?!?sup>[6] 兩者完全是不同的途徑。目前要讓人工智能有如小孩般的學習能力與通用常識都很遙遠。更別說像大師、領域專家為各樣的決策提供建議。扎克伯格在搭建他的智能助理Jarvis時也說“我們距離了解學習的本質仍然很遙遠,我們?nèi)匀徊恢缹⑷绾螐囊粋€領域中獲得的想法應用到另一個完全不同的領域中去?!?sup>[7]
數(shù)據(jù),樣本在哪里?
另一個問題是,目前的深度學習需要端到端的樣本數(shù)據(jù)。AlphaGo是使用段位以上圍棋專業(yè)棋手對弈樣本,并通過自我對弈擴大樣本數(shù)。而智能助理面對個人方方面面的任務、事件,更加無法得到那些專業(yè)的正樣本數(shù)據(jù)。并且每個助理面對客戶的情況都是不同的,個體都是獨立的,不可能得到訓練所需的樣本數(shù)據(jù)。
不可能獲得實質理性所需的全局信息
羅振宇在跨年演講中說道“在人工智能邏輯里,它不關心人類對一件事情的定義,但是它可以輸出你要的答案。只要有大量的數(shù)據(jù),它就能用跟人完全不同的思路,達到同樣的結果?!闭媸侨绱藛??筆者并不認同,人工智能是和人的思維不同,但不等于有大量數(shù)據(jù)就能得到同樣效果或更好效果。因為“我們知道,通過深度學習和大數(shù)據(jù),一定能得到一個更優(yōu)的模式識別效果。但前提是我們假設未來和歷史特征向量是符合同一概率分布。未來當然不會和歷史是同一概率分布,就像彼得·林奇說的‘你無法從后視鏡中看到未來?!艘舱f過‘我們做出的預測有可能被否定,因為他們只具有經(jīng)驗的意義。’”[6]哈耶克舉過一個例子,對一場足球比賽,如果我們熟悉球賽,了解球隊,并可以監(jiān)測賽場上每一刻球員狀態(tài)包括心肺、肌肉等等,但球賽的結果還是超出了科學預測的范圍。因為我們的基于經(jīng)驗的預測能力也僅限于事件的一般特點,并不包括預測每個具體事件的能力。所以即使有足夠的數(shù)據(jù),機器也不一定能得出比從1990年起每次國足比賽都押輸更牛逼的策略。
另外一點是,智能助理能得到每個具體事件決策所需要的所有信息嗎?即使人類生活在《黑客帝國》電影中的Matrix,其中的機器人主宰也不是能掌控所有信息,如電影所說總有些自由意志是不可知。哈耶克說過“社會的經(jīng)濟問題就是一個知識利用的問題,而這種知識并沒有完整的給予任何一個人”。所以即使在大數(shù)據(jù)時代也不可能獲得全局知識與信息。
三、智能助理該做什么
既然智能助理定位不是在收集各樣信息的基礎上,結合其強大的計算能力和人類已有的決策樣本數(shù)據(jù)提供預測與決策建議。那是不是可以退一步,定位在收集各樣信息,并輔助人類決策呢?根據(jù)諾貝爾經(jīng)濟學獎,圖靈獎獲得者郝伯特·西蒙的不確定性環(huán)境下決策理論:應當是有限的理性,而不是全知全能的理性;應當是過程合理性,而不是本質合理性。過程理性決策步驟可以參考文章[6]中描述。再結合智能助理的定位,我們可以設想智能助理需要實現(xiàn)如下功能:
前提:客戶信息收集以及相關領域信息收集
“具備基于上下文的對話能力,具備理解口語中的邏輯”[2].
提供決策相關信息以及可選方案集。
在特定領域輔助履行。
決策后跟蹤相關信息,獲得新數(shù)據(jù),是持續(xù)優(yōu)化決策的過程。
前提:客戶信息收集以及相關領域信息收集
智能助理需要收集客戶的個人信息,這不只是千人千面的客戶標簽畫像,而是認為每個人都是獨立的個體。電影《Her》中人工智能薩曼莎是位稱職的智能助理,她被啟動后立即申請是掃描主人公的硬盤。在扎克伯格的Jarvis 不但控制了他家的全部家電、門禁,還包括收集個人生活偏好?!耙粋€AI系統(tǒng)就能越好地處理開放式問題。我經(jīng)常只對Jarvis說‘播放音樂’,它會查看我過去的聽歌習慣”[7]。授權智能助理收集個人信息的前提是信任,使用者必須相信電影《Her》中智能助理薩曼莎同時和8316個人溝通同時,每個智能助理都是獨立的并能保護每位使用者個人隱私。
這些天北京又持續(xù)爆表霧霾,是否要讓孩子離開北京,是很多家長非常糾結的問題。吳曉波在文章[8]中為賣房去大理的寬寬做了一個財務規(guī)劃。如果這個問題提給智能助理,其需要收集寬寬當前財務以及房產(chǎn)情況,并以寬寬的名義詢問各銀行二手房按揭利率信息,以及了解大理房價信息,是否有購房限制等等。這些都是智能助理需要收集領域知識與信息。
提供決策相關信息以及可選方案集
參考文章[8],在寬寬提出移居大理后,智能助理應該根據(jù)之前收集的信息給出以下兩個方案:
1)賣房530萬,購大理房一次性付款130萬元。400萬理財。
2)抵押房子給最優(yōu)貸款條件的銀行,貸款利率5.4%,拿到159萬元買大理房。每年需支出利息8.58萬元,房屋租金9.6萬元。
如何抉擇并不是智能助理的職責。寬寬可以聽從吳曉波基于他的專家經(jīng)驗,認為“人民幣正處在一個不可逆轉的貶值周期中…最保守的計算,未來M2維持年均10%的增速”[8]得出結論是“所以,請你“拋棄”北京的時候,盡量不要拋棄北京的房子。”[8]。但寬寬也可以認為既然人民幣正處在一個不可逆轉的貶值周期中,那將400萬換成美元理財、基金。如果房價未來以美元計價跌了,那么她再買回來。又或是她在大理找到更加明確的人生的真諦,選擇了新的生活方式,不愿再回北京,那北京房價再高也和她沒有關系。這些都是她的決定,無法讓智能助理代其抉擇,但智能助理可以提供方案以及可能的后果。
在特定領域輔助履行
在電影《Her》智能助理薩曼莎在評價主人公文章的價值后,將其文章發(fā)給出版社編輯從而得以出版。忽略其中代替決策的部分,能知道如何在特定領域輔助履行決策已是很難。就和知道特定領域收集什么信息一樣困難。目前這方面多是基于專家經(jīng)驗的模板實現(xiàn)。
決策后相關信息跟蹤,獲得新數(shù)據(jù),是持續(xù)優(yōu)化決策的過程
持續(xù)跟蹤相關信息,再有新的重要信息告知用戶。比方如果北京房價跌了,寬寬的美元理財、基金漲了,北京空氣持續(xù)優(yōu)化。這時可以讓寬寬抉擇是否購回北京房產(chǎn)。如果相反那就不用說了,免得添堵。
預測重要,但也沒那么重要
在上面買房輔助決策中,并沒有預測十年后房價,也沒有預測利率、匯率,或他們未來可能的生活方式。而是提供當前事實性的信息,可貸款信息,房價信息等,以及可選的方案。當然,如果能準確預測未來房價,那就是個規(guī)劃問題。目前看來,未來之眼的機器并不存在。而且如果人人都一個完美預測的機器,那就引入新的變量,原有的預測都又不準了。另外一點,目前也不可能每人都有AlphaGo的計算能力,有篇報道稱在2015年10月的公布的版本, AlphaGo使用一千多塊CPU及一百多塊GPU,圍棋還只是完全信息博弈游戲。
既然無法準確預測,那就提供可選方案對當前決策緩沖預測誤差影響。如用400萬換套小些、遠些的房子。
四、總結
本文認為,基于端到端樣本數(shù)據(jù)的深度學習模型并不是智能助理的唯一模型。智能助理的定位不是提供各領域問題的專家建議與預測。而是在收集相關信息的基礎上,結合其強大的計算能力為決策提供合適的事實信息以及可選的方案。應該是需符合郝伯特·西蒙的不確定性環(huán)境下決策理論,以過程理性解決問題的持續(xù)優(yōu)化的過程。不只是預測。
參考文獻:
[1] 馬文·明斯基. 情感機器[M]. 浙江人民出版社.2015,12.
[2] Mingke.為什么現(xiàn)在的人工智能助理都像人工智障?[OL].S先生.2016-11-21.
[3] 袁峻峰. 投資版AlphaGo系統(tǒng)探討 [OL]. 螞蟻金服評論(公眾號). 2016-03-14.
[4] 機器之心編譯. 業(yè)界 | 人工智能將挑戰(zhàn)德州撲克,與人類爭奪20萬美元獎金[OL]. 機器之心. 2017-01-06.
[5] 胡裕靖,高陽. 撲克游戲中的不完美信息博弈[OL].
[6] 袁峻峰. 結合AlphaGo算法和大數(shù)據(jù)的量化基本面分析法探討[OL].大數(shù)據(jù)文摘.2016-11-25.
[7] 扎克伯格.扎克伯格開發(fā)筆記:打造Jarvis的日子,我慶幸自己從未停止過編程[OL].雷鋒網(wǎng).2016-12-22.
[8]吳曉波. 在大理的你,請好好呵護北京的房子[OL]. 吳曉波頻道.2016-11-30.
作者聯(lián)系方式:郵箱yuanjunfeng_fr@163.com , 微信 jake-80 。
雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉載。詳情見轉載須知。