0
本文作者: 肖漫 | 2019-05-03 18:25 | 專題:ICLR 2019 |
雷鋒網(wǎng)按:如果機器智能具有人類情商,那么機器智能是否會超越人類智能?近期Microsoft Research Blog發(fā)表了文章《向有情商的人工智能發(fā)展》,介紹了有情商的AI,雷鋒網(wǎng)全文編譯如下:
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
最近在機器智能領(lǐng)域的成功依賴于為了做出決策而有效地搜索數(shù)十億種可能性的核心計算能力。如果成功的話,這一系列的決策往往表明計算能力正在趕上甚至超過人類的智力。另一方面,人類智能是高度可概括的、自適應(yīng)的、穩(wěn)健的,并且具有當(dāng)前最先進的機器智能系統(tǒng)還無法產(chǎn)生的特性。例如,即使存在許多未知的變量,人類也能夠根據(jù)預(yù)期的結(jié)果提前進行重要的計劃。人類的智能在其他人類和生物參與的場景中閃耀,并始終顯示推理和元推理能力。人類的智慧還具有同情心、同理心、善良、有教養(yǎng),而且重要的是,它能夠為了更大的利益而放棄和重新定義一項使命的目標(biāo)。盡管幾乎所有的機器智能研究都集中在“怎么做”上,但人類智能的特點是能夠問“是什么”和“為什么”。
我們的假設(shè)是,情商是開啟機器出現(xiàn)的關(guān)鍵,這些機器不僅更普遍、更強大、更高效,而且還符合人類的價值觀。人類的情感機制使我們能夠完成目前機器無法編程或教授的任務(wù)。例如,我們的交感神經(jīng)和副交感神經(jīng)反應(yīng)使我們保持安全,并意識到危險。我們有能力認識到他人的影響,并想象自己處在他們的處境中,這使我們能夠更有效地做出正確決定和適應(yīng)復(fù)雜的世界。饑餓、好奇、驚喜和快樂等驅(qū)動力和影響使我們能夠規(guī)范自己的行為,并確定我們希望實現(xiàn)的一系列目標(biāo)。最后,我們表達自己內(nèi)心狀態(tài)的能力是向他人發(fā)出信號并可能影響他們決策的一種極好的方式。
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
因此,有人假設(shè),將這種情商構(gòu)建到一個計算框架中,至少需要具備以下能力:
·識別他人的情緒
·回應(yīng)他人的情緒
·表達的情緒
·在決策中調(diào)節(jié)和利用情緒
從歷史上看,構(gòu)建具有情商的機器的研究主要從人機協(xié)作的角度出發(fā),并且主要集中在前三項功能上。例如,最早關(guān)于情感識別的研究始于近30年前,當(dāng)時人們使用生理傳感器、照相機、麥克風(fēng)等來檢測一系列情感反應(yīng)。存在這樣一些爭論:人們臉上的情感表達和其他生理信號有多一致和統(tǒng)一,并且這些是否真的反映了他們的內(nèi)在感覺,研究人員已經(jīng)成功地構(gòu)建算法,在人類表情的嘈雜世界中識別有用的信號,并且證明這些信號與社會文化準則是一致的。
根據(jù)人的內(nèi)在認知狀態(tài)采取適當(dāng)行動的能力對于高情商的人來說是必不可少的。諸如自動輔導(dǎo)系統(tǒng)、心理和身體健康支持以及提高生產(chǎn)力的應(yīng)用等應(yīng)用是目前正在進行的工作的重點。最近一系列關(guān)于順序決策的研究,如上下文強盜,正在這個地區(qū)慢慢取得進展。例如,我們自己的研究表明,一個對飲食管理的情感方面敏感的系統(tǒng)可以如何幫助受試者做出正確的決定。
幾十年來,情感表達一直處于計算的最前沿。即使是簡單的信號(例如,光、色、聲)也有能力傳達和激起豐富的情感。在將于ICLR2019上發(fā)表的 “Neural TTS Stylization with Adversarial and Collaborative Games”(《神經(jīng)TTS與對抗和協(xié)作游戲的程式化》)(馬爽和宋耶魯合著)中,我們提出了一種新的機器學(xué)習(xí)方法來合成具有表現(xiàn)力的逼真的人類語音。該體系結(jié)構(gòu)挑戰(zhàn)模型生成真實的語音,忠實于文本內(nèi)容,同時維護一個易于控制的撥盤,以獨立的方式改變表達的情感。我們的模型在多個任務(wù)中實現(xiàn)了最開始的效果,包括樣式轉(zhuǎn)換(內(nèi)容和樣式交換)、情感建模和身份轉(zhuǎn)換(適合新演講者的聲音)。文章提供了一個開源實現(xiàn)。
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
雖然人工智能系統(tǒng)的識別、表達和干預(yù)方面的研究在過去20年已經(jīng)深入,但還有一種更引人注目的智能形式——一種為了更好地學(xué)習(xí)和更有效地做出選擇而有效地利用情感機制的系統(tǒng)。在最近的工作中,我們希望探索如何建立這樣的情感機制,以幫助我們的計算過程實現(xiàn)比目前更多的目標(biāo)。
同樣出現(xiàn)在ICLR 2019,我們最近的工作探索了基于影響的內(nèi)在動機的想法,這可以幫助學(xué)習(xí)決策機制。最近人工智能在解決圍棋、Pac-Man和基于文本的RPG等游戲方面取得的成功,很大程度上依賴于強化學(xué)習(xí),在強化學(xué)習(xí)中,好的行為會得到獎勵,壞的行為會受到懲罰。然而,要讓計算代理學(xué)習(xí)一個合理的策略,需要在這樣一個行動獎勵框架中進行大量的試驗。我們提議背后的直覺是,從人類和其他生物如何利用情感機制中來更有效地學(xué)習(xí)中獲得靈感。
當(dāng)人類學(xué)著面對世界時,身體(神經(jīng)系統(tǒng))的反應(yīng)會對行為選擇的潛在后果提供持續(xù)的內(nèi)在反饋,例如,當(dāng)接近懸崖邊緣或在拐彎處快速行駛時,會變得緊張。生理變化與這些保護自己免受危險的生物制劑有關(guān)。人類對危險情況的預(yù)期反應(yīng)是心率加快,心率變異性降低,血液從四肢分流,汗腺擴張。這是身體的“戰(zhàn)斗或逃跑”反應(yīng)。人類已經(jīng)進化了數(shù)百萬年來建立這些復(fù)雜的系統(tǒng)。如果機器有類似的反饋系統(tǒng)呢?
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
在“Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic Physiological Rewards” (《本能機器:在內(nèi)在生理獎勵的強化學(xué)習(xí)中的風(fēng)險規(guī)避》)一書中,我們提出了一種新的強化學(xué)習(xí)方法,它利用了人類戰(zhàn)斗或逃跑行為的內(nèi)在獎勵功能。
我們的假設(shè)是,這樣的獎勵函數(shù)可以規(guī)避強化學(xué)習(xí)環(huán)境中與稀疏和傾斜獎勵相關(guān)的挑戰(zhàn),并有助于提高樣本效率。在我們的例子中,來自事件的外部獎勵并不是代理學(xué)習(xí)的必要條件。我們在模擬駕駛環(huán)境中進行了測試,結(jié)果表明,該方法可以提高學(xué)習(xí)速度,減少學(xué)習(xí)過程中的碰撞次數(shù)。我們對訓(xùn)練自主系統(tǒng)的潛力感到興奮,這種系統(tǒng)能夠模擬以情感方式感受和響應(yīng)刺激的能力。
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
許多計算機科學(xué)家和機器人專家都渴望打造出類似于KITT和R2D2等流行科幻小說中令人難忘的人物形象的機器人。無論如何,我們都有很多機會來建立一個超越以往的整體情感計算機制,并幫助我們建立健全、高效和非近視的人工智能。我們希望這項研究能讓我們重新審視情感在人工智能中的應(yīng)用。
我們希望5月份在新奧爾良的ICLR見到您,并期待著與您分享想法,交流高情商代理這一令人興奮的研究領(lǐng)域的可能性。
雷鋒網(wǎng)注:本文編譯自Microsoft Research Blog
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。