丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

本文作者: 我在思考中 2021-12-16 11:12 專題:GAIR 2021
導(dǎo)語:算法的基本原理、性質(zhì)與中國文化之間究竟有何聯(lián)系?
香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

算法受到自然界和人類生活的啟發(fā),是科技的一部分。由于計算機已被廣泛用于解決人類的日常問題,算法在快速發(fā)展,對人類和自然界的算法思考也變得普遍。那么,算法的基本原理、性質(zhì)與中國文化之間究竟有何聯(lián)系?

作者 | 杏花

編輯 | 青暮

12月9日,第六屆全球人工智能與機器人大會(GAIR 2021)在深圳正式開幕,140余位產(chǎn)學(xué)領(lǐng)袖、30位Fellow聚首,從AI技術(shù)、產(chǎn)品、行業(yè)、人文、組織等維度切入,以理性分析與感性洞察為軸,共同攀登人工智能與數(shù)字化的浪潮之巔。

大會次日,香港科技大學(xué)(廣州)教授,IEEE/AAAS Fellow熊輝教授發(fā)表了題為《人工智能算法中的人性和社會性》的演講,從算法的人文及社會意義層面進行了探討。熊教授結(jié)合《易經(jīng)》中的“不易”、“簡易”以及“變易”思想對算法在促進人類社會發(fā)展、創(chuàng)新中的作用進行了解讀。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

熊輝教授

在此次演講中,熊教授向與會者分享了一些關(guān)于算法中人性和社會性的個人想法,闡述了算法的基本原理、性質(zhì)與我們熟知的課堂知識、日常經(jīng)驗和中國文化之間的聯(lián)系。

例如,對于GAN算法中的判別器,熊輝教授是這樣解釋的:

“就好比有個非常好的老師指導(dǎo)學(xué)生學(xué)習(xí)的內(nèi)容和學(xué)習(xí)的方向?!?/span>

再如對不同聚類方法特點的形象描述:

“分層級的聚類就像資本主義的市場經(jīng)濟,它在早期和中期會產(chǎn)生一些問題,這些問題還會逐漸累積;K-means是社會主義,兼顧公平但在一些問題上不符合現(xiàn)實。有沒有辦法把兩種方法的優(yōu)點融合起來呢?這就是我們的‘中國特色社會主義’?!?/span>

以及用易經(jīng)中乾卦的爻辭解釋來講算法的“中庸之道”:

“九五是飛龍在天,古代帝王說自己是九五之尊,因為九五卦是至高點,九六就是亢龍有悔。(我們做算法做到)飛龍在天就完美了,再往上就是Overfitting(過擬合),往下就是Underfitting(欠擬合)?!?/span>

熊輝教授的講解生動易懂,娓娓道來,贏得在座掌聲不斷。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

熊輝教授現(xiàn)為香港科學(xué)技術(shù)大學(xué)(廣州)講席教授,人工智能學(xué)域主任;曾在學(xué)術(shù)休假期間擔(dān)任百度研究院副院長并主管5個實驗室。

熊教授獲得的部分榮譽包括AAAS Fellow、IEEE Fellow、ACM杰出科學(xué)家、中國教育部長江講座教授、中國國家基金委-海外及港澳學(xué)者合作研究基金、哈佛商業(yè)評論2018年“拉姆·查蘭管理實踐獎”-全場大獎、ICDM-2011最佳研究論文獎、和AAAI-2021最佳論文獎。

以下是演講全文,AI科技評論做了不改變原意的整理:


1

GAN與師生

今天演講的主題是《人工智能算法中的人性和社會性》。此前一年,我一直在美國。這期間,我將人工智能的很多經(jīng)典算法進行了審視與回顧,以人性和社會性的角度反思了這些算法與人類的關(guān)系,感慨良多,于是整理成報告與大家分享。

感謝我之前指導(dǎo)過的17位學(xué)生(有一位今年畢業(yè),照片沒放PPT上),他們現(xiàn)在大多都在學(xué)術(shù)界從事研究工作。前三位都已獲得終身教授的榮譽,也有一些學(xué)生在工業(yè)界,還有些在創(chuàng)業(yè)。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

首先,作為引子我先介紹GAN算法。

我們知道,對抗生成學(xué)習(xí)方法可以產(chǎn)生很多虛擬數(shù)據(jù),比如人臉。此外,GAN還在其他場景中發(fā)揮作用,比如"時光機",當(dāng)我們給出一個人18歲的照片,GAN算法可以預(yù)測這個人年老時的樣子。

在百度期間,我們進行了一些有趣的工作,例如,走失兒童的問題前些年較為嚴重,近年已大幅減少,因為天眼系統(tǒng)日趨成熟。但天眼系統(tǒng)還未普遍應(yīng)用的時候,走失兒童的找回是個大問題。當(dāng)兒童走失且若干年沒有回家,其樣貌會隨年齡發(fā)生改變。

我們的系統(tǒng)可以根據(jù)孩子童年的照片,生成如今的樣子,然后將當(dāng)前生成的樣貌進入公安系統(tǒng)數(shù)據(jù)庫中比對查找。鎖定一些范圍的人群后,再進行DNA的測試比對,從而找到走失兒童。這種應(yīng)用十分有效,并且具有人性和社會意義。

這種算法和人性甚至社會性有何關(guān)聯(lián)?我想先介紹兩個概念。

我們在進行監(jiān)督學(xué)習(xí)時,有兩種思路,一種是Discriminative,即差異性的、差分式的方法。還有一種是Generative,即生成式的。下面我們舉例來理解這兩種方法的差異所在。

假設(shè)一個場景中有兩個外國人,如何判斷他們是否在使用韓語?

按照Discriminative的思路,我們可以找一些韓劇,觀察演員的發(fā)音和語氣。當(dāng)我們大概知道韓語的發(fā)音模式時,再去聽這兩位外國人的對話,便可以判別他們是否使用韓語。雖然我們不知道談話內(nèi)容,但可以快速判別口語種類。

還有一種是生成式的方法,在同樣的場景中,為了判別兩位交流者所使用的語言是否為韓語,我們可以報班學(xué)習(xí),學(xué)會后就可以判斷這兩位外國人說的是否為韓語,此外還可以對談話內(nèi)容加以理解。

這兩種方法各有利弊,前者更為快速,后者則需要我們付出時間和精力進行系統(tǒng)的學(xué)習(xí)。那么,是否有一種學(xué)習(xí)方式融合兩者的優(yōu)勢呢?生成式學(xué)習(xí)便是這樣的方法,這也是其最顯著的優(yōu)勢之一。

但這和我們的人生有何關(guān)系?

站在個人的層面,我們也需要一個很好的判別器。不同的人有不同的經(jīng)歷和選擇,有些人成功有些人失敗,主要在于他們使用的判別器。這個辨別器告訴個體在什么時候應(yīng)該進行怎樣的生成式學(xué)習(xí)。

也就是說,我們需要一個良好的導(dǎo)師。好的導(dǎo)師能讓我們走在光明大道上;不好的導(dǎo)師則放任我們自由生成,甚至走在錯誤的生成式學(xué)習(xí)道路上。

人生在世,就像進行一次漫長的生成式學(xué)習(xí)。如果我們有一個好的生成式判別器,這個判別器可以是導(dǎo)師、偶像、家長、甚至是我們追逐的對手。因此,對抗學(xué)習(xí)融合了生成式和判別式學(xué)習(xí)的優(yōu)點,它總是在尋找一個極佳的判別器,讓我們走在正確的軌道上,讓我們的資源用在正確的方向上。算法之所以有用,很大程度上是因為它從生活中來,抽象了我們的經(jīng)驗和哲理。


2

AI與易經(jīng)

當(dāng)我站在一個比較系統(tǒng)的宏觀角度來觀察所有的算法時,我用易經(jīng)的理論對它們進行了梳理,將它們分成三個主要類別:不易、簡易和變易。這里,我們所說的"易"是指變化。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

“簡易”,就是我們常說的大道至簡,可以幫助我們洞悉事物的本質(zhì)。事物的本質(zhì)就是“不易”,是萬事萬物中恒定不變的東西。

比如,我曾在百度做過一項開發(fā),幫助我拿到了哈佛評論的獎勵。在這個智能化專業(yè)系統(tǒng)中,我涉足的是人力資源領(lǐng)域。其實學(xué)習(xí)人力資源并不困難,它只是一個行業(yè)知識基礎(chǔ),任何行業(yè)都有其"不易"的東西。

但如果我們的方法不對,學(xué)習(xí)可能會很難。我們需要把握住人力資源中恒定不變的那些"根本性知識樹"。比如對企業(yè)、對團隊、對個人的管理。如何把握這些根本性的東西,就是我們學(xué)習(xí)的難點。

我們的算法都可以從這些角度出發(fā)對問題進行審視。比如,對于監(jiān)督式學(xué)習(xí),如果想訓(xùn)練一個蘋果香蕉的分類器,這之所以在技術(shù)上是可行的,主要是因為蘋果和香蕉分別有著它們特有的、恒定不變的根本屬性。

如果香蕉整天變化,算法就沒法對其進行預(yù)測和識別。我們的算法主要是捕獲這些不變的"根本"。只有捕獲到這些,才能實現(xiàn)目標任務(wù)。

比如,我曾在百度進行員工的離職分析。一些HR問我這個事情是否具有可預(yù)測性?我說肯定可以,因為它有不變的根本——當(dāng)我們準備離職時,心就不在公司了,工作狀態(tài)就會發(fā)生變化。工作狀態(tài)改變時,一定會在數(shù)據(jù)上表現(xiàn)出來。如果能抓住這個根本,就能預(yù)測離職。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

很多人都覺得CNN不具備可解釋性。但是從更高層級來說,黑盒一樣的CNN也有其不變的根本。

例如手寫字母的識別,對于一個X,我們可能根據(jù)心情、疲勞和習(xí)慣把X寫成各種姿態(tài),但機器判斷的時候,其實都可以發(fā)現(xiàn)一些共性的東西,比如圖中的紅色和黃色小塊,就算手法、字跡不同,它們也會恒定出現(xiàn)。這些就是Kernel(核心),即不變的根本。

CNN的任務(wù)就是去捕獲這些Kernel,一旦捕獲住,不論字體寫成什么樣,有這些Kernel在,CNN都可以將其識別。

這就是通過"簡易"尋找不變特性的過程。這個例子中,卷積計算就是"簡易",目的是捕獲"不易"。但由于隨機性,一些Kernel的表現(xiàn)并不完美,因此就要進行一些模糊化的Pooling操作。Max Pooling也是一種"簡易",目的是讓“不易”凸顯出來,讓Kernel更顯眼。

所以,傳統(tǒng)的CNN-Pooling組合背后的原理就是通過"簡易"尋找"不易"的過程。機器學(xué)習(xí)另一個常用的工具是集成學(xué)習(xí),它的意義是什么呢?

舉例來說,一位VIP病人想知道自己是否罹患某種疾病,這時醫(yī)院會召集多位臨床專家共同探討病情,并通過投票給出最終診斷結(jié)果。在很多機器學(xué)習(xí)競賽時,我們都會用集成學(xué)習(xí)來提升算法效果。這其實就是民主投票,讓多數(shù)人認可的結(jié)果作為最終輸出。

這樣的民主投票好處很明顯。比如我有25個基分類器,每個分類器的誤差都是0.35,那么集成學(xué)習(xí)能將誤差降至0.06。

但集成學(xué)習(xí)也是有前提的。想讓集成學(xué)習(xí)的投票成立,每個基礎(chǔ)分類器都必須獨立。即每個人的決策都必須不受他人影響。

第二個前提是,每個基分類器都要足夠聰明。每個人對事物的認識起碼要優(yōu)于隨機猜測,這就是投票機制的民主基礎(chǔ)。所以一人一票并不一定是好的機制,不談前提的投票,就是耍流氓。

這兩個前提的必要性可以從數(shù)學(xué)上證明。

因此,從社會學(xué)的角度,投票之前要先看人口結(jié)構(gòu)。如果人口結(jié)構(gòu)太差,那投票就相當(dāng)于讓一堆隨機猜測甚至低于隨機猜測的基分類器投票,其結(jié)果會更糟。只有在"足夠聰明"的人群中進行投票才是有意義的。

如何判斷人群是否足夠聰明呢?可以看人群中是否有足夠數(shù)量的中產(chǎn)階級,且每個人都要有獨立的思考能力和選擇投票的權(quán)利。

所以,算法和社會的運轉(zhuǎn)形態(tài)一樣。

有時我會感慨,和懂算法的人溝通十分順暢,因為可以類比。只要我們認可算法的證明過程,將其應(yīng)用于社會與人生,就無需贅言。

上面我們介紹了“不易”,接下來說“簡易”。

“簡易”包含很多東西,比如注意力機制(Attention)、聚類(Clustering)、規(guī)則化(Regularization)等等。它們都是“簡易”的過程,目的是讓我們聚焦到事物的本質(zhì)——“不易”。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

近年,我們一直在說大數(shù)據(jù),但不意味著數(shù)據(jù)越多越好。大數(shù)據(jù)帶來最好的提升是讓其"不易"的本質(zhì)更容易被捕獲。但如何捕獲這些本質(zhì)呢?

比如,聚類是最簡單的“簡易”方法之一,將相似的東西組合在一起,再轉(zhuǎn)化成一些優(yōu)化問題,讓類間的差異最大化,類內(nèi)的誤差最小化。這可以幫助我們進行知識的總結(jié),而總結(jié)有助于我們理解。舉一個簡單的例子:

公司有5000萬個客戶,老板讓我們分析這5000萬個用戶處于怎樣的生態(tài)。我們通過聚類分析,可以將他們分類:第一類對錢不在乎。他們可能會買兩張同個運營商的卡,還都買了無限流量的套餐,而且就擺著不用。這樣的用戶在公司眼中是最好的,因為他們付了最貴的代價,卻占用最少的資源。

還有一類是需要公司賠錢的用戶。他們會最大限度利用套餐中的服務(wù),100分鐘的通話肯定用到99.99為止。這樣的用戶會給公司的運維造成較大的負擔(dān)。

進行了這樣的聚類后,就能對用戶歸類并分別管理。這個例子的目的是說“簡易”的意義。簡易有兩種方法,一個是分層次的,一個是Partitional聚類。分層的方法主要是產(chǎn)生分層的聚類理解。

它的好處是不用預(yù)先設(shè)定聚類結(jié)果的數(shù)量,而且有利于自然形態(tài)最終態(tài)的形成。這很像原始資本主義的市場經(jīng)濟,讓企業(yè)自由競爭,互相吞并,不強加干涉,這就是一個自然的狀態(tài)和結(jié)果。

它的缺點是什么呢?由于缺乏全局的指導(dǎo)(損失函數(shù)),它在早期和中期會產(chǎn)生一些問題,這些問題還會逐漸累積。這就是分層次的聚類方法的問題。

相對應(yīng)的,我們一看K-means,就覺得像最初的社會主義形態(tài)。在這里我們首先需要一個中央全權(quán)負責(zé)周圍的統(tǒng)治,并且規(guī)定好最終的簇數(shù)量,然后再按最優(yōu)函數(shù)進行分配。

但其問題在于什么?比如我們國家,漢族人口占到90%以上,但我們卻說有56個民族,在使用K-means進行民族劃分時,就會有很多漢族人被分成壯族、苗族、維吾爾族人等等,這就不符合現(xiàn)實。

因此,分層級的聚類和K-means的方法各有利弊,能否將其融合起來呢?

這就是我們的“中國特色社會主義”,既能兼顧市場經(jīng)濟的靈活性,又能融合社會主義的大局領(lǐng)導(dǎo)力。

在算法中,為了克服不同數(shù)據(jù)的規(guī)模和密度差異,我們會首先將目標數(shù)量定高,然后發(fā)揮K-means的公平性特點,保證每個小類中的對象聚于一堂,這就是"兼顧公平的市場經(jīng)濟"。

每個小類再使用分層次的方法進行市場競爭,讓它們自由融合吞并,最終大類和小類會呈現(xiàn)更好的、更自然的分布。

除了中國,北歐也將資本主義進行了改良。他們的改良資本主義也是將分層級和K-means的思路進行兼容??偟膩碚f,社會和科學(xué)相輔相成、相互借鑒和促進交叉。

但話說回來,“簡易”必然帶來信息的缺失。信息丟失可能帶來一些問題,比如“簡易”后,原本三維的信息映射到二維空間,我們看到二維信息時很可能會"浮想翩翩"。因為它的信息本不完整,比如圖中的男女,我們看這張圖總覺得他們之間有點什么問題,但當(dāng)恢復(fù)成三維的樣子,卻發(fā)現(xiàn)他們毫無瓜葛。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

這提示我們不要在“簡易”時丟掉了“不易”。最后講“變易”,這里面的代表性算法是強化學(xué)習(xí)。

我們都聽說過內(nèi)卷,這里有兩個概念,一個是Exploitation,中文就是內(nèi)卷。為什么有內(nèi)卷?是因為我們每個人都想活在自己的舒適區(qū),不愿破圈。當(dāng)很多人都不愿破圈,就形成了內(nèi)卷。

為了避免內(nèi)卷,我們要做Exploration,就是去破圈。比如,在給學(xué)生尋找研究方向時,我說推薦系統(tǒng)領(lǐng)域已經(jīng)有內(nèi)卷的趨勢了,我們突破一下,去做人力資源的人才推薦。因此,同樣是做推薦算法,研發(fā)傳統(tǒng)推薦的人和我們沒有競爭,人力資源的研究人員也跟我們沒有關(guān)系,這就找到了新的天地,避免了內(nèi)卷。

當(dāng)我們開辟了一個新領(lǐng)域時,就像挖了一個坑,很多人也想涌進來分一杯羹。但不怕,我們繼續(xù)開辟新領(lǐng)域即可。

因此為了避免內(nèi)卷,我們要在Exploration和Exploitation之間找到有機的平衡。這個平衡是什么呢?就是強化學(xué)習(xí)算法。

強化學(xué)習(xí)算法首先有兩個本體,一個是Agent,另一個是環(huán)境。Agent能感知環(huán)境的狀態(tài),之后可以采取一些動作,比如砍樹。當(dāng)樹砍光,環(huán)境變差,就會通過Reward來懲罰Agent。如此一來,人類就知道樹砍多了環(huán)境就變差了。因此,不僅不要砍樹,還要去植樹,從而形成一個循環(huán)。人類不斷感知環(huán)境并采取行動,這就是強化學(xué)習(xí)算法。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

強化學(xué)習(xí)的優(yōu)點在于,它能在錯誤中學(xué)習(xí),不斷試錯迭代,在內(nèi)卷和探索之間取得很好的平衡。

算法其實很美,人類一直在藝術(shù)和科學(xué)之間進行拔河。例如,微積分。如果我們想估計一條曲線下的面積,微積分會進行近似。但不論多精確,都會有差異。那么這個差異就可以用藝術(shù)彌補。這也是不同機器學(xué)習(xí)煉丹師效率的差異核心所在。有的人可能上手一天就能完成任務(wù),有的人可能三個月也束手無措。

其根本原因在于"藝術(shù)感"上的差異,后者缺乏一點"感覺",即那種看山是山,看山不是山的inside-out的經(jīng)驗和大局觀的藝術(shù)感。只有當(dāng)我們了解了算法中的人性和社會性,才能發(fā)揮算法的藝術(shù)性。

此外,做算法一定要有"中庸之道"。機器學(xué)習(xí)需要在偏差(Bias)和方差(Variance)之間取得平衡。前者會導(dǎo)致過擬合,后者則欠擬合。

那么,機器學(xué)習(xí)的"中庸之道"是什么意思?我們不論使用早停、L1/L2損失都是為了達到Bias和Variance之間的最優(yōu)點。這就像易經(jīng)的"乾卦",它分為前卦后卦、內(nèi)卦外卦。

我們知道初九叫做潛龍勿用,意思是我們在學(xué)習(xí)時不要朝三暮四,就安心學(xué)習(xí)。學(xué)完之后,我們可以初出茅廬,顯龍在田,小試牛刀,就像很多老師努力獲得“優(yōu)秀青年”稱號。之后有人可能開始得瑟,這時就會進入九三。我們應(yīng)該做到終日潛潛,也就是小心謹慎,避免槍打出頭鳥。

有的人可能一輩子都在下卦,上不到上卦。此時一部分人能夠從九三跨越到九四。九四再往上就是飛龍在天。很多古代帝王說自己是九五之尊,因為九五卦是至高點,九六就是亢龍有悔,比如袁世凱,他非要稱帝,就物極必反,遺臭萬年。

所以,“飛龍在天”就到完美了,再往上一步,就過擬合了,再往下可能就處于欠擬合的狀態(tài)。因此,如果想真正做好算法的應(yīng)用,一定要把領(lǐng)域知識和專業(yè)知識結(jié)合,明白什么是“不易”。領(lǐng)域知識能告訴我們“不易”是什么、在哪里,然后做到藝術(shù)和哲學(xué)的有機平衡。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

香港科技大學(xué)(廣州)熊輝教授:人工智能算法中的不易、簡易和變易 | GAIR 2021

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說