丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給楊文
發(fā)送

0

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

本文作者: 楊文 2018-02-15 16:31
導(dǎo)語:霍華德關(guān)于NLP的一些分享總結(jié)

雷鋒網(wǎng) AI 研習(xí)社按:人工智能的發(fā)展不僅是給社會(huì)帶來了巨大的變化與進(jìn)步,同樣也給我們每一個(gè)莘莘學(xué)子的人生帶來了重大的機(jī)遇與挑戰(zhàn)。本文的分享嘉賓就是一位緊跟隨時(shí)代浪潮,投身 AI 革命的踐行者。

在近期雷鋒網(wǎng) AI 研習(xí)社舉辦的線上公開課上,來自新加坡國(guó)立大學(xué)電子及計(jì)算機(jī)工程系的霍華德博士分享了他的在 NLP 學(xué)術(shù)研究上的一些體驗(yàn)與心得。他本人的求學(xué)經(jīng)歷非常傳奇,在本科,碩士,博士階段分別讀了三個(gè)不同的專業(yè),現(xiàn)在騰訊就職。

霍華德,新加坡國(guó)立大學(xué)電子及計(jì)算機(jī)工程博士,現(xiàn)為騰訊自然語言處理 算法工程師。學(xué)過材料,打過鐵,下過車間,燒過爐子,后轉(zhuǎn)行人工智能,有著豐富的轉(zhuǎn)行經(jīng)驗(yàn)。

以下是嘉賓的分享內(nèi)容:

自然語言處理(NLP)都有哪些用處?

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

簡(jiǎn)單來說,NLP 結(jié)合大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)進(jìn)行詞法分析,句法分析,語義分析等功能,主要用于搜索引擎和推薦系統(tǒng),像包括用戶畫像,計(jì)算智能推薦廣告都會(huì)用到?,F(xiàn)在計(jì)算機(jī)視覺技術(shù)也在和 NLP 有著更多的結(jié)合,比如最近很火的自動(dòng)駕駛。另外語音識(shí)別本身就有很多的 NLP 問題,不僅僅是簡(jiǎn)單的識(shí)別,還包括單詞的邊界界定,詞義的消歧,句法的模糊性等問題。

對(duì)于 NLP 技術(shù),目前市場(chǎng)需求非常穩(wěn)固,而且會(huì)隨著 AI 的進(jìn)展不斷增張。目前 NLP 技術(shù)發(fā)展面臨的挑戰(zhàn)之一是語言的歧義性,比如下面這張圖片上的例子。

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

接下來給大家分享一些 NLP 中比較有意思的問題。也可以說是 AI 領(lǐng)域的比較有趣的問題。

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

高中數(shù)學(xué)有一個(gè)著名的概率問題,「一枚硬幣連續(xù)投了五次都是正面,那么第六次投還是正面的概率是多少?」機(jī)智的高中生會(huì)想,這騙得了我?這是獨(dú)立重復(fù)實(shí)驗(yàn),概率還是 0.5!

可如果一枚硬幣連續(xù)投了一百次都是正面呢?一億次都是正面呢?是否還要堅(jiān)信出現(xiàn)正面的概率是 0.5?這個(gè)硬幣會(huì)不會(huì)被人動(dòng)了手腳,就只有正面呢?

當(dāng)大量的事實(shí)擺在我們面前,隨著數(shù)據(jù)越來越多,人應(yīng)該越來越相信這個(gè)硬幣有問題,越來越不相信硬幣的概率是 0.5,這才是最自然而然的感覺,這才是動(dòng)態(tài)的看待問題,而不是機(jī)械僵化的看待問題,而這背后就是貝葉斯思想。

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

高中老師告訴我們概率就是頻率;而貝葉斯告訴我們,概率其實(shí)有點(diǎn)像人對(duì)事物的信心。隨著證據(jù)越來越多,我們對(duì)事物的信心越來越強(qiáng),也可以稱作概率。

直觀理解貝葉斯公式

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

好多同學(xué)都說不理解貝葉斯公式,接下來舉個(gè)例子幫助大家直觀的理解貝葉斯公式。

先來一個(gè)問題:一機(jī)器在良好狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 90%,在故障狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 30%,機(jī)器良好的概率是 75%,若一日第一件產(chǎn)品是合格品,那么此日機(jī)器良好的概率是多少?

這里需要用到貝葉斯公式,貝葉斯公式一點(diǎn)也不神秘,首先我們要是覺得兩個(gè)東西之間有關(guān)聯(lián),那么他們就有聯(lián)合概率 新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒? ,聯(lián)合概率可以用鏈?zhǔn)椒▌t表示 新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒? ,這個(gè)是大家都學(xué)過的條件概率,A和B同時(shí)發(fā)生的概率是B發(fā)生的概率乘以B發(fā)生下A的條件概率,反過來一樣成立,所以有:

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

兩邊同時(shí)除以 新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒? ,得:

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

這就是貝葉斯公式。貝葉斯公式的范圍非常廣泛,只要兩個(gè)東西有關(guān)聯(lián),能寫出聯(lián)合概率,就可以用貝葉斯公式。

機(jī)器有良好和故障兩種狀態(tài),用A表示。產(chǎn)品有合格和不合格兩種狀態(tài),用B表示。直接套用公式算:

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒? 的概率等于:

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

所以:

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?


從投硬幣到高斯分布(正態(tài)分布)

我們都知道人的身高是遵從高斯分布的。假設(shè)有 340 個(gè)因素影響你的身高,每個(gè)因素都有 0.5 的概率讓你長(zhǎng)高1cm,如:

  • 你打不打籃球

  • 媽媽的身高

  • 爸爸的身高

  • 愛不愛吃肉

  • 喝不喝牛奶

這些因素里有的對(duì)身高產(chǎn)生不產(chǎn)生影響,就如投硬幣投到了0,有的讓你身高長(zhǎng)高1cm,如投硬幣投到了正面。而你最終的身高就是這 340 投硬幣累加的結(jié)果。如果你做10萬次這樣的實(shí)驗(yàn),你會(huì)得到下面這樣圖,是不是發(fā)現(xiàn)身高分布變成了正態(tài)分布。有些人運(yùn)氣好,多投了幾次正面,就多長(zhǎng)了幾厘米,長(zhǎng)到了 180cm;有的人運(yùn)氣差些,少投了幾次正面,就只有 160。但大多數(shù)人,運(yùn)氣都差不多所以都在 170 左右~這也是投硬幣實(shí)驗(yàn)的期望 (170=340*0.5)。同時(shí),因?yàn)橥队矌鸥怕实挠绊?,運(yùn)氣超級(jí)好和運(yùn)氣超級(jí)差的都不多,所以高于 200cm 和低于 140cm 的男生都不多。

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

這背后是中心極限定律:「大量相互獨(dú)立隨機(jī)變量的均值都講收斂于正態(tài)分布」,其中有三要素:獨(dú)立,隨機(jī),相加。

幸運(yùn)的是,人生不都是獨(dú)立重復(fù)實(shí)驗(yàn),有些因素是我們可以控制的,可以努力的,如多喝牛奶,多打籃球,多蹦多跳,這樣就相當(dāng)于提高了某幾次投硬幣得到正面的概率,讓自己多長(zhǎng)高一些。

從投硬幣到泊松分布

日常生活中,大量事件是有固定頻率的,如:某個(gè)醫(yī)院平均每小時(shí)出生4個(gè)小嬰兒;某個(gè)王者榮耀服務(wù)器平均每秒鐘接到 500 次訪問請(qǐng)求;某個(gè)汽車站臺(tái)的候客人數(shù)等等... 想象你在婦產(chǎn)科工作,你的職責(zé)就是記錄嬰兒的出生情況,你知道平均每小時(shí)你會(huì)有4個(gè)嬰兒出生新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒? 。

泊松分布的產(chǎn)生

每十分鐘記錄一次

把一小時(shí)分為6段,每十分鐘記錄一次,這10分鐘里有嬰兒出生,就記錄1,沒有就記錄0。這樣每個(gè)10分鐘里有嬰兒出生的概率就是P=4/6  ,你每小時(shí)會(huì)記錄6次,有  k 個(gè)嬰兒出生的概率可以寫成:新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?


如圖所示:

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

每一分鐘記錄一次

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

每一秒鐘記錄一次

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

從上面三張圖可以看出,每次的記錄都差不多。之后可以每毫秒記錄一次,每微秒記錄一次,每納秒記錄一次,但是這個(gè)概率分布的形狀都不會(huì)怎么變了,這時(shí)候就得到了泊松分布。

用貝葉斯方法挑西瓜

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

公式左邊是西瓜「是好瓜」的邏輯發(fā)生比,又稱作 logit,邏輯發(fā)生比大于 0 就說明是好瓜的概率較大。新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?


最后發(fā)現(xiàn)等式右邊變成了各個(gè)特征的求和。特征值越大,說明這個(gè)特征對(duì)西瓜「是好瓜」的影響越大,相應(yīng)的說明這個(gè)特征是一個(gè)顯著特征。而值比較小的特征說明影響較小,不是一個(gè)很有效的特征,剔除掉也不會(huì)有很大的影響。

樸素貝葉斯分類

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

以上就是本次分享的全部?jī)?nèi)容,視頻回放鏈接:http://www.mooc.ai/open/course/447

雷鋒網(wǎng)溫馨提示:關(guān)注公眾號(hào)「AI 研習(xí)社」,每周都有免費(fèi)公開課直播。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

新加坡國(guó)立大學(xué)霍華德:NLP都有哪些有意思的事兒?

分享:
相關(guān)文章

編輯&記者

AI科技評(píng)論員,微信:yeohandwin
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說