丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

FAIR實(shí)驗(yàn)室開(kāi)源的 fastText 資料庫(kù),現(xiàn)在可以在小型設(shè)備上跑起來(lái)啦

本文作者: 奕欣 2017-05-06 09:21
導(dǎo)語(yǔ):目前 fastText 資料庫(kù)已經(jīng)能夠在智能手機(jī)及小型電腦上使用,而且內(nèi)存只需要幾百千字節(jié),充分增強(qiáng)了 fastText 的延展性。

FAIR實(shí)驗(yàn)室開(kāi)源的 fastText 資料庫(kù),現(xiàn)在可以在小型設(shè)備上跑起來(lái)啦

雷鋒網(wǎng)消息,近日 FAIR 實(shí)驗(yàn)室在官方博客中指出,目前 fastText 資料庫(kù)已經(jīng)能夠在智能手機(jī)及小型電腦上使用,而且內(nèi)存只需要幾百千字節(jié),充分增強(qiáng)了 fastText 的延展性。

為實(shí)現(xiàn)這一目的,F(xiàn)AIR 實(shí)驗(yàn)室需要盡可能減少 fastText 模型在運(yùn)轉(zhuǎn)時(shí)所消耗的內(nèi)存。Facebook 的 FAISS 團(tuán)隊(duì)與 fastText 團(tuán)隊(duì)進(jìn)行合作,發(fā)布論文《FastText.zip: Compressing Text Classification Models》(FastText.zip:壓縮文本分類模型),能夠克服模型遷移到小型存儲(chǔ)設(shè)備存在的挑戰(zhàn)。

Facebook 團(tuán)隊(duì)一直努力在提升精度的同時(shí)盡可能地減少計(jì)算的復(fù)雜度,讓實(shí)際應(yīng)用在使用的過(guò)程中變得更加靈活方便。而在機(jī)器學(xué)習(xí)拓展的過(guò)程中,團(tuán)隊(duì)所面臨的問(wèn)題在于,需要涉及一個(gè)通用庫(kù)來(lái)解決文本分類問(wèn)題。因此,fastText 應(yīng)運(yùn)而生,針對(duì)文本表達(dá)和分類幫助建立量化的解決方案。

FAIR 實(shí)驗(yàn)室去年開(kāi)源了資料庫(kù) fastText,雷鋒網(wǎng)此前也做過(guò)覆蓋。

FAIR fastText 的具體實(shí)現(xiàn)原理過(guò)程有兩篇相關(guān)論文闡述,分別是《Bag of Tricks for Efficient Text Classification》(高效的文本分類技巧)和《Enriching Word Vectors with Subword Information》(使用子字信息豐富詞匯向量)。當(dāng)時(shí)開(kāi)源的資料庫(kù)對(duì)內(nèi)存要求較高,動(dòng)輒數(shù) GB,因此主要支持筆記本電腦及 X86 用戶。

對(duì)于有大量類別的數(shù)據(jù)集,fastText 采用了分層分類器,將不同的類別整合進(jìn)樹(shù)形結(jié)構(gòu)中。并且結(jié)合線性及多類別的對(duì)數(shù)模型,能夠大量減少訓(xùn)練的時(shí)間,也減少了訓(xùn)練的復(fù)雜度。利用類別不均衡的客觀事實(shí),研究人員采用 Huffman 算法建立用于表征類別的樹(shù)形結(jié)構(gòu)。并且根據(jù)樹(shù)形出現(xiàn)的頻率高低,深度也有所不同,這樣一來(lái)也提升了計(jì)算效率。

FAIR 實(shí)驗(yàn)室采用低維度向量對(duì)文本進(jìn)行表征。高向量自然能提升準(zhǔn)確性,但所耗費(fèi)的訓(xùn)練時(shí)間和計(jì)算量也較多。研究顯示,如果有正確的表征與足夠龐大的語(yǔ)料庫(kù),那么即便是低維度向量也可以得到最優(yōu)的結(jié)果。在編碼期間,向量的大小會(huì)通過(guò)常規(guī)獲得低維向量的優(yōu)化方法來(lái)獲得。團(tuán)隊(duì)通過(guò)「bag-of-words」(詞袋)提取特征和線性分類器以訓(xùn)練模型。因?yàn)樵~袋并不能識(shí)別句子中的單詞順序,所總結(jié)的高頻單詞特征并不能與低頻率單詞共享,導(dǎo)致低頻單詞的準(zhǔn)確率也要稍低?!竛-gram」模型能夠解決詞序問(wèn)題,但也會(huì)增加訓(xùn)練的復(fù)雜度、時(shí)間和相應(yīng)的費(fèi)用。fastText 部分采用了「n-gram」,通過(guò)選擇主題詞前后的詞數(shù)以平衡訓(xùn)練時(shí)間與準(zhǔn)確度的關(guān)系。

結(jié)果顯示,fastText 比起目前非常流行的 word2vec 以及最先進(jìn)的形態(tài)詞表征方式有著更好的表現(xiàn),且兼容多種語(yǔ)言。除準(zhǔn)確度外,fastText 也有著更快的速度,比起目前表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò),它的運(yùn)行速度快 1000 到 10000 倍。這是使用低級(jí)線性模型和標(biāo)準(zhǔn)功能(如二進(jìn)制)的結(jié)果。

FAIR實(shí)驗(yàn)室開(kāi)源的 fastText 資料庫(kù),現(xiàn)在可以在小型設(shè)備上跑起來(lái)啦

而兼容小型設(shè)備后,相信 fastText 能在未來(lái)服務(wù)更多的用戶,雷鋒網(wǎng)也將持續(xù)關(guān)注。

相關(guān)論文:

FastText.zip: Compressing Text Classification Models

Bag of Tricks for Efficient Text Classification

via facebook

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

FAIR實(shí)驗(yàn)室開(kāi)源的 fastText 資料庫(kù),現(xiàn)在可以在小型設(shè)備上跑起來(lái)啦

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)