丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AI+ 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

mathor 大佬聊賽事:處理「微博立場(chǎng)檢測(cè)」賽事,數(shù)據(jù)比模型重要

本文作者: AI研習(xí)社 2020-03-25 10:50
導(dǎo)語(yǔ):AI研習(xí)社競(jìng)賽專(zhuān)區(qū)大佬專(zhuān)訪(fǎng)。

坐鎮(zhèn)大佬:

mathor:武漢某高校軟件工程大四學(xué)生(數(shù)學(xué)家是我理想)

AI 研習(xí)社 ID:@mathor

(個(gè)人主頁(yè)鏈接:https://www.yanxishe.com/center/myPage/5148812


「微博立場(chǎng)檢測(cè)」賽事鏈接:https://god.yanxishe.com/44 

mathor 大佬聊賽事:處理「微博立場(chǎng)檢測(cè)」賽事,數(shù)據(jù)比模型重要

AI 研習(xí)社:簡(jiǎn)單介紹一下你的個(gè)人背景,讓我們更了解你唄。

mathor:我現(xiàn)在就讀于武漢一所普通高校,大四,今年 6 月份畢業(yè),然后參加了 20 年的研究生入學(xué)考試。我的本科是軟件工程專(zhuān)業(yè)。

AI 研習(xí)社:之前參加過(guò)類(lèi)似的比賽嗎?

mathor:這已經(jīng)是我第二次參賽。第一次參賽是在 19 年暑假,那是一場(chǎng)高校大數(shù)據(jù)挑戰(zhàn)賽,賽題是廣告點(diǎn)擊預(yù)測(cè)。那一場(chǎng)賽題比較簡(jiǎn)單,尤其數(shù)據(jù)字段較少,不需要運(yùn)用很復(fù)雜的特征工程,非常適合當(dāng)時(shí)的我。

AI 研習(xí)社:比起其他 NLP 賽事,你認(rèn)為“微博立場(chǎng)檢測(cè)”有何不同之處?它是怎么影響你的答題思路的?

mathor:首先,“微博立場(chǎng)檢測(cè)”賽事的字段較少,意味著我們不需要做復(fù)雜的特征工程,對(duì)新手較友好。

其次,數(shù)據(jù)量少,所以只需要普通的 cpu 就能跑。

最后,正因?yàn)閿?shù)據(jù)量較少,所以許多大佬慣用的深度學(xué)習(xí)方法,如 bert、lstm 等,使用后效果可能不是很好。反而是對(duì)模型了解較少,但是非常擅長(zhǎng)處理數(shù)據(jù)的同學(xué),會(huì)有更好的成績(jī)。

AI 研習(xí)社:所以說(shuō)你在上周五的 PPT 里著重強(qiáng)調(diào)了“數(shù)據(jù)清洗”的作用,這一塊方便細(xì)談一下嗎?

mathor:這次比賽的數(shù)據(jù)都是中文的,相比英文而言,中文數(shù)據(jù)的清洗過(guò)程更復(fù)雜。

首先你得分詞,這里就會(huì)面臨很多問(wèn)題,比如不同分詞工具的效果不一致,而且不存在分詞 100% 正確的工具。

其次,分完詞后,你還將面臨各種亂七八糟的字符,如網(wǎng)址、驗(yàn)證碼、表情和中文標(biāo)點(diǎn)符號(hào),這些實(shí)際上沒(méi)什么意義,如果可以過(guò)濾掉這些,肯定會(huì)對(duì)結(jié)果產(chǎn)生很大的影響。

假設(shè)現(xiàn)在有一個(gè)非常干凈的數(shù)據(jù)樣本,隨便帶入一個(gè)機(jī)器學(xué)習(xí)的模型,得出的結(jié)果不一定比非常亂的樣本帶入深度學(xué)習(xí)模型的效果差。

AI 研習(xí)社:所以你采取了“pkuseg分詞+fasttext”的方案。

mathor:采取 fasttext 的原因是它非常簡(jiǎn)單,隨便調(diào)一下就能用,這樣我可以把更多精力集中在數(shù)據(jù)處理上。(mathor 大佬參賽baseline:https://god.yanxishe.com/codeplan/detail/72

AI 研習(xí)社:你的 PPT 里還提到一點(diǎn),就是要善用分詞工具的語(yǔ)料庫(kù),這一塊又是基于什么考量呢?

mathor:像我前面說(shuō)過(guò)的,不存在 100% 分詞正確的分詞工具,所以應(yīng)該要想盡辦法提高分詞的準(zhǔn)確度。

假設(shè)分詞不正確,后面的過(guò)濾可能就會(huì)出現(xiàn)問(wèn)題——比方說(shuō)很多同學(xué)會(huì)過(guò)濾掉長(zhǎng)度等于 1 的字符,但是如果一開(kāi)始分詞的時(shí)候就不準(zhǔn)確,結(jié)果過(guò)濾的時(shí)候把一些重要的信息過(guò)濾掉了,對(duì)結(jié)果肯定有影響。

而各種語(yǔ)料庫(kù)就是為了幫助提升分詞的準(zhǔn)確性。

AI 研習(xí)社:在數(shù)據(jù)處理這塊,你比較推薦哪些學(xué)習(xí)材料?

mathor:我基本上很少保存資料,都是需要用到的時(shí)候才 Google ,查不到了再來(lái)問(wèn)人。

以下這個(gè)表情包我個(gè)人覺(jué)得非常經(jīng)典(笑)。

mathor 大佬聊賽事:處理「微博立場(chǎng)檢測(cè)」賽事,數(shù)據(jù)比模型重要

AI 研習(xí)社:你的 AI 基礎(chǔ)知識(shí)也是自學(xué)的吧?有沒(méi)有什么較好的網(wǎng)站或課程推薦?

mathor:龍曲良老師的 pytorch 課程。

AI 研習(xí)社:據(jù)了解,你還擁有自己的個(gè)人博客,可以向我們介紹一下嗎?

mathor:我的個(gè)人博客網(wǎng)址是 https://wmathor.com/ ,里頭主要更新自然語(yǔ)言處理、算法等技術(shù)方面的內(nèi)容,少量寫(xiě)一些個(gè)人感悟之類(lèi)的。

AI 研習(xí)社:你覺(jué)得寫(xiě)個(gè)人博客對(duì)你最大的影響是什么?

mathor:學(xué)習(xí)完了,要是不及時(shí)做筆記,最后會(huì)忘記的(笑)。

AI 研習(xí)社:還有哪些關(guān)于“微博立場(chǎng)檢測(cè)”的關(guān)鍵信息,是我的問(wèn)題沒(méi)問(wèn)出來(lái),你認(rèn)為有必要跟大家強(qiáng)調(diào)的?

mathor:現(xiàn)在比較流行集成模型,有時(shí)間的大佬可以嘗試建立多個(gè)模型,然后做個(gè)簡(jiǎn)單的投票,或者stacking之類(lèi)的,或許有奇效。畢竟那么多比賽,那么多人都在用。

這是模型方面,數(shù)據(jù)處理方面我就不多說(shuō)了,已經(jīng)快要接觸到我的方法的核心了 (笑)。

AI 研習(xí)社:最后一個(gè)問(wèn)題,你認(rèn)為什么是“打比賽的正確姿勢(shì)”?

mathor:不要隨便提交代碼,因?yàn)槊刻焯峤坏拇螖?shù)有限;

同時(shí)不要過(guò)分相信驗(yàn)證集的分?jǐn)?shù),很可能不準(zhǔn),所以一定要有自己預(yù)判分?jǐn)?shù)的方法,什么方法都行;

然后就是,不會(huì)的就及時(shí)上網(wǎng)查,原理不懂不要緊,最重要的是要能快速使用。


「微博立場(chǎng)檢測(cè)」賽事鏈接:https://god.yanxishe.com/44

mathor 大佬聊賽事:處理「微博立場(chǎng)檢測(cè)」賽事,數(shù)據(jù)比模型重要

雷鋒網(wǎng) 雷鋒網(wǎng) 雷鋒網(wǎng) 

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開(kāi)發(fā)者。更多精彩內(nèi)容,請(qǐng)?jiān)L問(wèn):yanxishe.com
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)