知乎 “看山杯” 奪冠記

本文作者： AI研習(xí)社

編輯：賈智龍

2017-09-01 16:42

導(dǎo)語：本文是一篇來自知乎2017看山杯冠軍的分享。

雷鋒網(wǎng)按：本文原作者陳云，原載于知乎專欄。雷鋒網(wǎng)已獲得作者授權(quán)。

知乎看山杯奪冠記

比賽源碼（PyTorch 實(shí)現(xiàn)）github 地址 https://github.com/chenyuntc/PyTorchText
比賽官網(wǎng)： https://biendata.com/competition/zhihu/
比賽結(jié)果官方通告： https://zhuanlan.zhihu.com/p/28912353

七月，酷暑難耐，認(rèn)識(shí)的幾位同學(xué)參加知乎看山杯，均取得不錯(cuò)的排名。當(dāng)時(shí)天池 AI 醫(yī)療大賽初賽結(jié)束，官方正在為復(fù)賽進(jìn)行平臺(tái)調(diào)試，復(fù)賽時(shí)間一拖再拖?？粗鴰孜煌瑢W(xué)在比賽中排名都還很不錯(cuò)，于是決定抽空試一試。結(jié)果一發(fā)不可收拾，又找了兩個(gè)同學(xué)一起組隊(duì)（隊(duì)伍 init）以至于整個(gè)暑假都投入到這個(gè)比賽之中，并最終以一定的優(yōu)勢(shì)奪得第一名（參見最終排名）。

1. 比賽介紹

這是一個(gè)文本多分類的問題：目標(biāo)是 “參賽者根據(jù)知乎給出的問題及話題標(biāo)簽的綁定關(guān)系的訓(xùn)練數(shù)據(jù)，訓(xùn)練出對(duì)未標(biāo)注數(shù)據(jù)自動(dòng)標(biāo)注的模型”。通俗點(diǎn)講就是：當(dāng)用戶在知乎上提問題時(shí)，程序要能夠根據(jù)問題的內(nèi)容自動(dòng)為其添加話題標(biāo)簽。一個(gè)問題可能對(duì)應(yīng)著多個(gè)話題標(biāo)簽，如下圖所示。

知乎 “看山杯” 奪冠記

這是一個(gè)文本多分類，多 label 的分類問題（一個(gè)樣本可能屬于多個(gè)類別）。總共有 300 萬條問題 - 話題對(duì)，超過 2 億詞，4 億字，共 1999 個(gè)類別。

1.1 數(shù)據(jù)介紹

參考 https://biendata.com/competition/zhihu/data/

總的來說就是：

數(shù)據(jù)經(jīng)過脫敏處理，看到的不是 “如何評(píng)價(jià) 2017 知乎看山杯機(jī)器學(xué)習(xí)比賽”，而是 “w2w34w234w54w909w2343w1"這種經(jīng)過映射的詞的形式，或者是”c13c44c4c5642c782c934c02c2309c42c13c234c97c8425c98c4c340" 這種經(jīng)過映射的字的形式。
因?yàn)樵~和字經(jīng)過脫敏處理，所以無法使用第三方的詞向量，官方特地提供了預(yù)訓(xùn)練好的詞向量，即 char_embedding.txt 和 word_embedding.txt ，都是 256 維。
主辦方提供了 1999 個(gè)類別的描述和類別之間的父子關(guān)系（比如機(jī)器學(xué)習(xí)的父話題是人工智能，統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)），但這個(gè)知識(shí)沒有用上。
訓(xùn)練集包含 300 萬條問題的標(biāo)題（title），問題的描述（description）和問題的話題（topic）
測(cè)試集包含 21 萬條問題的標(biāo)題（title）, 問題的描述 (description)，需要給出最有可能的 5 個(gè)話題（topic）

1.2 數(shù)據(jù)處理

數(shù)據(jù)處理主要包括兩部分：

char_embedding.txt 和 word_embedding.txt 轉(zhuǎn)為 numpy 格式，這個(gè)很簡(jiǎn)單，直接使用 word2vec 的 python 工具即可
對(duì)于不同長(zhǎng)度的問題文本，pad 和截?cái)喑梢粯娱L(zhǎng)度的（利用 pad_sequence 函數(shù)，也可以自己寫代碼 pad）。太短的就補(bǔ)空格，太長(zhǎng)的就截?cái)?。操作圖示如下：

知乎 “看山杯” 奪冠記

1.3 數(shù)據(jù)增強(qiáng)

文本中數(shù)據(jù)增強(qiáng)不太常見，這里我們使用了 shuffle 和 drop 兩種數(shù)據(jù)增強(qiáng)，前者打亂詞順序，后者隨機(jī)的刪除掉某些詞。效果舉例如圖：

知乎 “看山杯” 奪冠記

1.4 評(píng)價(jià)指標(biāo)

每個(gè)預(yù)測(cè)樣本，提供最有可能的五個(gè)話題標(biāo)簽，計(jì)算加權(quán)后的準(zhǔn)確率和召回率，再計(jì)算 F1 值。注意準(zhǔn)確率是加權(quán)累加的，意味著越靠前的正確預(yù)測(cè)對(duì)分?jǐn)?shù)貢獻(xiàn)越大，同時(shí)也意味著準(zhǔn)確率可能高于 1，但是 F1 值計(jì)算的時(shí)候分子沒有乘以 2，所以 0.5 是很難達(dá)到的。

$知乎 “看山杯” 奪冠記$

具體評(píng)價(jià)指標(biāo)說明請(qǐng)參照

https://biendata.com/competition/zhihu/evaluation/

2 模型介紹

建議大家先閱讀這篇文章，了解文本多分類問題幾個(gè)常用模型：用深度學(xué)習(xí)（CNN RNN Attention）解決大規(guī)模文本分類問題

2.1 通用模型結(jié)構(gòu)

文本分類的模型很多，這次比賽中用到的模型基本上都遵循以下的架構(gòu)：

知乎 “看山杯” 奪冠記

基本思路就是，詞（或者字）經(jīng)過 embedding 層之后，利用 CNN/RNN 等結(jié)構(gòu)，提取局部信息、全局信息或上下文信息，利用分類器進(jìn)行分類，分類器的是由兩層全連接層組成的。

在開始介紹每個(gè)模型之前，這里先下個(gè)結(jié)論：

當(dāng)模型復(fù)雜到一定程度的時(shí)候，不同模型的分?jǐn)?shù)差距很小！

2.2 TextCNN

這是最經(jīng)典的文本分類模型，這里就不細(xì)說了，模型架構(gòu)如下圖：

知乎 “看山杯” 奪冠記

和原始的論文的區(qū)別就在于：

使用兩層卷積
使用更多的卷積核，更多尺度的卷積核
使用了 BatchNorm
分類的時(shí)候使用了兩層的全連接

總之就是更深，更復(fù)雜。不過卷積核的尺寸設(shè)計(jì)的不夠合理，導(dǎo)致感受野差距過大。

2.3 TextRNN

沒找到論文，我就憑感覺實(shí)現(xiàn)了一下：

知乎 “看山杯” 奪冠記

相比于其他人的做法，這里的不同點(diǎn)在于：

使用了兩層的雙向 LSTM。
分類的時(shí)候不是只使用最后一個(gè)隱藏元的輸出，而是把所有隱藏元的輸出做 K-MaxPooling 再分類。

2.4 TextRCNN

參考原論文的實(shí)現(xiàn)，和 RNN 類似，也是兩層雙向 LSTM，但是需要和 Embedding 層的輸出 Concat(類似于 resnet 的 shortcut 直連)。

知乎 “看山杯” 奪冠記

2.5 TextInception

這個(gè)是我自己提出來的，參照 TextCNN 的思想（多尺度卷積核），模仿 Inception 的結(jié)構(gòu)設(shè)計(jì)出來的，一層的 Inception 結(jié)構(gòu)如下圖所示，比賽中用了兩層的 Inception 結(jié)構(gòu)，最深有 4 層卷積，比 TextCNN 更深。

知乎 “看山杯” 奪冠記

2.6 各個(gè)模型分?jǐn)?shù)計(jì)算

訓(xùn)練的時(shí)候，每個(gè)模型要么只訓(xùn)練基于詞（word）的模型，要么只訓(xùn)練基于字（char）的模型。各個(gè)模型的分?jǐn)?shù)都差不多，這里不再單獨(dú)列出來了，只區(qū)分訓(xùn)練的模型的類型和數(shù)據(jù)增強(qiáng)與否。

知乎 “看山杯” 奪冠記

可以看出來

基于詞的模型效果遠(yuǎn)遠(yuǎn)好于基于字的（說明中文分詞很有必要）。
數(shù)據(jù)增強(qiáng)對(duì)基于詞（word）的模型有一定的提升，但是對(duì)于基于字（char）的模型主要是起到副作用。
各個(gè)模型之間的分?jǐn)?shù)差距不大。

2.7 模型融合

像這種模型比較簡(jiǎn)單，數(shù)據(jù)量相對(duì)比較小的比賽，模型融合是比賽獲勝的關(guān)鍵。

在這里，我只使用到了最簡(jiǎn)單的模型融合方法 ----- 概率等權(quán)重融合。對(duì)于每個(gè)樣本，單模型會(huì)給出一個(gè) 1999 維的向量，代表著這個(gè)模型屬于 1999 個(gè)話題的概率。融合的方式就是把每一個(gè)模型輸出的向量直接相加，然后選擇概率最大的 5 個(gè)話題提交。結(jié)構(gòu)如圖所示：

知乎 “看山杯” 奪冠記

下面我們?cè)賮砜纯磧蓚€(gè)模型融合的分?jǐn)?shù)：

知乎 “看山杯” 奪冠記

第一列的對(duì)比模型采用的是 RNN（不采用數(shù)據(jù)增強(qiáng)，使用 word 作為訓(xùn)練數(shù)據(jù)），第二列是四個(gè)不同的模型（不同的結(jié)構(gòu)，或者是不同的數(shù)據(jù)）。

我們可以得出以下幾個(gè)結(jié)論：

從第一行和第二行的對(duì)比之中我們可以看出，模型差異越大提升越多（RNN 和 RCNN 比較相似，因?yàn)樗麄兊讓佣疾捎昧穗p向 LSTM 提取特征），雖然 RCNN 的分?jǐn)?shù)比 Inception 要高，Inception 對(duì)模型融合的提升更大。
從第一行和第四行的對(duì)比之中我們可以看出，數(shù)據(jù)的差異越大，融合的提升越多，雖然基于字（char）訓(xùn)練的模型分?jǐn)?shù)比較低，但是和基于詞訓(xùn)練的模型進(jìn)行融合，還是能有極大的提升。
采用數(shù)據(jù)增強(qiáng)，有助于提升數(shù)據(jù)的差異性，對(duì)模型融合的提升幫助也很大。

總結(jié)： 差異性越大，模型融合效果越好。沒有差異性，創(chuàng)造條件也要制造差異性。

2.8 MultiModel

其實(shí)模型融合的方式，我們換一種角度考慮，其實(shí)就是一個(gè)很大的模型，每一個(gè)分支就像多通道的 TextCNN 一樣。那么我們能不能訓(xùn)練一個(gè)超級(jí)大的模型？答案是可以的，但是效果往往很差。因?yàn)槟Ｐ瓦^于復(fù)雜，太難以訓(xùn)練。這里我嘗試了兩種改進(jìn)的方法。

第一種方法，利用預(yù)訓(xùn)練好的單模型初始化復(fù)雜模型的某一部分參數(shù)，模型架構(gòu)如圖所示：

知乎 “看山杯” 奪冠記

但是這種做法會(huì)帶來一個(gè)問題：模型過擬合很嚴(yán)重，難以學(xué)習(xí)到新的東西。因?yàn)閱文Ｐ驮谟?xùn)練集上的分?jǐn)?shù)都接近 0.5，已經(jīng)逼近理論上的極限分?jǐn)?shù)，這時(shí)候很難接著學(xué)習(xí)到新的內(nèi)容。這里采取的應(yīng)對(duì)策略是采用較高的初始學(xué)習(xí)率，強(qiáng)行把模型從過擬合點(diǎn)拉出來，使得模型在訓(xùn)練集上的分?jǐn)?shù)迅速降低到 0.4 左右，然后再降低學(xué)習(xí)率，緩慢學(xué)習(xí)，提升模型的分?jǐn)?shù)。

第二種做法是修改預(yù)訓(xùn)練模型的 embedding 矩陣為官方給的 embedding 權(quán)重。這樣共享 embedding 的做法，能夠一定程度上抑制模型過擬合，減少參數(shù)量。雖然 CNN/RNN 等模型的參數(shù)過擬合，但是由于相對(duì)應(yīng)的 embedding 沒有過擬合，所以模型一開始分?jǐn)?shù)就會(huì)下降許多，然后再緩慢提升。這種做法更優(yōu)。在最后提交模型復(fù)現(xiàn)成績(jī)的時(shí)候，我只提交了七個(gè)這種模型，里面包含著不同子模型的組合，一般包含 3-4 個(gè)子模型。這種方式生成的權(quán)重文件也比較小（600M-700M 左右），上傳到網(wǎng)盤相對(duì)來說更方便。

知乎 “看山杯” 奪冠記

2.9 失敗的模型和方法

MultiMode 只是我諸多嘗試的方法中比較成功的一個(gè)，其它方法大多以失敗告終（或者效果不明顯）

數(shù)據(jù)多折訓(xùn)練：因?yàn)檫^擬合嚴(yán)重，想著先拿一半數(shù)據(jù)訓(xùn)，允許它充分過擬合，然后再拿另外一半數(shù)據(jù)訓(xùn)。效果不如之前的模型。
Attention Stack，參考了這篇文章，其實(shí)本質(zhì)上相當(dāng)于調(diào)權(quán)重，但是效果有限，還麻煩，所以最后直接用等權(quán)重融合（權(quán)重全設(shè)為 1）。
Stack，太費(fèi)時(shí)費(fèi)力，浪費(fèi)了不少時(shí)間，也有可能是實(shí)現(xiàn)有誤，提升有限，沒有繼續(xù)研究下去。
Boost，和第二名 Koala 的方法很像，先訓(xùn)一個(gè)模型，然后再訓(xùn)第二個(gè)模型和第一個(gè)模型的輸出相加，但是固定第一個(gè)模型的參數(shù)。相當(dāng)于不停的修正上一個(gè)模型誤判的 (可以嘗試計(jì)算一下梯度，你會(huì)發(fā)現(xiàn)第一個(gè)模型已經(jīng)判對(duì)的樣本，即使第二個(gè)模型判別錯(cuò)了，第二個(gè)模型的梯度也不會(huì)很大，即第二個(gè)模型不會(huì)花費(fèi)太多時(shí)間學(xué)習(xí)這個(gè)樣本）。但是效果不好，原因：過擬合很嚴(yán)重，第一個(gè)模型在訓(xùn)練集上的分?jǐn)?shù)直接就逼近 0.5，導(dǎo)致第二個(gè)模型什么都沒學(xué)到。Koala 隊(duì)伍最終就是憑借著這個(gè) Boost 模型拿到了第二名，我過早放棄，沒能在這個(gè)方法上有所突破十分遺憾。
TTA（測(cè)試時(shí)數(shù)據(jù)增強(qiáng)），相當(dāng)于在測(cè)試的時(shí)候人為的制造差異性，對(duì)單模型的效果一般，對(duì)融合幾乎沒有幫助。
Hyperopt 進(jìn)行超參數(shù)查詢，主要用來查詢模型融合的權(quán)重，效果一般，最后就也沒有使用了，就手動(dòng)稍微調(diào)了一下。
label 設(shè)權(quán)重，對(duì)于正樣本給予更高的權(quán)重，訓(xùn)練模型，然后和正常權(quán)重的模型進(jìn)行融合，在單模型上能夠提升 2-3 個(gè)千分點(diǎn)（十分巨大），但是在最后的模型融合是效果很有限（0.0002），而且需要調(diào)整權(quán)重比較麻煩，遂舍棄。