0
本文作者: 楊曉凡 | 編輯:郭奕欣 | 2017-08-17 01:33 | 專題:ICML 2017 |
雷鋒網 AI 科技評論按:近日,ICML2017收錄的一篇論文引起了雷鋒網AI科技評論的注意。這篇關于序列數(shù)據(jù)預測的論文是 Alex Smola 和他在 CMU 時的兩個博士生 Manzil Zaheer 和 Amr Ahmed 共同完成的,后者目前已經加入谷歌大腦。
Alex Smola是機器學習界的重要人物,他的主要研究領域是可拓展算法、核方法、統(tǒng)計模型和它們的應用,已經發(fā)表超過200篇論文并參與編寫多本學術專著。他曾在NICTA、雅虎、谷歌從事研究工作,在2013到2016年間任CMU教授,之后來到亞馬遜任AWS的機器學習總監(jiān)。MXNet 在去年成為 Amazon AWS 的官方開源平臺,而 MXNet 的主要作者李沐正是 Alex Smola 在 CMU 時的學生。
以下雷鋒網 AI 科技評論就對這篇名為「Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequential Data」(潛LSTM分配:序列數(shù)據(jù)的聯(lián)合聚類和非線性動態(tài)建模)的論文做具體的介紹。
序列數(shù)據(jù)預測是機器學習領域的一個重要問題,這個問題在文本到用戶行為的各種行為中都會出現(xiàn)。比如在統(tǒng)計學語言建模應用中,研究目標是在給定的語境下預測文本數(shù)據(jù)的下一個單詞,這和用戶行為建模應用中根據(jù)用戶歷史行為預測下一個行為非常類似。準確的用戶行為建模就是提供用戶相關的、個性化的、有用的內容的重要基礎。
一個好的序列數(shù)據(jù)模型應當準確、稀疏、可解釋,然而目前所有的用戶模型或者文本模型都不能同時滿足這三點要求。目前最先進的序列數(shù)據(jù)建模方法是使用 LSTM(Long-Short Term Memory)這樣的 RNN 網絡,已經有許多例子證明他們可以有效地捕捉數(shù)據(jù)中的長模式和短模式,比如捕捉語言中表征級別的語義,以及捕捉句法規(guī)律。但是,這些神經網絡學到的表征總的來說不具有解釋性,人類也無法訪問。不僅如此,模型所含的參數(shù)的數(shù)量是和模型能夠預測的單詞類型或者動作類型成正比的,參數(shù)數(shù)量往往會達到千萬級甚至億級。值得注意的是,在用戶建模任務中,字符級別的 RNN 是不可行的,因為描述用戶行為的往往不是單詞而是 hash 指數(shù)或者 URL。
從另一個角度看這個問題,以 LDA 和其它一些變種話題模型為代表的多任務學習潛變量模型,它們是嚴格的非序列數(shù)據(jù)模型,有潛力很好地從文本和用戶數(shù)據(jù)中挖掘潛在結構,而且也已經取得了一些商業(yè)上的成果。話題模型很熱門,因為它們能夠在不同用戶(或文檔)之間共享統(tǒng)計強度,從而具有把數(shù)據(jù)組織為一小部分突出的主題(或話題)的能力。這樣的話題表征總的來說可以供人類訪問,也很容易解釋。
在這篇論文中,作者們提出了 Latent LSTM Allocation(潛LSTM分配,LLA)模型,它把非序列LDA的優(yōu)點嫁接到了序列RNN上面來。LLA借用了圖模型中的技巧來指代話題(關于一組有關聯(lián)的詞語或者用戶行為),方法是在不同用戶(或文檔)和循環(huán)神經網絡之間共享統(tǒng)計強度,用來對整個(用戶動作或者文檔)序列中的話題進化變化建模,拋棄了從單個用戶行為或者單詞級別做建模的方法。
LLA 繼承了 LDA 模型的稀疏性和可解釋性,同時還具有 LSTM 的準確率。作者們在文中提供了多個 LLA 的變種,在保持解釋性的前提下嘗試在模型大小和準確率之間找到平衡。如圖1所示,在基于Wikipedia數(shù)據(jù)集對語言建模的任務中,LLA 取得了接近 LSTM 的準確率,同時從模型大小的角度還保持了與 LDA 相同的稀疏性。作者們提供了一個高效的推理算法用于LLA的參數(shù)推理,并在多個數(shù)據(jù)集中展示了它的功效和解釋性。
柱狀圖是參數(shù)數(shù)量,折線是復雜度。根據(jù)圖中示意,在基于 Wikipedia 數(shù)據(jù)集的語言建模任務中,LLA 比 LDA 的復雜度更低,參數(shù)數(shù)量也比 LSTM 大大減少。
LLA 把分層貝葉斯模型和 LSTM 結合起來。LLA 會根據(jù)用戶的行為序列數(shù)據(jù)對每個用戶建模,模型還會同時把這些動作分為不同的話題,并且學到所分到的話題序列中的短期動態(tài)變化,而不是直接學習行為空間。這樣的結果就是模型的可解釋性非常高、非常簡明,而且能夠捕捉復雜的動態(tài)變化。作者們設計了一個生成式分解模型,先用 LSTM 對話題序列建模,然后用 Dirichlet 多項式對單詞散播建模,這一步就和 LDA 很相似。
假設話題數(shù)目為K、單詞庫大小為V;有一個文檔集D,其中單篇文檔d由Nd個單詞組成。生成式模型的完整流程就可以表示為(上圖 a 的為例):
在這樣的模型下,觀察一篇指定的文檔d的邊際概率就可以表示為:
式中,就是文檔中給定某個話題下的前幾個詞之后,對下一個次生成話題的概率;
則是給定了話題之后生成單詞的概率。這個公式就展現(xiàn)出了對基于 LSTM 和 LDA 的語言模型的簡單改動。
這種修改的好處有兩層,首先這樣可以獲得一個分解模型,參數(shù)的數(shù)量相比 RRLM 得到了大幅度減少。其次,這個模型的可解釋性非常高。
另一方面,為了實現(xiàn)基于 LLA 的推理算法,作者們用隨機 EM 方法對模型表示進行了近似,并設計了一些加速采樣方法。模型偽碼如下:
作者們認為,模型直接使用原始文本會比使用總結出的主題有更好的預測效果。所以在 Topic LLA之外,又提出了兩個變體 Word LLA 和 Char LLA (前文 a、b、c 三個模型),分別能夠直接處理原文本的單詞和字符(Char LLA自己會對字符串做出轉換,從而緩和 Word LLA 單詞庫過大的問題 )。
在幾個實驗中,作者們把60%的數(shù)據(jù)用于訓練模型,讓模型預測其余40%作為任務目標。同步對比的模型有自動編碼器(解碼器)、單詞級別LSTM、字符級別LSTM、LDA、Distance-dependent LDA。
柱狀圖部分的參數(shù)數(shù)量用來體現(xiàn)模型大小,折現(xiàn)的復雜度用于體現(xiàn)模型的準確率??梢钥吹剑瑑蓚€任務中 LDA 仍然保持了最小的模型大小,而單詞級別LSTM表現(xiàn)出了最高的準確率,但模型大小要高出一個數(shù)量級;從單詞級別LSTM到字符級別LSTM,模型大小基本減半,準確度也有所犧牲。
在這樣的對比之下就體現(xiàn)出了 LLA 的特點,在保持了與 LDA 同等的解釋性的狀況下,能夠在模型大小和準確度之間取得更好的平衡(目標并不是達到比LSTM更高的準確率)。
其它方面的對比如下:
收斂速度 LLA的收斂速度并沒有什么劣勢,比快速LDA采樣也只慢了一點點。不過基于字符的LSTM和LLA都要比其它的變體訓練起來慢一些,這是模型本質導致的,需要在單詞和字符層面的LSTM都做反向傳播。
特征效率 作者們做了嘗試,只具有250個話題的三種 LLA 模型都比具有1000個話題的 LDA 模型有更高的準確率。這說明 LLA 的特征效率更高。從另一個角度說,LLA 的表現(xiàn)更好不是因為模型更大,而是因為它對數(shù)據(jù)中的順序有更好的描述能力。
解釋性 LLA和LDA都能對全局主題做出揭示,LLA 總結出的要更加明確。如下表,LDA 會總結出“Iowa”,僅僅因為它在不同的文檔中都出現(xiàn)了;而 LLA 追蹤短期動態(tài)的特性可以讓它在句子的不同位置正確切換主題。
聯(lián)合訓練 由于論文中的模型可以切分為 LDA 和 LSTM 兩部分,作者們也對比了“聯(lián)合訓練”和“先訓練 LDA,再在話題上訓練 LSTM”兩種不同訓練方式的效果。結果表明,聯(lián)合訓練的效果要好很多,因為單獨訓練的 LDA 中產生的隨機錯誤也會被之后訓練的 LSTM 學到,LSTM 的學習表現(xiàn)就是由 LDA 的序列生成質量決定的。所以聯(lián)合訓練的狀況下可以提高 LDA 的表現(xiàn),從而提高了整個模型的表現(xiàn)。
論文地址:http://proceedings.mlr.press/v70/zaheer17a.html
雷鋒網 AI 科技評論編譯整理。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。