用機器學習鑒定《鬼吹燈 1-4》是不是天下霸唱所寫

本文作者： AI研習社

編輯：賈智龍

2017-04-17 16:18

導語：《鬼吹燈》作者之謎由此解開。

原作者聲明：寫這篇文章的目的，是找個小課題來應用下機器學習的知識。文章內容既不中立，也不客觀，更不實事求是。你們隨便看看就好。

[1] 引子

鬼吹燈是一本我很喜歡的網絡小說，它幫助我度過無數個空虛寂寞孤獨冷的夜晚。不但文字看了一遍，后來被青雪故事出了有聲書以后我還聽了一遍。

按照作者描述，鬼吹燈一共出了 8 本，寫作時間是 06 年 2 月到 08 年 2 月。雖然我們都知道一個系列開頭精彩、后面爛尾的可能性是極大的，可鬼吹燈前四部跟后四部的差距也太大了吧。

鬼吹燈 1（前四部）的發(fā)生在知青大時代中。那是一個蔑視一切牛鬼蛇神的時代，而各種詭異的神秘事件又發(fā)生在軍隊中，最不信邪的一幫人遇到了邪乎事，到底怎么辦？

連我老媽讀了以后，也問我「粽子」到底有沒有（作者說這個完全是他創(chuàng)造的名詞啦）。而鬼吹燈后四本的時候，整個風格就變掉了。于是就有一堆網友質疑一個沒經歷過知青的年輕人怎么寫得如此生動，后面又出來說前四部其實是一個知青老教師寫的。

對于寫作「抄襲」這事，似乎有一種叫做「文體學」的研究來解決。它的思路是一個人的寫作內容會經常改變，但不經意間養(yǎng)成的小習慣是不太會變的。

這個不經意的小習慣，就是對于副詞、助詞、介詞的使用。

我們只要分析天下霸唱在副詞、助詞、介詞使用的特點，就可以找到鬼吹燈前后四部是不是一個人寫的了。這件事恰好是機器學習擅長的。

[2] 工作流

對于這種比較復雜的工作，實現設定一個工作流有助于自己在陷進去解決細節(jié)的時候，不至于迷失了最終解決問題的方向。

我的工作流是這樣的：

收集鬼吹燈的 txt 版本，作為機器學習的基礎素材；
選取漢語詞典收錄的常見助詞、副詞、介詞，作為特征詞；
由于這次找到的特征詞都是單字，我就不用分詞，直接算天下霸唱文章出現這些單字的頻次；
計算每 N 萬字的鬼吹燈片段出現特征字的次數，作為樣本 x[i]（經過幾次試驗，N 選為 1 萬字）；
將樣本 x[i] 用 PCA 方法降到二維畫圖，直觀感受自己的假設到底合不合理，調整 N 萬字的大小和特征詞的選擇（降維僅用于畫圖，不參與模型預測）；
將 x[i] 標準化，減少異常值；
隨機選 70% 的數據進行機器學習建模（用 LogisticRegression 方法）；
用剩下的 30% 數據進行預測，看準確性。

好了，下面正式開始。

[3] 選取特征詞

一開始我認為老知青用字的廣度可能沒有現代人這么多。于是我用過最常見的 500 個漢字、2500 個漢字、次常用的 1000 個漢字來做特征，降維后畫出來的圖效果并不好。說明大家的用詞廣度上沒有太大區(qū)別。

后來分別用了常用助詞、介詞、副詞降維來作圖，區(qū)分讀已經比較高了?？紤]到這點數據量處理的性能不是問題，我就將助詞 + 介詞 + 副詞總共 655 個特征一起使用了。