0
近來,一位流量明星的粉圈紛爭,意外將世界最大的同人小說網站 AO3 帶入更廣泛的大眾視線。可你知道嗎,世界上還有一個與同人有一定關系的 AI 小說創(chuàng)作網站。
請看下面兩段文字:
“The mirror of Borges. Summer, so I thought, I looked by drawing to reason. The mirrors preceded him out. The voice was the river of a few monstrous magnificent spirit of false form.”
“This day she has a commodity interest that my protection was the bearing a short an old acquaintance of her hands, and she was at the side of the death that are the same time and bringing him. Give me settled by these weeks to hear her for his whole fairy and fortune to be in the court of the same time.”
這兩段跳躍的、因果割裂的文字,是不是讓你看得一頭霧水?以上文字由兩位不同用戶,發(fā)表在 Literai 網站上,后者是由 3 位個人開發(fā)者在 2016 年建立的 AI 小說創(chuàng)作項目。Literai 提供了從如何訓練神經網絡模型到最后生成文字的詳細操作指南,普通人也可以用 AI 寫出自己想要的小說。
雖然生成的文章有著這樣那樣的問題,兩位用戶對此倒還算滿意。第一個以阿根廷作家博爾赫斯的全部小說集作為數據集,用 512 個神經元和兩個隱藏層訓練神經網絡,經過 19850 次迭代得到了這篇文章。
第二個網友則用了自己最迷戀的英國作家簡·奧斯汀和一點點瑪麗·雪萊的作品。在生成《Of Crying and Captains 》之前,電腦跑了一整天,“對于這個模型的創(chuàng)建來說,語氣和句子結構是最重要的兩件事。當我閱讀這篇文章時,我真切地感受到英國的智慧正悄悄潛入我的內心。”該用戶表示。
Literai 的發(fā)展與同人文化還有著一定關系。
左:Anthony Voutas 右:Myles O’Neill
2016 年,神經網絡在前面幾年取得長足進步,在灣區(qū)有三位志同道合的年輕人——他們分別是在 Kaggle 的 Myles O’Neill,以及其它科技創(chuàng)業(yè)公司的 Anthony Voutas 和 sadora Lamego,一起計劃做一個讓更多人參與感受 AI 的項目。
雷鋒網了解到,Myles O’Neill、Anthony Voutas 研究生都就讀于澳洲國立大學計算機專業(yè),期間學習過神經網絡,而 sadora Lamego 當時正在伯克利大學開設了同人小說的課程。頭腦風暴后,他們意識到,有可能并且想要創(chuàng)造自己的神經網絡來寫故事。
另外,該網站上現(xiàn)存的像模像樣的幾篇小說都是同人作品,除了前文提到的,還有《Harry Potter and the Cream Cake Of Dumbledore 》《The Adventures of Cyborg Holmes》 《South Park: Deeper & Harder》、《Return of the Computer Jedi 》等。網站似乎沒有審核機制,有網友上傳的無意義的文字,也有人直接上傳了《殺死一只知更鳥》這本書的前幾章。
接下來就讓我們看看具體怎么操作的吧。
作者們提供了 Mac 和 Windows 兩個版本的操作指南,不過第一步都是相同的,需要安裝 Docker,因為必須有 Hyper-V,所以如果是 Windows 版本,必須是 Windows 專業(yè)版及更高才行。;
第二步是創(chuàng)建數據庫。神經網絡剛開始對拼寫、標點、單詞字符、情節(jié)、語法常識都一竅不通,需要從零開始從給它的素材中學習這些概念。其中重點要學的是更微妙的部分,比如文風或結構。你喂給它莎士比亞,它就會寫出莎士比亞風。
背后的關鍵技術就是長短期記憶神經網絡( long short-term memory neural network)。它一次創(chuàng)建一個字符的內容,每個新字符都是基于它已經學習的內容。
網站提到,用戶可以從谷歌、Project Gutenberg、IMSDB、MLDB 數據庫,或者是其它用戶所附帶的數據文件等獲取訓練數據集。一般來說,數據集越大,AI 寫得更好。1MB (200000字)是最低的要求。3-10MB 是合理的范圍,10 或 100MB 就算得上大數據集,則更理想,當然在個人 PC 訓練可能需要幾周甚至幾個月的時間。
第三需要預處理數據,調整一些參數。
第四啟動 Docker,將數據文本復制到 Docker 容器中,然后開始訓練。注意保持電腦充電且不休眠。因為作者發(fā)布網站較早,指引中用的是 torch-rnn。幾小時或幾天后,用戶會收獲一個合乎心意的神經網絡模型,輸入命令,小說就會誕生了。
目前網站上傳都是英文小說,理論上也可以通過學習其他語言作品來用其他語言寫作。作者也指出,目前寫出來的文章還是頗為生硬,但是它最強的一點是可以比較深刻地洞察和模仿素材庫的模式與文風。
2019 年 2 月,OpenAI 發(fā)布了自己具有 15 億個參數的語言模型 GPT-2,當時它就展示了頗為驚人的短句續(xù)寫成能力。最近有位網友就用這個模型跑了一遍,生成了一段文字發(fā)表在該網站上,與作者當時用的 torch-rnn 寫出來的文字相比,無疑有很大的進步,不僅上下文聯(lián)系、有層層遞進的對話,語法還幾乎沒有錯誤,有點以假亂真了。
It was a woman who was wearing a black dress and glasses.She was standing in front of the door, and she was looking at me.
I smiled and said to her:"I am L'Lambda."
"Oh, hey, hey! You look like an adventurer, aren't you?"
"I am L'Lambda the Demon Lord."
"Who is that?" The woman asked. She had heard and admired L'Lambda's fighting skills and strength.
"I have been holding this girl for two years now. This is a slave that I have bought from a man. She has been with me for two years now, and I am holding her now."
"What kind of a place this is?"
"I have heard that L'Lambda has been living in a mansion in a mountain outside of the Kingdom of Altdorf that is very large. It is said that there is a lot of money here."
"There is?"
"Of course."
事實上,AI,或者更廣義的機器文學創(chuàng)作,在這一波 AI 復興之前就存在。如果認真區(qū)分,還有程序寫作 Program Writing,使用計算機程序來生成文字;電腦生成文學 Computer-Generated Literary Art,主要是計算機與文學方面的結合,偏藝術創(chuàng)作。而人工智能、機器學習的發(fā)展,則是提供了一個更好的工具。
以上圖書都有電腦程序寫作的部分
Myles O’Neill 曾在項目 Github 頁面上提過一句,計劃應用這個產品參加 2016 年的 NaNoGenMo 故事。
雷鋒網了解到,NaNoGenMo 全稱 National Novel Generation Month,是一年一度的寫作機器人峰會,第一次在 2013 年 11 月舉辦,擁有程序員+藝術家雙重身份的 Darius Kazemi 心血來潮將想法發(fā)表在推特上,獲得了許多支持,他就在 GitHub 建立了一個倉庫。
峰會名稱來源于國家小說寫作月 NaNoWriMo(National Novel Writing Month),同時也沿用了其兩條規(guī)則:作品必須在 30 天內完成,而且至少要寫夠 5 萬字(官方 Github:https://github.com/NaNoGenMo)。NaNoGenMo 一直開到 2019 年,去年的主題是與愛連結。
在 NLP、神經網絡發(fā)展之前的 2014 年,大多數的作品都是使用創(chuàng)造性的規(guī)則轉換已有的文本,這也導致了作品的相似性。
搜索者
2014 年有一篇作品叫《搜索者》,作者 Thricedotted 使用了夢幻般的方式去探索機器智能的奇異之美。這是一本試圖通過閱讀維基百科來了解人類行為的機器的自傳。文字充斥著視覺美感,用抽象的雨點來給每一次算法操作的循環(huán)加標注。文章常常是割裂的,而美感也來自于閱讀者感受到的片段式意境。
而隨著 AI 復興,在文章寫作之外,人們還將 AI 延伸到了更廣泛的文學藝術領域。比如在文學的明珠詩歌領域,微軟 2014 年起開始研究虛擬機器人小冰,她第一次破圈就是以少女詩人的身份,寫出過“愛情就像脂肪,是點點滴滴的積累”,并在 2017 年出了一本名為《陽光失了玻璃窗》的詩集,如今已經更新到第七代。
一個叫作 Benjamin 的 AI 在 2016 年倫敦科幻電影節(jié)上用 48 小時創(chuàng)作了名為《Sunspring》的短片,兩年后又花兩天制作了一部叫作《Zone Out》的微電影。
Zone Out 微電影截圖,有網友表示風格類似 David Lynch
雷鋒網了解到, 清華孫茂松教授帶領學生推出了一個 AI 作詩系統(tǒng)九歌(http://jiuge.thunlp.cn/cangtou.html),2015 年底開始開發(fā),2019 年 7 月宣布開源。
藏頭詩
以上項目的原理也類同 Literai,基于 LSTM 學習大量文本數據。小冰的現(xiàn)代詩創(chuàng)作能力,是通過對 1920 年后 519 位現(xiàn)代詩人的上千首詩反復學習(術語稱為迭代)10000 次達成的。Benjamin 則吸收了幾十個拍攝于 1980 至 1990 年代的科幻電影劇本。
而與此同時,AI 文學的差評也開始多了起來。小冰風頭最盛,批評也最多?!蛾柟馐Я瞬AТ啊返脑娂拱暝u分 5.5 分,批評主要聚焦在:寫詩是人類精神的表達,而小冰的詩沒有靈魂和情感,只是簡單地堆砌文字,缺乏內在的抒情邏輯。
有詩人表示,“無論輸入多少句子還是寫不了真詩,真詩是有靈性的?!薄啊”晒Φ貙W會了新詩的糟粕,寫的都是濫調?!?/p>
在現(xiàn)階段,與其說機器是在創(chuàng)作,不如說是在隨機性地排列組合文字。過去、現(xiàn)在的主流觀點一直都是,科技、邏輯、理性不是一切,永遠無法超越文學藝術。劉慈欣的一篇短篇小說《詩云》曾對這種情況做出過終極猜想。
無所不能的神級文明代表,立志寫出超越李白的詩。方法一是寫出超越李白的詩,但由于缺乏對美的理解,折戟;方法二,窮盡所有文字,寫完所有的詩。 他大手筆地用整個太陽系的物質能量來存儲所有的詩,太陽熄滅、重燃 11 次后,在原來太陽系的位置,出現(xiàn)了一片直徑為一百個天文單位的旋渦狀星云。
而最后,神卻抽泣著承認失敗,因為他即使寫出了巔峰的詩,卻無法從詩云中篩選出來。
“智慧生命的精華和本質,是技術所無法觸及的?!?/p>
參考:
https://arcade.stanford.edu/blogs/nanogenmo-dada-20
https://www.literai.com/story/2d97fec855
http://www.ce.cn/culture/gd/201705/30/t20170530_23321994.shtml
https://zhuanlan.zhihu.com/p/30640458?from_voters_page=true
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。