丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

專訪金山 AILab 實驗室負責人李長亮博士:在金山做 NLP 最重要的是保護用戶隱私

本文作者: skura 編輯:汪思穎 2019-03-25 11:17
導語:金山 AILab 布局 NLP 賽道,目前團隊已取得了多項研究成果。

雷鋒網(wǎng) AI 科技評論按,2018 年年底,在 2018 AI Challenger「英中文本機器翻譯」賽道上,金山 AI Lab 以極大的比分優(yōu)勢一舉奪冠。這對成立不到兩年的金山 AI Lab 來說,意義重大。它不僅是對團隊此前幾個月努力的認可,也證明了金山在機器翻譯領域的技術優(yōu)勢。

作為一家低調(diào)的公司,鮮少見到外界對金山 AI Lab 的報導。近日,雷鋒網(wǎng)采訪了金山 AI Lab 實驗室主任李長亮博士,就 AI Lab 的研究工作和發(fā)展進行了探討。

初見李博士,是 18 年年底在金山的一次媒體交流會上。當時,李博士戴著眼鏡,講話時溫和而有耐心,身上散發(fā)著濃濃的學術氣質(zhì),給雷鋒網(wǎng)留下了深刻的印象。本次采訪再見李博士,在一個多小時的交流過程中,雷鋒網(wǎng)被李博士淵博的學識、對科研的熱愛深深折服。

專訪金山 AILab 實驗室負責人李長亮博士:在金山做 NLP 最重要的是保護用戶隱私

金山集團AI Lab實驗室主任李長亮

李長亮,現(xiàn)任金山集團 AI Lab 實驗室主任,畢業(yè)于中國科學院自動化研究所,從事人工智能與自然語言處理研究,發(fā)表國際會議論文二十余篇,申請國家發(fā)明專利二十余項,主持多項重大課題,多次在國際競賽中獲得冠軍,先后入選中文信息學會青年工作委員會委員、語言與知識計算專業(yè)委員會委員、社會媒體處理專業(yè)委員會委員、人工智能學會自然語言理解專業(yè)委員會委員等等。

順應時代大勢,成立 AI Lab

2017 年 5 月,順應國家大勢和企業(yè)發(fā)展的需求,金山集團成立 AI Lab,由金山副總裁姚冬直接分管。

AI Lab 的定位是輔助金山集團的四個子公司——金山辦公、西山居、獵豹移動和金山云進行業(yè)務上的落地。據(jù)李博士透露,AI Lab 主要對金山辦公 WPS 提供技術上的輔助支持,接下來,團隊還會和金山云進行一些深度合作。

目前,金山 AI Lab 主攻 NLP 賽道,涵蓋圖像、文本、語音三大方向,主要研究內(nèi)容分為知識圖譜、機器翻譯、內(nèi)容推薦和智能校對等。研究項目主要分為兩類,一類是專注于落地的項目,如機器翻譯、智能校對等;另一類是專注于基礎服務的項目,例如知識圖譜,可以對這些直接落地的項目提供長期的輔助研究。

成立一年多以來,團隊碩果累累,在多個研究方向上都取得了很大的突破,如知識圖譜、機器翻譯等。在知識圖譜領域,2018 年金山 AI Lab 支援 WPS 智能公文寫作項目,構建了國內(nèi)第一個黨政知識圖譜。但進展最大的要數(shù)機器翻譯領域。過去一年,團隊在機器翻譯技術方面創(chuàng)新出層次注意力機制、高斯搜索等獨特算法,并在工程細節(jié)、特征提取等方面積累了豐富的經(jīng)驗。

團隊還有很多新布局的研究方向,閱讀理解、智能文檔、內(nèi)容推薦、語音合成、語音識別等等。這些都是根據(jù)用戶需求而提出的研究。比如語音識別和合成,雖然金山有大量的文檔,但是對于某些特殊的群體(如老人)或者在特殊的環(huán)境(如晚上睡覺前)下,有很多用戶希望聽到文檔的內(nèi)容而不是用眼睛去看。語音合成技術也是用在文檔上,可以選擇成熟男聲、優(yōu)美女聲童聲或者方言等,滿足不同用戶的需求。

AI Lab 最核心的優(yōu)勢是人才和數(shù)據(jù)

作為一家成立三十多年的大公司,金山在很多方面都有著自己獨特的優(yōu)勢。在李博士看來,金山 AI Lab 有兩大核心優(yōu)勢。

第一個核心優(yōu)勢是人才。目前,金山 AI Lab 不僅有五十多位專業(yè)的 NLP 人才,還有專業(yè)的數(shù)據(jù)標注團隊。近年來,隨著算法的進步、硬件的發(fā)展、大數(shù)據(jù)和互聯(lián)網(wǎng)的進步,人工智能技術迎來大爆發(fā)。經(jīng)過一段時間的發(fā)展,NLP 技術證明了它落地的可能性,但人工智能尤其是 NLP 技術的發(fā)展幾經(jīng)起落,學術界對人才的培養(yǎng)還沒有跟上來。目前,NLP 人才尤其短缺,人才是 AI Lab 最核心的競爭力之一。

金山 AI Lab 的第二個優(yōu)勢是數(shù)據(jù)。金山辦公作為一家專注于文檔處理的公司,在文檔數(shù)據(jù)量方面擁有較大優(yōu)勢,每天由 WPS Office 創(chuàng)建編輯文檔達 5 億,累計存儲文件 10PB。金山辦公用戶共享的海量數(shù)據(jù)對 AI Lab 研究 NLP 技術提供了絕對的優(yōu)勢。

作為 AI Lab 的負責人,李博士平時的工作除了科研任務以及業(yè)務上的對接之外,還要管理整個團隊,負責人才的招聘和培養(yǎng)。談到對人才的培養(yǎng),他認為最重要的一點是,讓合適的人在自己感興趣的領域里面發(fā)揮最大的價值?;谶@一理念,團隊成員的工作會參考每個人的興趣不定期進行一定程度的優(yōu)化調(diào)整。

專訪金山 AILab 實驗室負責人李長亮博士:在金山做 NLP 最重要的是保護用戶隱私

金山AI Lab團隊合影

參加 2018 AI Challenger「英中文本機器翻譯」比賽對團隊來說是一次非常難忘的一個經(jīng)歷,在準備比賽的一個多月的時間里,每個人都處于戰(zhàn)斗狀態(tài),每天廢寢忘食地研究到晚上十二點以后,才會陸續(xù)有人離開公司。這個過程不僅讓他們對機器翻譯這個領域有了更加深刻的理解,而且整個團隊的氛圍得到了很好的提升,團隊之間的協(xié)作更加默契。研究的過程雖然辛苦,但是也往往會發(fā)生一些趣事。比如,在模型測試過程當中,偶爾會出現(xiàn)一些翻譯得風馬牛不相及的句子,這給緊張的科研過程帶來了歡樂。

金山做 NLP 嚴格遵守并保護用戶隱私

談到在金山做 NLP 的難點,李博士認為,目前業(yè)界的難點是共通的,如句子的理解和生成,以及最基礎的分詞、詞性標注。但具體到公司,由于各家研究側(cè)重點不盡相同,所以面對的難點也都是有區(qū)別的。

對金山來說,目前還存在許多技術難題需要解決。例如,最基本分詞詞性標注 NLP,目前對底層的技術還沒有完全攻克,準確率大概才百分之九十幾,還不能夠達到讓用戶滿意的準確率。除了這些技術攻關外,在應用落地的時候,也會涉及到線上部署、用戶請求服務器等技術問題。

AI Lab 一直在進行技術上的優(yōu)化,在機器翻譯、閱讀理解、知識圖譜、內(nèi)容推薦和智能文檔等技術上的后續(xù)優(yōu)化也是目前一直在改進的方向。除了在效率和準確率上進行提升外,還需要做一些領域上的突破。比如,雖然 AI Lab 在機器翻譯上已經(jīng)取得了不錯的成果,但優(yōu)化也是無止境的。對于機器翻譯,在李博士看來,要做到「信達」并不難,但是要達到「雅」的境界就特別困難。用機器翻譯技術處理公文和一般的文檔并不難,但是如果要翻譯好一些文學作品,就要達到「雅」的境界,這是非常困難的。

除了這些難點,李博士認為在金山做研究重要的一點是嚴格遵守并保護用戶隱私。他們可以承諾的是,云文檔放在金山是絕對安全的。雖然他們知道用戶數(shù)據(jù)具有重大的研究價值,但是他們的原則是,絕不碰用戶數(shù)據(jù),這也是金山的底線和信仰。

目前對數(shù)據(jù)的處理方法是,所有的數(shù)據(jù)都被分解到不同的地方,存到不同的服務器上。技術人員接觸到的數(shù)據(jù)都是經(jīng)過拆分的,并保存在不同的地方。除此之外,他們還制定了一系列的規(guī)章制度,以確保數(shù)據(jù)的安全。用戶上傳的數(shù)據(jù),任何人都不能碰。

NLP 未來可期,目前的科研環(huán)境來之不易

當下人工智能的研究異常火爆,越來越多的人加入這個領域的研究,但在李博士看來,人工智能人才尤其的 NLP 領域的人才依然十分稀缺,這個行業(yè)仍然處于高速發(fā)展期,還遠遠不到產(chǎn)生泡沫的程度。

李博士認為,NLP 是人工智能里面最難的一個領域,這是因為它涉及到人類的高等智慧。即便對于受過良好高等教育的成年人來說,在理解語言的時候也可能不能正確地表達甚至會產(chǎn)生歧義。除此之外,NLP 更是會涉及到復雜的文化背景,并且成長經(jīng)歷不同、所處環(huán)境不同的人對語言的理解和使用也是不一樣的。

對于這一點,李博士給雷鋒網(wǎng)舉例說,目前,他們正在做的事情當中,有一項是根據(jù)用戶給定的一張圖片,生成一段文字來描述圖片中的場景。這就需要經(jīng)過大規(guī)模的學習做到,因為圖片中的場景要描述清楚,都需要知道相關的背景。再比如對某些要求比較高的 PPT,需要配圖,但是可能那個圖片描述的場景在現(xiàn)實中并沒有發(fā)生過,因此需要用人工智能理解 PPT 的文字描述,來合成所需要的圖片。所有這些,都涉及到人類的高等智慧,因此如果要做到很高的準確率,是比較難的。

談到 NLP 的未來,李博士非常樂觀。他認為 NLP 技術目前還處于剛起步的階段,正處于迅速發(fā)展期。近幾年,NLP 技術才剛開始找到大規(guī)模應用,并有其它技術輔助支持,所以接下來的五到十年將是 NLP 的黃金發(fā)展期。

隨著科技的發(fā)展和全球商業(yè)、工業(yè)的發(fā)展,目前優(yōu)秀的成果不僅會出現(xiàn)的企業(yè),也會出現(xiàn)在高校。目前,越來越多的學者從學術界投身到工業(yè)界。李博士認為目前學術界與工業(yè)界的研究處于齊頭并進的狀態(tài),很多優(yōu)秀的框架都是來自于工業(yè)界。去學術界或者工業(yè)界只是個人選擇,為社會培養(yǎng)人才也是高校的責任之一。相比于學校,企業(yè)的項目和社會結合更加緊密。

而當前的科研環(huán)境難能可貴,它是很多人經(jīng)過多年的努力、沉淀和積累發(fā)展起來的,這個環(huán)境需要所有人共同珍惜和維護。目前我們國家的現(xiàn)狀是,如果有哪個行業(yè)或者技術一旦變得火爆,資本和媒體就會蜂擁而至。然而,這些外部力量可能不會尊重技術,甚至會使整個行業(yè)變得浮夸,帶來不好的影響。作為一個認真做科研的人,對于這種情況,李博士表示了他的擔憂。他希望大家能夠能夠珍惜現(xiàn)在的發(fā)展環(huán)境。

一個多小時的采訪就此結束,在采訪的過程中,可以感受到李博士對科研是真心地熱愛。未來,金山 AILab 會帶給我們怎樣的驚喜?讓我們拭目以待。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

專訪金山 AILab 實驗室負責人李長亮博士:在金山做 NLP 最重要的是保護用戶隱私

分享:
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說