0
本文作者: 陳伊莉 | 2018-05-09 15:09 |
正如公司的名字一樣,庖丁科技也是利用一把鋒利的刀——基于自然語言處理與計算機(jī)視覺,實(shí)現(xiàn)金融文檔結(jié)構(gòu)化,從而切入金融市場。
中科院計算所副研究員兼博導(dǎo)、庖丁科技首席科學(xué)家羅平對雷鋒網(wǎng)AI金融評論表示,作為一種應(yīng)用科學(xué),計算機(jī)在研究和應(yīng)用階段的目標(biāo)和工作方式存在差異?!跋噍^而言,實(shí)際應(yīng)用可能會耗費(fèi)更多的人力和工程量。若劃分個百分比,前期研究是20%,應(yīng)用產(chǎn)品化是80%?!倍回灡种鴱膶?shí)際需求中挖掘研究內(nèi)容。
一方面是監(jiān)管機(jī)構(gòu)對金融文檔有著真實(shí)、準(zhǔn)確、完整要求,另一方面則是金融從業(yè)者面臨著繁雜的文檔數(shù)據(jù)處理、審核等困境。針對于此,庖丁科技專注于核心技術(shù)金融文檔結(jié)構(gòu)化的研究與工程化。簡單而言,金融文檔結(jié)構(gòu)化就是提取出金融文檔中的核心信息,轉(zhuǎn)化為可供計算機(jī)搜索、比對、分析的結(jié)構(gòu)化數(shù)據(jù)。而關(guān)鍵信息一般藏在兩個地方:一是大量的表格,二是自然語言段落。
在去年7月雷鋒網(wǎng)承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會上,羅平曾為觀眾展示了庖丁科技早期的產(chǎn)品——AutoDoc,主要能夠復(fù)核金融文檔表格及語言中的數(shù)字勾稽關(guān)系。
如下圖所示,根據(jù)文檔中的表格數(shù)據(jù),機(jī)器可自動計算出“2016年主營收入較2015年下降的比例”應(yīng)該為“12.43%”,但文字中的顯示為“11.29%”。
當(dāng)時,羅平還表示,出于教育市場的目的,他們預(yù)先發(fā)布了一版免費(fèi)的AutoDoc軟件,支持金融文檔中數(shù)據(jù)勾稽關(guān)系的復(fù)核和筆誤修改,復(fù)核重點(diǎn)是數(shù)字,后續(xù)將會增加自動撰寫、智能分析,并增添人名、事件表述等復(fù)核功能。一年后,庖丁迭代了企業(yè)版本,據(jù)稱目前已在券商內(nèi)部測試使用。而那些后續(xù)功能將只在企業(yè)版本中提供。
除了AutoDoc企業(yè)版本的進(jìn)展,他們還推出了一個新產(chǎn)品——PDFlux,將PDF電子文檔轉(zhuǎn)換成Excel表格。其中最關(guān)鍵的實(shí)現(xiàn)了無邊框表格提取。據(jù)羅平介紹,企業(yè)財報中有一些出于美觀考慮的無線框表格的存在,而一般使用pdf轉(zhuǎn)化器后,表格數(shù)據(jù)會被打亂。通過預(yù)測表格的外框和內(nèi)線,他們最終實(shí)現(xiàn)了數(shù)據(jù)提取。
北京銀行年報無邊框表格提取,210頁大約用時7~8分鐘
獲得數(shù)據(jù)后即可直接拷貝到Excel或者word中使用。這項(xiàng)技術(shù)和產(chǎn)品的價值在哪兒呢?羅平表示,國內(nèi)一些金融數(shù)據(jù)公司實(shí)質(zhì)上就是賣數(shù)據(jù)的公司,從上深交所發(fā)布的報告中扒下數(shù)據(jù),通過半自動化加人工的方式,提取報表數(shù)據(jù)?!翱赡苄枰脦装偃?,而錄入一期財務(wù)報表至少需要3~5小時,而我們只需要幾分鐘?!?/p>
PDFlux也發(fā)布了一個免費(fèi)版本,當(dāng)前還未對速度進(jìn)行優(yōu)化。經(jīng)雷鋒網(wǎng)AI金融評論嘗試,北京銀行210頁年報大約處理用時7~8分鐘,杭州銀行15頁的2018一季度報只用了3分鐘。
當(dāng)然該產(chǎn)品并不包含圖表的識別。羅平解釋說,這是因?yàn)橄噍^于表格,圖表的的應(yīng)用價值并不高?!霸谄髽I(yè)發(fā)布的業(yè)績報告中,所有的關(guān)鍵信息都在表格中;而圖表可能只有5%及以下,且理解難度也很高,從投入產(chǎn)出來看并不值當(dāng)?!?/p>
據(jù)稱,基于金融文檔結(jié)構(gòu)化技術(shù),庖丁能夠推出更多豐富的應(yīng)用,比如合規(guī)、風(fēng)控,甚至自動撰寫?!疤孤收f,我們前期的主要工作都放在突破底層關(guān)鍵技術(shù),建立技術(shù)壁壘;有了核心技術(shù),我們會將精力轉(zhuǎn)移到商業(yè)化產(chǎn)品端。 “
雷鋒網(wǎng)AI金融評論還就公司與行業(yè)發(fā)展與羅平展開了更深入的對話:
雷鋒網(wǎng)AI金融評論:庖丁的自我定位究竟是怎樣的?曾有一家媒體將庖丁公司歸類到智能投研,而在此之前也看到CEO接受采訪時表示,庖丁對標(biāo)美國大數(shù)據(jù)公司Palantir,也說“AI公司未來會是新的金融機(jī)構(gòu),未來庖丁科技要成為新的資產(chǎn)管理機(jī)構(gòu)。”
羅平:我們是一家金融科技公司,智能投研只是該領(lǐng)域的一部分。另外,我們認(rèn)為通過技術(shù)未來可以自然地轉(zhuǎn)型成一個新型金融機(jī)構(gòu)。換個角度,AutoDoc的目標(biāo)是減少投行重復(fù)的投入,可能現(xiàn)在投行100個人,利用我們的工具后只需要10個人,也就是說相當(dāng)于這個工具占到90%的工作量。那么從技術(shù)角度切入,未來延伸至業(yè)務(wù)層面,順理成章。當(dāng)然,還需要考慮到監(jiān)管因素。
雷鋒網(wǎng)AI金融評論:目前庖丁科技發(fā)布的產(chǎn)品實(shí)際為投研人員提供了便利。國內(nèi)一些開發(fā)投研工具的公司已經(jīng)不少,有推出企業(yè)知識圖譜、金融搜索引擎等工具,相較起來庖丁科技的切入點(diǎn)更小更聚焦。
羅平:我明白你的意思,市場存在這樣認(rèn)知的從業(yè)者不在少數(shù)。但我想說的是,我們所做的金融文檔結(jié)構(gòu)化底層技術(shù)實(shí)際上都可以實(shí)現(xiàn)這些功能。這些工具說起來還是解決工程化的問題,并沒有什么技術(shù)難度。
我們能夠看到一些企業(yè)知識圖譜展示,比如列出一家公司的前十大用戶或者供應(yīng)商名單。而事實(shí)上,后臺數(shù)據(jù)庫已經(jīng)存儲好了這些信息,相當(dāng)于只是做了數(shù)據(jù)庫查詢,并把查詢的內(nèi)容可視化。
核心的技術(shù)門檻應(yīng)該在如何實(shí)時的構(gòu)建這樣的數(shù)據(jù)庫。也就是說,怎么知道這家公司的上下游公司在哪里?這些信息實(shí)際上都存在于披露的金融文檔中,我們需要實(shí)時的抽取出來。這就需要自動化的表格理解和自然語言理解技術(shù)。
雷鋒網(wǎng)AI金融評論:在沒有自動化處理能力或者不成熟之前,同類公司如何為投資者提供足夠多的數(shù)據(jù)?人工?
羅平:這就千差萬別了。第一類是半自動化+人工實(shí)現(xiàn)的,比如萬得。第二類則是通過不正當(dāng)?shù)氖侄沃苯荧@取結(jié)構(gòu)化數(shù)據(jù)。
雷鋒網(wǎng)AI金融評論:公司的商業(yè)化進(jìn)展如何?在B端部署時數(shù)據(jù)如何處理?
羅平:除了C端試用產(chǎn)品,主要目標(biāo)對象是國內(nèi)券商等金融機(jī)構(gòu)和監(jiān)管單位。收費(fèi)模式包括按次收費(fèi)或者按軟件收費(fèi)。我們會到相關(guān)機(jī)構(gòu)部署系統(tǒng),數(shù)據(jù)也會存儲在他們內(nèi)部。
雷鋒網(wǎng)AI金融評論:AutoDoc企業(yè)版本中有自動撰寫功能,該工作的難點(diǎn)是什么?在此之前,我們確實(shí)有看到一些機(jī)器人自動撰寫的簡短的新聞。
羅平:大家不要對能夠幫助投行從業(yè)者自動撰寫的功能抱有太高的期望。比如一個IPO的招股書,我覺得自動撰寫的比例會在50%以下,甚至更低。
我們首先需要明確撰寫的內(nèi)容,目前能夠?qū)崿F(xiàn)的是根據(jù)一張財務(wù)報表的數(shù)字進(jìn)行自然語言描述,比如今年的指標(biāo),同比增長等,或者說可以叫做輔助撰寫。
但如果出現(xiàn)一個異常增長率,一般監(jiān)管都需要其作出解釋。那么這個原因,不論是開拓的新業(yè)務(wù)或者是政策變化,機(jī)器是無法自動生成原因的,仍然需要人工撰寫。
雷鋒網(wǎng)AI金融評論:“庖丁科技未來的應(yīng)用場景包括監(jiān)管合規(guī),目前的使用者上傳了數(shù)萬份金融市場信息報表?!痹趺蠢斫饽銈兊淖饔?,有什么實(shí)際應(yīng)用嗎?
羅平:監(jiān)管有個最基本的需求就是復(fù)核年報或者IPO招股書的數(shù)據(jù)。另外,他們還希望對金融市場做到風(fēng)控管理,也需要公司的底層財務(wù)和業(yè)務(wù)數(shù)據(jù)。金融文檔結(jié)構(gòu)化是一切后續(xù)應(yīng)用的基礎(chǔ)。實(shí)際上,我們已經(jīng)與某發(fā)債監(jiān)管單位簽訂了系統(tǒng)合約。
雷鋒網(wǎng)AI金融評論:那么行業(yè)的競爭壁壘是在哪里?之前看到你接受采訪時談到在于“技術(shù)+金融數(shù)據(jù)理解?!?/strong>
羅平:我覺得真正壁壘是如何獲取金融數(shù)據(jù),這是計算機(jī)的壁壘,是我們主要做的事情。獲取的速度和精度,將體現(xiàn)出迥然不同的應(yīng)用價值。
有了底層的金融數(shù)據(jù),需要將金融以及行業(yè)知識融入計算機(jī)技術(shù),這才是金融從業(yè)者發(fā)揮價值的廣闊舞臺。我們的策略是,先做計算機(jī)的事情;做好之后,金融的事情應(yīng)該是一片藍(lán)海。
雷鋒網(wǎng)AI金融評論:近年來我們能看到許多新金融業(yè)態(tài)監(jiān)管收嚴(yán),比如智能投顧、網(wǎng)貸等,但你們所在的細(xì)分領(lǐng)域似乎并沒有太多的監(jiān)管壓力。
羅平:我們所在的市場比較開放、健康。做監(jiān)管科技,是為了穩(wěn)定、管理金融市場。我覺得這塊市場類似于傳統(tǒng)的安防行業(yè),用AI技術(shù)穩(wěn)定金融市場,或者可以叫“金融安防市場?!?/span>
雷鋒網(wǎng)AI金融評論:關(guān)于行業(yè)現(xiàn)狀,你有感而發(fā)一句“魚龍混雜”,這主要指什么問題?
羅平:魚龍混雜主要指的是各公司的技術(shù)水平,含金量在于底下的數(shù)據(jù)來源,有些公司甚至?xí)`取他人數(shù)據(jù)。底層數(shù)據(jù)的來源也決定了是否能夠真正構(gòu)建“知識圖譜”,一些所謂的AI公司充其量只是做了數(shù)據(jù)“展示”而已。
相關(guān)文章:
中科院羅平演講全文:自動撰寫金融文檔如何實(shí)現(xiàn),用 AI 解救“金融民工” | CCF-GAIR 2017
中科院羅平:人工智能在智能投行中的應(yīng)用 | CCF-GAIR 2017
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。