0
在銀行這片票據“集散地”上,OCR并非新鮮事物。
早在2017、2018年,隨著銀行各業(yè)務線數(shù)字化轉型提速,涉及憑證票證類別的需求不斷增加,各大銀行就將大量定制化OCR模型引入業(yè)務系統(tǒng)。
這讓原本全憑“手工勞作”的票據錄入,搭乘上效率“直升機”,沖破了票據處理的效率屏障。
國有大行探索OCR的時間則更早。
2013年,在數(shù)字化號角還未吹得像今天這般響亮時,某國有大行便成立專門的技術研發(fā)團隊,完成了OCR技術從0到1的探索。遵照“兩錄一?!钡脑瓌t,原來需由兩位錄入員分別錄入憑證信息的工作,隨著OCR技術應用,替換成了一位人工錄入,一位OCR錄入,錄入人員立馬減半。
不過,隨著在OCR領域的深入探索,這家大型銀行也發(fā)現(xiàn),現(xiàn)有OCR技術能識別身份證、銀行卡等證件、增值稅專用發(fā)票、增值稅普通發(fā)票等有固定版式、文檔相對簡單的內容,但在面對銀行許多長尾場景下偏復雜的識別時,就容易無能為力。
特別是遇到以下兩種情況:第一票據版式不固定、樣本量較少;第二文檔中含有手寫體、中英韓法等多種語言、特殊字符等,識別準確率大大降低。
過往,為應對這些棘手問題,他們只能在前端繼續(xù)投入大量人力進行錄入和校驗,而在后端,則增加開發(fā)人員,對新出現(xiàn)的版式進行模型的重新配置。
眾所周知,銀行票據種類、版式多如牛毛,開發(fā)人員不斷“打補丁”的方式也只是杯水車薪、隔靴搔癢。
騰訊云售前架構師阿凱告訴雷峰網(公眾號:雷峰網),今年年初,他與這家國有大行研發(fā)中心負責OCR的項目經理溝通時發(fā)現(xiàn),對方已經圍繞OCR的整體研發(fā),打造了一支非常專業(yè)的團隊。
到底如何提升OCR的能力,使其能對除固定版式、常規(guī)文檔之外的版式、信息進行識別提取,并直接錄入,且保證識別準確率?
今年年初,騰訊云副總裁、騰訊優(yōu)圖實驗室總經理吳運聲去到了銀行,與對方金融科技院院長見了一面,讓這一問題有了新的解法。
事實上,騰訊優(yōu)圖也一直在嘗試攻克版式不固定、識別準確性的問題。
去年到今年,他們在OCR技術上發(fā)表了一系列的論文。其中關注復雜場景文檔信息提取的有三篇,分別著眼在大規(guī)模多模態(tài)文檔預訓練模型、泛化版式文檔信息提取、表格等復雜關系提取。直面挑戰(zhàn),攻克業(yè)界難題。
這里需理解一下多模態(tài)和單一模態(tài)。多模態(tài)是融合視覺信息、語義信息、布局排版信息等單一模態(tài)的集合體。騰訊優(yōu)圖在多模態(tài)文檔預訓練的基礎上,進一步統(tǒng)一了文檔結構化信息提取范式,形成智能結構化基礎模型,單一模型支持5000種以上版式。
就好比培養(yǎng)人的運動技能,基于常規(guī)多模態(tài)進行大規(guī)模訓練的模型,只是針對一項基本能力,比如說腿部力量,進行重點訓練;而基于智能結構化基礎模型,則是提前教會你足球、籃球、網球多項等運動的關鍵動作,這樣人們就能在日常生活中參與不同的運動。
放在金融文檔識別場景中,基于這種方式訓練出來的模型,泛化能力得到了極大提升,不論是銀行單據、票證、憑證等,它都能進行高精度的信息提取。
而這也恰恰解決了該銀行一直以來的困擾。
今年年初,在雙方高層進行溝通后的短短一個月內,該銀行就決定引入騰訊云TI-OCR產品,基于騰訊優(yōu)圖實驗室在OCR領域多年的積累,來對銀行業(yè)務處理票據錄入過程中的十大重點場景進行優(yōu)化升級,并把這一項目名稱取名為“多模態(tài)融合應用于計算機視覺”。
騰訊云產品架構師阿凱表示:“不論是信息提取還是表格還原,都用了多模態(tài)技術,這也給整個項目定調?!?/p>
以往,騰訊云往往是通過向客戶提供算法包、訓練平臺等原子化產品進行合作。但事實上,若要真正和客戶的實際業(yè)務相結合,不免還需涉及一些工程業(yè)務方面的開發(fā)。
為讓技術與業(yè)務更相融合,雙方決定成立聯(lián)合實驗室,探索更深入的合作。然而,剛開展合作就遇到的一個難題:銀行場景復雜多樣,到底選擇從哪一個場景開始下手?
騰訊優(yōu)圖算法研究員浩宇印象很深刻:“一開始確定業(yè)務場景時,行方一開始邀請我們分析了有差不多上千種場景,并梳理了其中痛點問題。”
通過反復分析,最終雙方達成一致,先啃“硬骨頭”,決定最先在托管對賬單、提單以及集中錄入這三個業(yè)務場景的結構化識別中用上多模態(tài)技術。
“托管對賬單、提單這幾個場景在業(yè)界比較接近天花板的難度?!苯桓都軜嫀熐锝追寰W說。
提單樣本圖,圖源網絡
以基金公司托管對賬單為例,各家基金公司在銀行內部托管一個公共賬號,記錄了投資人每一時段各基金持有份額和所有交易明細等,以方便投資人定期了解自己的交易情況。
這場景最大的難點有三個:
第一,版式多、樣本少。基金公司眾多且每家公司的賬單版式都不相同,且隨著業(yè)務擴展或變更,賬單板式也在發(fā)生變化。此外,也存在一些基金賬單比較少的情況,這都十分考驗OCR結構化提取模型。
第二,具有表格等復雜關系。多數(shù)基金賬單都是以表格形式呈現(xiàn),比如,XX在某年某月某日交易了XX金額,這需要OCR能夠從表格里面去提取結構化信息,而這也是目前業(yè)界普遍面臨的難點。
第三,還存在字段嵌套、容易混淆等問題。比如在基金單交易中,同時存在多個相同形式表格,但表頭的時間或含義不同,這要求OCR能夠區(qū)分出來各種表格對應的具體含義。
今年四月中旬,騰訊云動身派駐項目經理、算法研究員、交付架構師等項目成員去到該銀行,了解其實際業(yè)務運行情況,并確定方案進行指導標注。
然后,在合作過程中,他們也發(fā)現(xiàn),OCR技術從實驗室走向實際應用時,也還有一些坎需要跨越:
如何讓產品更滿足業(yè)務的需求?
即便是在實驗室打磨訓練過多次的產品,在遇到復雜的業(yè)務場景時,難免還是“不夠用”,需要項目團隊在產品實際落地過程中結合業(yè)務進一步“查漏補缺”。
浩宇提到,他們在印鑒卡的問題分析過程中就曾遇到過一個類似刮獎的密碼驗證圖層,在單據識別過程中,需驗證涂層是否完整,以及識別密碼涂層刮開后的文字?!斑@是我們在實驗室中完全沒見過的?!?/p>
與此同時,在實驗室中對事物的重要性判斷,和現(xiàn)實也可能會出現(xiàn)偏差。比如,實驗室更看重如何對表格中的信息進行提取,但在實際業(yè)務層面,還需要關注表格信息的含義,比如這是當前的基金交易信息,還是歷史交易信息。
面對這些分歧,雙方共同協(xié)商討論、解決問題也變得十分重要。
騰訊云、優(yōu)圖實驗室項目團隊交流中
經過半年的接觸和交流,交付架構師少凱談到,整個項目讓他感觸最深的有三個點,第一是銀行的配合和參與,第二是銀行的開放心態(tài),第三是銀行愿意學習的心態(tài)。
拿樣本圖舉例,一般樣本圖都散落在各個業(yè)務部門,開發(fā)部門也需要內部協(xié)調才能拿到樣本圖,但銀行每一次都會快速響應,及時從業(yè)務部門收集樣本圖。
與此同時,在整個合作過程,該銀行也一直強調,這次合作不僅是要獲得一套新工具,而且還要讓自己內部員工學習如何進行模型訓練,以及對模型訓練平臺有更深入了解,以便未來用到更多的場景中去。
托管對賬單這一場景從今年7月份左右開始正式建模,經過雙方的反復測試、溝通、改進,其字段識別準確率目前已達90%以上。此外,包括提單、集中錄入等9個場景,也將陸續(xù)上線。
隨著這種多模態(tài)技術加速滲透具體業(yè)務場景,該銀行也初嘗數(shù)字化的甜頭,其前端錄入環(huán)節(jié)將從單OCR錄入改為雙OCR錄入,減少了至少1/3左右的成本投入。
而后端開發(fā)上,以前開發(fā)人員需花上兩三天時間進行新版式的開發(fā),現(xiàn)如今只需要拿幾張圖進行標注訓練,一小時就能夠完成整體的訓練和上線的流程,極大提升了訓練效率,減輕了開發(fā)人員負擔。
接下來雙方也將繼續(xù)“雙劍合璧”,通過聯(lián)合開發(fā),讓票據識別向智能化、自動化邁進,讓票據錄入逐漸走入“無人區(qū)”。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。