國(guó)有大行OCR「進(jìn)化論」：一個(gè)雙劍合璧的「樣本」

本文作者：胡敏

2022-09-08 19:09

導(dǎo)語(yǔ)：一張小票據(jù)，也蘊(yùn)藏著騰訊優(yōu)圖的底氣和耐性。

面對(duì)版式不固定、特殊字符

定制化OCR「不靈了」

在銀行這片票據(jù)“集散地”上，OCR并非新鮮事物。

早在2017、2018年，隨著銀行各業(yè)務(wù)線數(shù)字化轉(zhuǎn)型提速，涉及憑證票證類別的需求不斷增加，各大銀行就將大量定制化OCR模型引入業(yè)務(wù)系統(tǒng)。

這讓原本全憑“手工勞作”的票據(jù)錄入，搭乘上效率“直升機(jī)”，沖破了票據(jù)處理的效率屏障。

國(guó)有大行探索OCR的時(shí)間則更早。

2013年，在數(shù)字化號(hào)角還未吹得像今天這般響亮?xí)r，某國(guó)有大行便成立專門的技術(shù)研發(fā)團(tuán)隊(duì)，完成了OCR技術(shù)從0到1的探索。遵照“兩錄一校”的原則，原來(lái)需由兩位錄入員分別錄入憑證信息的工作，隨著OCR技術(shù)應(yīng)用，替換成了一位人工錄入，一位OCR錄入，錄入人員立馬減半。

不過(guò)，隨著在OCR領(lǐng)域的深入探索，這家大型銀行也發(fā)現(xiàn)，現(xiàn)有OCR技術(shù)能識(shí)別身份證、銀行卡等證件、增值稅專用發(fā)票、增值稅普通發(fā)票等有固定版式、文檔相對(duì)簡(jiǎn)單的內(nèi)容，但在面對(duì)銀行許多長(zhǎng)尾場(chǎng)景下偏復(fù)雜的識(shí)別時(shí)，就容易無(wú)能為力。

特別是遇到以下兩種情況：第一票據(jù)版式不固定、樣本量較少；第二文檔中含有手寫體、中英韓法等多種語(yǔ)言、特殊字符等，識(shí)別準(zhǔn)確率大大降低。

過(guò)往，為應(yīng)對(duì)這些棘手問(wèn)題，他們只能在前端繼續(xù)投入大量人力進(jìn)行錄入和校驗(yàn)，而在后端，則增加開(kāi)發(fā)人員，對(duì)新出現(xiàn)的版式進(jìn)行模型的重新配置。

眾所周知，銀行票據(jù)種類、版式多如牛毛，開(kāi)發(fā)人員不斷“打補(bǔ)丁”的方式也只是杯水車薪、隔靴搔癢。

騰訊云售前架構(gòu)師阿凱告訴雷峰網(wǎng)，今年年初，他與這家國(guó)有大行研發(fā)中心負(fù)責(zé)OCR的項(xiàng)目經(jīng)理溝通時(shí)發(fā)現(xiàn)，對(duì)方已經(jīng)圍繞OCR的整體研發(fā)，打造了一支非常專業(yè)的團(tuán)隊(duì)。

到底如何提升OCR的能力，使其能對(duì)除固定版式、常規(guī)文檔之外的版式、信息進(jìn)行識(shí)別提取，并直接錄入，且保證識(shí)別準(zhǔn)確率？

今年年初，騰訊云副總裁、騰訊優(yōu)圖實(shí)驗(yàn)室總經(jīng)理吳運(yùn)聲去到了銀行，與對(duì)方金融科技院院長(zhǎng)見(jiàn)了一面，讓這一問(wèn)題有了新的解法。

多模態(tài)融合技術(shù)

提升OCR模型泛化能力

事實(shí)上，騰訊優(yōu)圖也一直在嘗試攻克版式不固定、識(shí)別準(zhǔn)確性的問(wèn)題。

去年到今年，他們?cè)贠CR技術(shù)上發(fā)表了一系列的論文。其中關(guān)注復(fù)雜場(chǎng)景文檔信息提取的有三篇，分別著眼在大規(guī)模多模態(tài)文檔預(yù)訓(xùn)練模型、泛化版式文檔信息提取、表格等復(fù)雜關(guān)系提取。直面挑戰(zhàn)，攻克業(yè)界難題。

這里需理解一下多模態(tài)和單一模態(tài)。多模態(tài)是融合視覺(jué)信息、語(yǔ)義信息、布局排版信息等單一模態(tài)的集合體。騰訊優(yōu)圖在多模態(tài)文檔預(yù)訓(xùn)練的基礎(chǔ)上，進(jìn)一步統(tǒng)一了文檔結(jié)構(gòu)化信息提取范式，形成智能結(jié)構(gòu)化基礎(chǔ)模型，單一模型支持5000種以上版式。

就好比培養(yǎng)人的運(yùn)動(dòng)技能，基于常規(guī)多模態(tài)進(jìn)行大規(guī)模訓(xùn)練的模型，只是針對(duì)一項(xiàng)基本能力，比如說(shuō)腿部力量，進(jìn)行重點(diǎn)訓(xùn)練；而基于智能結(jié)構(gòu)化基礎(chǔ)模型，則是提前教會(huì)你足球、籃球、網(wǎng)球多項(xiàng)等運(yùn)動(dòng)的關(guān)鍵動(dòng)作，這樣人們就能在日常生活中參與不同的運(yùn)動(dòng)。

放在金融文檔識(shí)別場(chǎng)景中，基于這種方式訓(xùn)練出來(lái)的模型，泛化能力得到了極大提升，不論是銀行單據(jù)、票證、憑證等，它都能進(jìn)行高精度的信息提取。

而這也恰恰解決了該銀行一直以來(lái)的困擾。

今年年初，在雙方高層進(jìn)行溝通后的短短一個(gè)月內(nèi)，該銀行就決定引入騰訊云TI-OCR產(chǎn)品，基于騰訊優(yōu)圖實(shí)驗(yàn)室在OCR領(lǐng)域多年的積累，來(lái)對(duì)銀行業(yè)務(wù)處理票據(jù)錄入過(guò)程中的十大重點(diǎn)場(chǎng)景進(jìn)行優(yōu)化升級(jí)，并把這一項(xiàng)目名稱取名為“多模態(tài)融合應(yīng)用于計(jì)算機(jī)視覺(jué)”。

騰訊云產(chǎn)品架構(gòu)師阿凱表示：“不論是信息提取還是表格還原，都用了多模態(tài)技術(shù)，這也給整個(gè)項(xiàng)目定調(diào)?！?/p>

成立聯(lián)合實(shí)驗(yàn)室

讓技術(shù)與業(yè)務(wù)更相融

以往，騰訊云往往是通過(guò)向客戶提供算法包、訓(xùn)練平臺(tái)等原子化產(chǎn)品進(jìn)行合作。但事實(shí)上，若要真正和客戶的實(shí)際業(yè)務(wù)相結(jié)合，不免還需涉及一些工程業(yè)務(wù)方面的開(kāi)發(fā)。

為讓技術(shù)與業(yè)務(wù)更相融合，雙方?jīng)Q定成立聯(lián)合實(shí)驗(yàn)室，探索更深入的合作。然而，剛開(kāi)展合作就遇到的一個(gè)難題：銀行場(chǎng)景復(fù)雜多樣，到底選擇從哪一個(gè)場(chǎng)景開(kāi)始下手？

騰訊優(yōu)圖算法研究員浩宇印象很深刻：“一開(kāi)始確定業(yè)務(wù)場(chǎng)景時(shí)，行方一開(kāi)始邀請(qǐng)我們分析了有差不多上千種場(chǎng)景，并梳理了其中痛點(diǎn)問(wèn)題?！?/p>

通過(guò)反復(fù)分析，最終雙方達(dá)成一致，先啃“硬骨頭”，決定最先在托管對(duì)賬單、提單以及集中錄入這三個(gè)業(yè)務(wù)場(chǎng)景的結(jié)構(gòu)化識(shí)別中用上多模態(tài)技術(shù)。

“托管對(duì)賬單、提單這幾個(gè)場(chǎng)景在業(yè)界比較接近天花板的難度?！苯桓都軜?gòu)師秋健對(duì)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))說(shuō)。

國(guó)有大行OCR「進(jìn)化論」：一個(gè)雙劍合璧的「樣本」

提單樣本圖，圖源網(wǎng)絡(luò)

以基金公司托管對(duì)賬單為例，各家基金公司在銀行內(nèi)部托管一個(gè)公共賬號(hào)，記錄了投資人每一時(shí)段各基金持有份額和所有交易明細(xì)等，以方便投資人定期了解自己的交易情況。

這場(chǎng)景最大的難點(diǎn)有三個(gè)：

第一，版式多、樣本少?；鸸颈姸嗲颐考夜镜馁~單版式都不相同，且隨著業(yè)務(wù)擴(kuò)展或變更，賬單板式也在發(fā)生變化。此外，也存在一些基金賬單比較少的情況，這都十分考驗(yàn)OCR結(jié)構(gòu)化提取模型。

第二，具有表格等復(fù)雜關(guān)系。多數(shù)基金賬單都是以表格形式呈現(xiàn)，比如，XX在某年某月某日交易了XX金額，這需要OCR能夠從表格里面去提取結(jié)構(gòu)化信息，而這也是目前業(yè)界普遍面臨的難點(diǎn)。

第三，還存在字段嵌套、容易混淆等問(wèn)題。比如在基金單交易中，同時(shí)存在多個(gè)相同形式表格，但表頭的時(shí)間或含義不同，這要求OCR能夠區(qū)分出來(lái)各種表格對(duì)應(yīng)的具體含義。

國(guó)有大行OCR「進(jìn)化論」：一個(gè)雙劍合璧的「樣本」

從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用

還有兩道坎要跨越

今年四月中旬，騰訊云動(dòng)身派駐項(xiàng)目經(jīng)理、算法研究員、交付架構(gòu)師等項(xiàng)目成員去到該銀行，了解其實(shí)際業(yè)務(wù)運(yùn)行情況，并確定方案進(jìn)行指導(dǎo)標(biāo)注。

然后，在合作過(guò)程中，他們也發(fā)現(xiàn)，OCR技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用時(shí)，也還有一些坎需要跨越：

如何讓產(chǎn)品更滿足業(yè)務(wù)的需求？

即便是在實(shí)驗(yàn)室打磨訓(xùn)練過(guò)多次的產(chǎn)品，在遇到復(fù)雜的業(yè)務(wù)場(chǎng)景時(shí)，難免還是“不夠用”，需要項(xiàng)目團(tuán)隊(duì)在產(chǎn)品實(shí)際落地過(guò)程中結(jié)合業(yè)務(wù)進(jìn)一步“查漏補(bǔ)缺”。

浩宇提到，他們?cè)谟¤b卡的問(wèn)題分析過(guò)程中就曾遇到過(guò)一個(gè)類似刮獎(jiǎng)的密碼驗(yàn)證圖層，在單據(jù)識(shí)別過(guò)程中，需驗(yàn)證涂層是否完整，以及識(shí)別密碼涂層刮開(kāi)后的文字?！斑@是我們?cè)趯?shí)驗(yàn)室中完全沒(méi)見(jiàn)過(guò)的?！?/p>

與此同時(shí)，在實(shí)驗(yàn)室中對(duì)事物的重要性判斷，和現(xiàn)實(shí)也可能會(huì)出現(xiàn)偏差。比如，實(shí)驗(yàn)室更看重如何對(duì)表格中的信息進(jìn)行提取，但在實(shí)際業(yè)務(wù)層面，還需要關(guān)注表格信息的含義，比如這是當(dāng)前的基金交易信息，還是歷史交易信息。

雙劍合璧

票據(jù)識(shí)別漸入「無(wú)人區(qū)」

面對(duì)這些分歧，雙方共同協(xié)商討論、解決問(wèn)題也變得十分重要。

國(guó)有大行OCR「進(jìn)化論」：一個(gè)雙劍合璧的「樣本」

騰訊云、優(yōu)圖實(shí)驗(yàn)室項(xiàng)目團(tuán)隊(duì)交流中

經(jīng)過(guò)半年的接觸和交流，交付架構(gòu)師少凱談到，整個(gè)項(xiàng)目讓他感觸最深的有三個(gè)點(diǎn)，第一是銀行的配合和參與，第二是銀行的開(kāi)放心態(tài)，第三是銀行愿意學(xué)習(xí)的心態(tài)。

拿樣本圖舉例，一般樣本圖都散落在各個(gè)業(yè)務(wù)部門，開(kāi)發(fā)部門也需要內(nèi)部協(xié)調(diào)才能拿到樣本圖，但銀行每一次都會(huì)快速響應(yīng)，及時(shí)從業(yè)務(wù)部門收集樣本圖。

與此同時(shí)，在整個(gè)合作過(guò)程，該銀行也一直強(qiáng)調(diào)，這次合作不僅是要獲得一套新工具，而且還要讓自己內(nèi)部員工學(xué)習(xí)如何進(jìn)行模型訓(xùn)練，以及對(duì)模型訓(xùn)練平臺(tái)有更深入了解，以便未來(lái)用到更多的場(chǎng)景中去。

托管對(duì)賬單這一場(chǎng)景從今年7月份左右開(kāi)始正式建模，經(jīng)過(guò)雙方的反復(fù)測(cè)試、溝通、改進(jìn)，其字段識(shí)別準(zhǔn)確率目前已達(dá)90%以上。此外，包括提單、集中錄入等9個(gè)場(chǎng)景，也將陸續(xù)上線。

隨著這種多模態(tài)技術(shù)加速滲透具體業(yè)務(wù)場(chǎng)景，該銀行也初嘗數(shù)字化的甜頭，其前端錄入環(huán)節(jié)將從單OCR錄入改為雙OCR錄入，減少了至少1/3左右的成本投入。

而后端開(kāi)發(fā)上，以前開(kāi)發(fā)人員需花上兩三天時(shí)間進(jìn)行新版式的開(kāi)發(fā)，現(xiàn)如今只需要拿幾張圖進(jìn)行標(biāo)注訓(xùn)練，一小時(shí)就能夠完成整體的訓(xùn)練和上線的流程，極大提升了訓(xùn)練效率，減輕了開(kāi)發(fā)人員負(fù)擔(dān)。

接下來(lái)雙方也將繼續(xù)“雙劍合璧”，通過(guò)聯(lián)合開(kāi)發(fā)，讓票據(jù)識(shí)別向智能化、自動(dòng)化邁進(jìn)，讓票據(jù)錄入逐漸走入“無(wú)人區(qū)”。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

胡敏

主筆

關(guān)注云計(jì)算、企服，歡迎找我爆料。微信：mindy1857，加好友請(qǐng)備注公司、姓名及來(lái)意

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章