0
本文作者: 胡敏 | 2022-09-08 19:09 |
在銀行這片票據(jù)“集散地”上,OCR并非新鮮事物。
早在2017、2018年,隨著銀行各業(yè)務(wù)線數(shù)字化轉(zhuǎn)型提速,涉及憑證票證類別的需求不斷增加,各大銀行就將大量定制化OCR模型引入業(yè)務(wù)系統(tǒng)。
這讓原本全憑“手工勞作”的票據(jù)錄入,搭乘上效率“直升機(jī)”,沖破了票據(jù)處理的效率屏障。
國(guó)有大行探索OCR的時(shí)間則更早。
2013年,在數(shù)字化號(hào)角還未吹得像今天這般響亮?xí)r,某國(guó)有大行便成立專門(mén)的技術(shù)研發(fā)團(tuán)隊(duì),完成了OCR技術(shù)從0到1的探索。遵照“兩錄一?!钡脑瓌t,原來(lái)需由兩位錄入員分別錄入憑證信息的工作,隨著OCR技術(shù)應(yīng)用,替換成了一位人工錄入,一位OCR錄入,錄入人員立馬減半。
不過(guò),隨著在OCR領(lǐng)域的深入探索,這家大型銀行也發(fā)現(xiàn),現(xiàn)有OCR技術(shù)能識(shí)別身份證、銀行卡等證件、增值稅專用發(fā)票、增值稅普通發(fā)票等有固定版式、文檔相對(duì)簡(jiǎn)單的內(nèi)容,但在面對(duì)銀行許多長(zhǎng)尾場(chǎng)景下偏復(fù)雜的識(shí)別時(shí),就容易無(wú)能為力。
特別是遇到以下兩種情況:第一票據(jù)版式不固定、樣本量較少;第二文檔中含有手寫(xiě)體、中英韓法等多種語(yǔ)言、特殊字符等,識(shí)別準(zhǔn)確率大大降低。
過(guò)往,為應(yīng)對(duì)這些棘手問(wèn)題,他們只能在前端繼續(xù)投入大量人力進(jìn)行錄入和校驗(yàn),而在后端,則增加開(kāi)發(fā)人員,對(duì)新出現(xiàn)的版式進(jìn)行模型的重新配置。
眾所周知,銀行票據(jù)種類、版式多如牛毛,開(kāi)發(fā)人員不斷“打補(bǔ)丁”的方式也只是杯水車薪、隔靴搔癢。
騰訊云售前架構(gòu)師阿凱告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)),今年年初,他與這家國(guó)有大行研發(fā)中心負(fù)責(zé)OCR的項(xiàng)目經(jīng)理溝通時(shí)發(fā)現(xiàn),對(duì)方已經(jīng)圍繞OCR的整體研發(fā),打造了一支非常專業(yè)的團(tuán)隊(duì)。
到底如何提升OCR的能力,使其能對(duì)除固定版式、常規(guī)文檔之外的版式、信息進(jìn)行識(shí)別提取,并直接錄入,且保證識(shí)別準(zhǔn)確率?
今年年初,騰訊云副總裁、騰訊優(yōu)圖實(shí)驗(yàn)室總經(jīng)理吳運(yùn)聲去到了銀行,與對(duì)方金融科技院院長(zhǎng)見(jiàn)了一面,讓這一問(wèn)題有了新的解法。
事實(shí)上,騰訊優(yōu)圖也一直在嘗試攻克版式不固定、識(shí)別準(zhǔn)確性的問(wèn)題。
去年到今年,他們?cè)贠CR技術(shù)上發(fā)表了一系列的論文。其中關(guān)注復(fù)雜場(chǎng)景文檔信息提取的有三篇,分別著眼在大規(guī)模多模態(tài)文檔預(yù)訓(xùn)練模型、泛化版式文檔信息提取、表格等復(fù)雜關(guān)系提取。直面挑戰(zhàn),攻克業(yè)界難題。
這里需理解一下多模態(tài)和單一模態(tài)。多模態(tài)是融合視覺(jué)信息、語(yǔ)義信息、布局排版信息等單一模態(tài)的集合體。騰訊優(yōu)圖在多模態(tài)文檔預(yù)訓(xùn)練的基礎(chǔ)上,進(jìn)一步統(tǒng)一了文檔結(jié)構(gòu)化信息提取范式,形成智能結(jié)構(gòu)化基礎(chǔ)模型,單一模型支持5000種以上版式。
就好比培養(yǎng)人的運(yùn)動(dòng)技能,基于常規(guī)多模態(tài)進(jìn)行大規(guī)模訓(xùn)練的模型,只是針對(duì)一項(xiàng)基本能力,比如說(shuō)腿部力量,進(jìn)行重點(diǎn)訓(xùn)練;而基于智能結(jié)構(gòu)化基礎(chǔ)模型,則是提前教會(huì)你足球、籃球、網(wǎng)球多項(xiàng)等運(yùn)動(dòng)的關(guān)鍵動(dòng)作,這樣人們就能在日常生活中參與不同的運(yùn)動(dòng)。
放在金融文檔識(shí)別場(chǎng)景中,基于這種方式訓(xùn)練出來(lái)的模型,泛化能力得到了極大提升,不論是銀行單據(jù)、票證、憑證等,它都能進(jìn)行高精度的信息提取。
而這也恰恰解決了該銀行一直以來(lái)的困擾。
今年年初,在雙方高層進(jìn)行溝通后的短短一個(gè)月內(nèi),該銀行就決定引入騰訊云TI-OCR產(chǎn)品,基于騰訊優(yōu)圖實(shí)驗(yàn)室在OCR領(lǐng)域多年的積累,來(lái)對(duì)銀行業(yè)務(wù)處理票據(jù)錄入過(guò)程中的十大重點(diǎn)場(chǎng)景進(jìn)行優(yōu)化升級(jí),并把這一項(xiàng)目名稱取名為“多模態(tài)融合應(yīng)用于計(jì)算機(jī)視覺(jué)”。
騰訊云產(chǎn)品架構(gòu)師阿凱表示:“不論是信息提取還是表格還原,都用了多模態(tài)技術(shù),這也給整個(gè)項(xiàng)目定調(diào)?!?/p>
以往,騰訊云往往是通過(guò)向客戶提供算法包、訓(xùn)練平臺(tái)等原子化產(chǎn)品進(jìn)行合作。但事實(shí)上,若要真正和客戶的實(shí)際業(yè)務(wù)相結(jié)合,不免還需涉及一些工程業(yè)務(wù)方面的開(kāi)發(fā)。
為讓技術(shù)與業(yè)務(wù)更相融合,雙方?jīng)Q定成立聯(lián)合實(shí)驗(yàn)室,探索更深入的合作。然而,剛開(kāi)展合作就遇到的一個(gè)難題:銀行場(chǎng)景復(fù)雜多樣,到底選擇從哪一個(gè)場(chǎng)景開(kāi)始下手?
騰訊優(yōu)圖算法研究員浩宇印象很深刻:“一開(kāi)始確定業(yè)務(wù)場(chǎng)景時(shí),行方一開(kāi)始邀請(qǐng)我們分析了有差不多上千種場(chǎng)景,并梳理了其中痛點(diǎn)問(wèn)題。”
通過(guò)反復(fù)分析,最終雙方達(dá)成一致,先啃“硬骨頭”,決定最先在托管對(duì)賬單、提單以及集中錄入這三個(gè)業(yè)務(wù)場(chǎng)景的結(jié)構(gòu)化識(shí)別中用上多模態(tài)技術(shù)。
“托管對(duì)賬單、提單這幾個(gè)場(chǎng)景在業(yè)界比較接近天花板的難度。”交付架構(gòu)師秋健對(duì)雷峰網(wǎng)說(shuō)。
提單樣本圖,圖源網(wǎng)絡(luò)
以基金公司托管對(duì)賬單為例,各家基金公司在銀行內(nèi)部托管一個(gè)公共賬號(hào),記錄了投資人每一時(shí)段各基金持有份額和所有交易明細(xì)等,以方便投資人定期了解自己的交易情況。
這場(chǎng)景最大的難點(diǎn)有三個(gè):
第一,版式多、樣本少?;鸸颈姸嗲颐考夜镜馁~單版式都不相同,且隨著業(yè)務(wù)擴(kuò)展或變更,賬單板式也在發(fā)生變化。此外,也存在一些基金賬單比較少的情況,這都十分考驗(yàn)OCR結(jié)構(gòu)化提取模型。
第二,具有表格等復(fù)雜關(guān)系。多數(shù)基金賬單都是以表格形式呈現(xiàn),比如,XX在某年某月某日交易了XX金額,這需要OCR能夠從表格里面去提取結(jié)構(gòu)化信息,而這也是目前業(yè)界普遍面臨的難點(diǎn)。
第三,還存在字段嵌套、容易混淆等問(wèn)題。比如在基金單交易中,同時(shí)存在多個(gè)相同形式表格,但表頭的時(shí)間或含義不同,這要求OCR能夠區(qū)分出來(lái)各種表格對(duì)應(yīng)的具體含義。
今年四月中旬,騰訊云動(dòng)身派駐項(xiàng)目經(jīng)理、算法研究員、交付架構(gòu)師等項(xiàng)目成員去到該銀行,了解其實(shí)際業(yè)務(wù)運(yùn)行情況,并確定方案進(jìn)行指導(dǎo)標(biāo)注。
然后,在合作過(guò)程中,他們也發(fā)現(xiàn),OCR技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用時(shí),也還有一些坎需要跨越:
如何讓產(chǎn)品更滿足業(yè)務(wù)的需求?
即便是在實(shí)驗(yàn)室打磨訓(xùn)練過(guò)多次的產(chǎn)品,在遇到復(fù)雜的業(yè)務(wù)場(chǎng)景時(shí),難免還是“不夠用”,需要項(xiàng)目團(tuán)隊(duì)在產(chǎn)品實(shí)際落地過(guò)程中結(jié)合業(yè)務(wù)進(jìn)一步“查漏補(bǔ)缺”。
浩宇提到,他們?cè)谟¤b卡的問(wèn)題分析過(guò)程中就曾遇到過(guò)一個(gè)類似刮獎(jiǎng)的密碼驗(yàn)證圖層,在單據(jù)識(shí)別過(guò)程中,需驗(yàn)證涂層是否完整,以及識(shí)別密碼涂層刮開(kāi)后的文字。“這是我們?cè)趯?shí)驗(yàn)室中完全沒(méi)見(jiàn)過(guò)的?!?/p>
與此同時(shí),在實(shí)驗(yàn)室中對(duì)事物的重要性判斷,和現(xiàn)實(shí)也可能會(huì)出現(xiàn)偏差。比如,實(shí)驗(yàn)室更看重如何對(duì)表格中的信息進(jìn)行提取,但在實(shí)際業(yè)務(wù)層面,還需要關(guān)注表格信息的含義,比如這是當(dāng)前的基金交易信息,還是歷史交易信息。
面對(duì)這些分歧,雙方共同協(xié)商討論、解決問(wèn)題也變得十分重要。
騰訊云、優(yōu)圖實(shí)驗(yàn)室項(xiàng)目團(tuán)隊(duì)交流中
經(jīng)過(guò)半年的接觸和交流,交付架構(gòu)師少凱談到,整個(gè)項(xiàng)目讓他感觸最深的有三個(gè)點(diǎn),第一是銀行的配合和參與,第二是銀行的開(kāi)放心態(tài),第三是銀行愿意學(xué)習(xí)的心態(tài)。
拿樣本圖舉例,一般樣本圖都散落在各個(gè)業(yè)務(wù)部門(mén),開(kāi)發(fā)部門(mén)也需要內(nèi)部協(xié)調(diào)才能拿到樣本圖,但銀行每一次都會(huì)快速響應(yīng),及時(shí)從業(yè)務(wù)部門(mén)收集樣本圖。
與此同時(shí),在整個(gè)合作過(guò)程,該銀行也一直強(qiáng)調(diào),這次合作不僅是要獲得一套新工具,而且還要讓自己內(nèi)部員工學(xué)習(xí)如何進(jìn)行模型訓(xùn)練,以及對(duì)模型訓(xùn)練平臺(tái)有更深入了解,以便未來(lái)用到更多的場(chǎng)景中去。
托管對(duì)賬單這一場(chǎng)景從今年7月份左右開(kāi)始正式建模,經(jīng)過(guò)雙方的反復(fù)測(cè)試、溝通、改進(jìn),其字段識(shí)別準(zhǔn)確率目前已達(dá)90%以上。此外,包括提單、集中錄入等9個(gè)場(chǎng)景,也將陸續(xù)上線。
隨著這種多模態(tài)技術(shù)加速滲透具體業(yè)務(wù)場(chǎng)景,該銀行也初嘗數(shù)字化的甜頭,其前端錄入環(huán)節(jié)將從單OCR錄入改為雙OCR錄入,減少了至少1/3左右的成本投入。
而后端開(kāi)發(fā)上,以前開(kāi)發(fā)人員需花上兩三天時(shí)間進(jìn)行新版式的開(kāi)發(fā),現(xiàn)如今只需要拿幾張圖進(jìn)行標(biāo)注訓(xùn)練,一小時(shí)就能夠完成整體的訓(xùn)練和上線的流程,極大提升了訓(xùn)練效率,減輕了開(kāi)發(fā)人員負(fù)擔(dān)。
接下來(lái)雙方也將繼續(xù)“雙劍合璧”,通過(guò)聯(lián)合開(kāi)發(fā),讓票據(jù)識(shí)別向智能化、自動(dòng)化邁進(jìn),讓票據(jù)錄入逐漸走入“無(wú)人區(qū)”。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。