0

“證券行業(yè)有一個(gè)非常細(xì)分,但也是痛點(diǎn)最痛的場(chǎng)景,即為機(jī)構(gòu)客戶辦理非現(xiàn)場(chǎng)見證開戶時(shí),如何實(shí)現(xiàn)資料的高效上傳?!比A福證券運(yùn)營(yíng)管理部負(fù)責(zé)人林佳告訴雷峰網(wǎng),在券商帳戶業(yè)務(wù)中,機(jī)構(gòu)開戶所需的材料多且復(fù)雜?!吧矸莶牧霞由祥_戶表單,至少要十二三份,同時(shí)還要兼顧表單內(nèi)容的規(guī)范性和材料的齊備性。”
雖然以往也有OCR(光學(xué)字符識(shí)別)技術(shù)的相關(guān)應(yīng)用,但始終存在一些不足,比如對(duì)手寫體識(shí)別效果不佳;長(zhǎng)文提取關(guān)鍵字段信息難;在密集表格、單元格中文本換行等場(chǎng)景下識(shí)別效果不佳等問(wèn)題。
大模型技術(shù)熱潮下,是否有新的破局之道?成為業(yè)內(nèi)關(guān)注焦點(diǎn)。華福證券與騰訊云對(duì)此進(jìn)行了合作嘗試。
華福證券數(shù)智賦能部研發(fā)中心總經(jīng)理謝琪告訴雷峰網(wǎng),近日,在騰訊云TI-OCR 平臺(tái)的支持下,ISV思迪信息對(duì)華福證券的機(jī)構(gòu)開戶系統(tǒng)——“福牛行”進(jìn)行2.0升級(jí),實(shí)現(xiàn)了開戶效率50%左右的提升。
值得注意的是,“這是大模型熱潮下,騰訊云TI-OCR 平臺(tái)在資管行業(yè)里,首個(gè)影像資料智能分揀場(chǎng)景的落地?!彬v訊云智能高級(jí)產(chǎn)品架構(gòu)師丁鵬強(qiáng)調(diào)道。
大模型驅(qū)動(dòng)的OCR和傳統(tǒng)OCR相比有什么區(qū)別?引入大模型后效率提升究竟幾何?騰訊云對(duì)OCR領(lǐng)域的布局有哪些心得?以及如何應(yīng)對(duì)大模型帶來(lái)的幻覺等問(wèn)題?
針對(duì)這些疑問(wèn),近日,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))等媒體采訪了謝琪、林佳和丁鵬三位深度參與此次項(xiàng)目的專家,詳解項(xiàng)目落地過(guò)程中的經(jīng)驗(yàn)與思考。
問(wèn)題:引入大模型能力,解決了華福證券哪一關(guān)鍵痛點(diǎn)?
林佳:以“智能分揀項(xiàng)目”為例,華福此次的智能分揀項(xiàng)目聚焦在員工為機(jī)構(gòu)客戶辦理非現(xiàn)場(chǎng)見證開戶時(shí)資料上傳的場(chǎng)景。這是一個(gè)非常細(xì)分,但也是痛點(diǎn)最痛的場(chǎng)景。
眾所周知,開戶尤其是機(jī)構(gòu)的開戶,是券商賬戶業(yè)務(wù)中最難、最復(fù)雜的項(xiàng)目。首先它難在需要填制的材料很多,身份證明材料再加上開戶要填寫的表單,初步算來(lái)有12-13份,多達(dá)幾十頁(yè)。其次難在對(duì)表單內(nèi)容規(guī)范性、材料齊備性的要求很高。
辦理機(jī)構(gòu)開戶時(shí),客戶經(jīng)辦人簽署與蓋章紙質(zhì)開戶協(xié)議后,開戶協(xié)助人需要將開戶協(xié)議拍照上傳至系統(tǒng)提交,便于后臺(tái)審核和留存。
在以前,面對(duì)繁多的材料和復(fù)雜的要求,開戶協(xié)助人往往需要多次拍照,必要時(shí)進(jìn)行人工識(shí)別、手動(dòng)分揀與匹配,將資料上傳至系統(tǒng)中。這一過(guò)程往往耗時(shí)久、效率低,并且對(duì)開戶協(xié)助人作業(yè)熟練度要求高。
但開戶協(xié)助人通常是券商非專職的柜臺(tái)人員,這類人員流動(dòng)性比較大,很難得到長(zhǎng)期培訓(xùn),反過(guò)來(lái)更加劇了操作難度。
自從引入了大模型驅(qū)動(dòng)的OCR“智能分揀”后,拿到客戶提交的材料后,開戶協(xié)助人只需要把材料批量拍照,點(diǎn)擊上傳,系統(tǒng)會(huì)自動(dòng)把材料分揀、匹配、上傳到指定位置。不僅大大縮短了開戶前端操作時(shí)間,提高了開戶效率,還降低了人工作業(yè)難度,員工體驗(yàn)感也大大增強(qiáng)。
謝琪:華福證券目前已經(jīng)將騰訊云TI-OCR應(yīng)用到開戶領(lǐng)域、智能分揀領(lǐng)域,實(shí)際效果不錯(cuò),將會(huì)把TI-OCR作為OCR原子服務(wù)能力上架到公司AI中臺(tái),賦能更多的業(yè)務(wù)應(yīng)用場(chǎng)景。
目前華福證券通過(guò)大模型技術(shù)在對(duì)內(nèi)賦能上已經(jīng)落地了數(shù)個(gè)場(chǎng)景,比如員工外腦、知識(shí)庫(kù)檢索、書寫輔助等場(chǎng)景。同時(shí),我們也在探索“大模型+Agent”模式,這個(gè)方向行業(yè)也處于探索階段。我們AI研究側(cè)重應(yīng)用場(chǎng)景挖掘。我們內(nèi)部的要求是做AI不能脫離實(shí)際業(yè)務(wù)場(chǎng)景,重點(diǎn)是要通過(guò)AI實(shí)際幫助到業(yè)務(wù)或者幫助到員工。
華福證券的AI探索聚焦“提質(zhì)增效”和“降本增效”兩個(gè)目標(biāo)?!疤豳|(zhì)增效”聚焦在AI對(duì)業(yè)態(tài)環(huán)境和商業(yè)模式的重構(gòu),挖掘業(yè)務(wù)新的競(jìng)爭(zhēng)力。“降本增效”則是注重重新梳理現(xiàn)有公司工作流程和任務(wù),推動(dòng)模型抽象和數(shù)據(jù)治理,通過(guò)AI輔助員工和客戶處理標(biāo)準(zhǔn)化工作,深入挖掘“降本增效”成效。
公司領(lǐng)導(dǎo)去年提出1335戰(zhàn)略實(shí)施路徑?!?335”的“5”是指五大賦能,數(shù)智賦能是五大賦能之一。同時(shí),公司提出“數(shù)智引領(lǐng) 人才突圍”的數(shù)智化轉(zhuǎn)型戰(zhàn)略,把數(shù)智化作為一個(gè)極其重要的賦能手段。希望能通過(guò)數(shù)智化為客戶帶來(lái)更好的服務(wù)和體驗(yàn)。
問(wèn)題:大模型驅(qū)動(dòng)的OCR和傳統(tǒng)OCR相比,主要區(qū)別是什么?
丁鵬:騰訊云此次與華福證券合作的TI-OCR方案,是多模態(tài)OCR大模型底座,再加上OCR產(chǎn)品訓(xùn)練平臺(tái)。就底層大模型能力來(lái)說(shuō),大模型驅(qū)動(dòng)的OCR和傳統(tǒng)OCR相比,主要有兩大不同:
一是增效方面,針對(duì)傳統(tǒng)OCR難以解決的復(fù)雜問(wèn)題,依托大模型可以有效提升準(zhǔn)確率。
比如開戶資料中存在印章干擾、手寫識(shí)別等復(fù)雜場(chǎng)景,傳統(tǒng)OCR要先把整個(gè)識(shí)別拆成很多段,先檢測(cè)再識(shí)別再做結(jié)構(gòu)化,無(wú)法做到端到端對(duì)每個(gè)環(huán)節(jié)的理解。而引入大模型后,增加的端到端的理解能力可以有效避免多個(gè)階段錯(cuò)誤的累計(jì)。
引入大模型能力后,TI-OCR支持通過(guò)自然語(yǔ)言交互直接理解輸入圖片生成結(jié)果,能夠精準(zhǔn)識(shí)別票據(jù)中的手寫體、表格信息、跨頁(yè)信息并排除背景干擾。
二是降本方面,以往企業(yè)自己訓(xùn)練或委托廠家訓(xùn)練模型,周期較長(zhǎng),成本較高,引入大模型后會(huì)結(jié)合實(shí)用性降低模型對(duì)資源的消耗,并且依托TI-OCR平臺(tái),企業(yè)也可以在內(nèi)部快速構(gòu)建各類個(gè)性化應(yīng)用。
比如,企業(yè)僅需向TI-OCR平臺(tái)輸入少量實(shí)體單據(jù)掃描數(shù)據(jù),經(jīng)過(guò)數(shù)小時(shí)訓(xùn)練就能獲得對(duì)回單、發(fā)票、申請(qǐng)書、提貨單、簽收單等多種功能表單的高準(zhǔn)確度識(shí)別能力。
問(wèn)題:騰訊云為什么選擇在OCR領(lǐng)域發(fā)力大模型應(yīng)用?在布局時(shí),騰訊云重點(diǎn)考慮什么?
丁鵬:主要有四點(diǎn)考慮:
首先,出發(fā)點(diǎn)是真正去解決客戶業(yè)務(wù)問(wèn)題,而不是為了做大模型而做大模型。
過(guò)去幾年,OCR領(lǐng)域里傳統(tǒng)的卡證票據(jù)版式都比較固定,文檔比較簡(jiǎn)單,傳統(tǒng)OCR技術(shù)應(yīng)用后能看到運(yùn)營(yíng)效率的提升。但還有很多長(zhǎng)尾場(chǎng)景,比如個(gè)性化文案、銀行各類票據(jù)、證券開戶場(chǎng)景、各類單據(jù)或者授權(quán)證書等,亟待OCR技術(shù)的穿透。在復(fù)雜長(zhǎng)尾場(chǎng)景下,傳統(tǒng)OCR技術(shù)的識(shí)別準(zhǔn)確率一直存在不少問(wèn)題。這是騰訊選擇在OCR領(lǐng)域發(fā)力大模型應(yīng)用的重要原因。
事實(shí)上,除了OCR,目前在證券領(lǐng)域,騰訊云還做了投顧助手、輿情助手、法律法規(guī)問(wèn)答助手等客戶反饋需求較多的產(chǎn)品。
其次,在實(shí)際落地過(guò)程中,充分考慮金融行業(yè)的業(yè)務(wù)復(fù)雜性,尤其是數(shù)據(jù)以及合規(guī)安全問(wèn)題。比如在整個(gè)應(yīng)用架構(gòu)上,以及訓(xùn)練和文本審核環(huán)節(jié)都加裝RAG(檢索增強(qiáng)生成)技術(shù)來(lái)規(guī)避敏感問(wèn)題。
再次,想要大模型真正可落地,就要追求性價(jià)比。所以騰訊云目前會(huì)針對(duì)訓(xùn)練推理技術(shù)、算力成本、GPU管理、GPU虛擬化等做專門優(yōu)化,確保能夠以相對(duì)合理的算力將大模型應(yīng)用真正落地。
相比之前傳統(tǒng)OCR模型參數(shù)量,大模型參數(shù)量確實(shí)有較大提升,但是實(shí)際落地過(guò)程中,騰訊將集團(tuán)內(nèi)部幾大實(shí)驗(yàn)室積累的模型訓(xùn)練和推理加速框架加到了整個(gè)應(yīng)用中,并對(duì)訓(xùn)練過(guò)程包括推理過(guò)程都做了進(jìn)一步提效。
同時(shí)針對(duì)私有化部署場(chǎng)景,騰訊會(huì)對(duì)模型做一系列蒸餾、裁剪,讓整個(gè)模型在私有化里能以比較低的成本落地?,F(xiàn)在來(lái)說(shuō),實(shí)際業(yè)務(wù)當(dāng)中推理成本和原來(lái)傳統(tǒng)的OCR相差不大,具備可落地性。
此外,為了解決大模型落地最后一公里問(wèn)題,也需要加強(qiáng)與擁有深厚行業(yè)know-how的生態(tài)伙伴的合作,比如此次華福證券合作中,騰訊云就是聯(lián)合了在證券行業(yè)開戶和運(yùn)營(yíng)環(huán)節(jié)有深厚積累的思迪信息,真正為華福提供了端到端的方案,而不只是提供一個(gè)技術(shù)中間件。
問(wèn)題:在應(yīng)用過(guò)程中,大模型方案是否會(huì)產(chǎn)生機(jī)器幻覺或者合規(guī)上的問(wèn)題?有什么好的解決辦法?
丁鵬:幻覺和合規(guī)是大模型經(jīng)常碰到的問(wèn)題,也是金融機(jī)構(gòu)特別關(guān)注的問(wèn)題。
數(shù)據(jù)方面,目前的訓(xùn)練數(shù)據(jù)都是基于自制或公開收集的合理數(shù)據(jù),并且在訓(xùn)練前,我們就會(huì)對(duì)數(shù)據(jù)進(jìn)行安全過(guò)濾。
算法和產(chǎn)業(yè)實(shí)際應(yīng)用上,為了解決大模型落地行業(yè)的多重挑戰(zhàn),騰訊云研發(fā)并推出檢索優(yōu)化引擎,基于向量數(shù)據(jù)庫(kù)、實(shí)時(shí)訪問(wèn)數(shù)據(jù)服務(wù)等技術(shù)打造多層次算法框架。它依托行業(yè)知識(shí)分類提取,精準(zhǔn)獲取專業(yè)知識(shí),并利用大語(yǔ)言模型快速提供高質(zhì)量生成信息,有效降低大模型可能存在的幻覺和信息不可控問(wèn)題。
最后,騰訊云本身在安全領(lǐng)域深耕多年,產(chǎn)品豐富。所以目前我們?cè)诖竽P蛻?yīng)用的輸入端和輸出端都會(huì)接入文本、圖片、音視頻審核的模型,來(lái)進(jìn)行安全過(guò)濾。
雷峰網(wǎng)從騰訊云處獲悉,早在2022年之前,騰訊云就已將多模態(tài)模型應(yīng)用于OCR平臺(tái)中,經(jīng)內(nèi)部業(yè)務(wù)驗(yàn)證打磨后,做成輕量化產(chǎn)品對(duì)外輸出。2022年產(chǎn)品已在金融行業(yè)落地。2023年大模型興起后,騰訊云又對(duì)整個(gè)模型參數(shù)規(guī)模對(duì)外輸出能力做了進(jìn)一步強(qiáng)化?!昂罄m(xù)OCR相關(guān)產(chǎn)品將會(huì)依托大模型進(jìn)行持續(xù)升級(jí)?!倍※i補(bǔ)充道。雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。