0
“證券行業(yè)有一個非常細分,但也是痛點最痛的場景,即為機構客戶辦理非現場見證開戶時,如何實現資料的高效上傳?!比A福證券運營管理部負責人林佳告訴雷峰網(公眾號:雷峰網),在券商帳戶業(yè)務中,機構開戶所需的材料多且復雜?!吧矸莶牧霞由祥_戶表單,至少要十二三份,同時還要兼顧表單內容的規(guī)范性和材料的齊備性?!?/p>
雖然以往也有OCR(光學字符識別)技術的相關應用,但始終存在一些不足,比如對手寫體識別效果不佳;長文提取關鍵字段信息難;在密集表格、單元格中文本換行等場景下識別效果不佳等問題。
大模型技術熱潮下,是否有新的破局之道?成為業(yè)內關注焦點。華福證券與騰訊云對此進行了合作嘗試。
華福證券數智賦能部研發(fā)中心總經理謝琪告訴雷峰網,近日,在騰訊云TI-OCR 平臺的支持下,ISV思迪信息對華福證券的機構開戶系統(tǒng)——“福牛行”進行2.0升級,實現了開戶效率50%左右的提升。
值得注意的是,“這是大模型熱潮下,騰訊云TI-OCR 平臺在資管行業(yè)里,首個影像資料智能分揀場景的落地?!彬v訊云智能高級產品架構師丁鵬強調道。
大模型驅動的OCR和傳統(tǒng)OCR相比有什么區(qū)別?引入大模型后效率提升究竟幾何?騰訊云對OCR領域的布局有哪些心得?以及如何應對大模型帶來的幻覺等問題?
針對這些疑問,近日,雷峰網等媒體采訪了謝琪、林佳和丁鵬三位深度參與此次項目的專家,詳解項目落地過程中的經驗與思考。
問題:引入大模型能力,解決了華福證券哪一關鍵痛點?
林佳:以“智能分揀項目”為例,華福此次的智能分揀項目聚焦在員工為機構客戶辦理非現場見證開戶時資料上傳的場景。這是一個非常細分,但也是痛點最痛的場景。
眾所周知,開戶尤其是機構的開戶,是券商賬戶業(yè)務中最難、最復雜的項目。首先它難在需要填制的材料很多,身份證明材料再加上開戶要填寫的表單,初步算來有12-13份,多達幾十頁。其次難在對表單內容規(guī)范性、材料齊備性的要求很高。
辦理機構開戶時,客戶經辦人簽署與蓋章紙質開戶協(xié)議后,開戶協(xié)助人需要將開戶協(xié)議拍照上傳至系統(tǒng)提交,便于后臺審核和留存。
在以前,面對繁多的材料和復雜的要求,開戶協(xié)助人往往需要多次拍照,必要時進行人工識別、手動分揀與匹配,將資料上傳至系統(tǒng)中。這一過程往往耗時久、效率低,并且對開戶協(xié)助人作業(yè)熟練度要求高。
但開戶協(xié)助人通常是券商非專職的柜臺人員,這類人員流動性比較大,很難得到長期培訓,反過來更加劇了操作難度。
自從引入了大模型驅動的OCR“智能分揀”后,拿到客戶提交的材料后,開戶協(xié)助人只需要把材料批量拍照,點擊上傳,系統(tǒng)會自動把材料分揀、匹配、上傳到指定位置。不僅大大縮短了開戶前端操作時間,提高了開戶效率,還降低了人工作業(yè)難度,員工體驗感也大大增強。
謝琪:華福證券目前已經將騰訊云TI-OCR應用到開戶領域、智能分揀領域,實際效果不錯,將會把TI-OCR作為OCR原子服務能力上架到公司AI中臺,賦能更多的業(yè)務應用場景。
目前華福證券通過大模型技術在對內賦能上已經落地了數個場景,比如員工外腦、知識庫檢索、書寫輔助等場景。同時,我們也在探索“大模型+Agent”模式,這個方向行業(yè)也處于探索階段。我們AI研究側重應用場景挖掘。我們內部的要求是做AI不能脫離實際業(yè)務場景,重點是要通過AI實際幫助到業(yè)務或者幫助到員工。
華福證券的AI探索聚焦“提質增效”和“降本增效”兩個目標。“提質增效”聚焦在AI對業(yè)態(tài)環(huán)境和商業(yè)模式的重構,挖掘業(yè)務新的競爭力?!敖当驹鲂А眲t是注重重新梳理現有公司工作流程和任務,推動模型抽象和數據治理,通過AI輔助員工和客戶處理標準化工作,深入挖掘“降本增效”成效。
公司領導去年提出1335戰(zhàn)略實施路徑?!?335”的“5”是指五大賦能,數智賦能是五大賦能之一。同時,公司提出“數智引領 人才突圍”的數智化轉型戰(zhàn)略,把數智化作為一個極其重要的賦能手段。希望能通過數智化為客戶帶來更好的服務和體驗。
問題:大模型驅動的OCR和傳統(tǒng)OCR相比,主要區(qū)別是什么?
丁鵬:騰訊云此次與華福證券合作的TI-OCR方案,是多模態(tài)OCR大模型底座,再加上OCR產品訓練平臺。就底層大模型能力來說,大模型驅動的OCR和傳統(tǒng)OCR相比,主要有兩大不同:
一是增效方面,針對傳統(tǒng)OCR難以解決的復雜問題,依托大模型可以有效提升準確率。
比如開戶資料中存在印章干擾、手寫識別等復雜場景,傳統(tǒng)OCR要先把整個識別拆成很多段,先檢測再識別再做結構化,無法做到端到端對每個環(huán)節(jié)的理解。而引入大模型后,增加的端到端的理解能力可以有效避免多個階段錯誤的累計。
引入大模型能力后,TI-OCR支持通過自然語言交互直接理解輸入圖片生成結果,能夠精準識別票據中的手寫體、表格信息、跨頁信息并排除背景干擾。
二是降本方面,以往企業(yè)自己訓練或委托廠家訓練模型,周期較長,成本較高,引入大模型后會結合實用性降低模型對資源的消耗,并且依托TI-OCR平臺,企業(yè)也可以在內部快速構建各類個性化應用。
比如,企業(yè)僅需向TI-OCR平臺輸入少量實體單據掃描數據,經過數小時訓練就能獲得對回單、發(fā)票、申請書、提貨單、簽收單等多種功能表單的高準確度識別能力。
問題:騰訊云為什么選擇在OCR領域發(fā)力大模型應用?在布局時,騰訊云重點考慮什么?
丁鵬:主要有四點考慮:
首先,出發(fā)點是真正去解決客戶業(yè)務問題,而不是為了做大模型而做大模型。
過去幾年,OCR領域里傳統(tǒng)的卡證票據版式都比較固定,文檔比較簡單,傳統(tǒng)OCR技術應用后能看到運營效率的提升。但還有很多長尾場景,比如個性化文案、銀行各類票據、證券開戶場景、各類單據或者授權證書等,亟待OCR技術的穿透。在復雜長尾場景下,傳統(tǒng)OCR技術的識別準確率一直存在不少問題。這是騰訊選擇在OCR領域發(fā)力大模型應用的重要原因。
事實上,除了OCR,目前在證券領域,騰訊云還做了投顧助手、輿情助手、法律法規(guī)問答助手等客戶反饋需求較多的產品。
其次,在實際落地過程中,充分考慮金融行業(yè)的業(yè)務復雜性,尤其是數據以及合規(guī)安全問題。比如在整個應用架構上,以及訓練和文本審核環(huán)節(jié)都加裝RAG(檢索增強生成)技術來規(guī)避敏感問題。
再次,想要大模型真正可落地,就要追求性價比。所以騰訊云目前會針對訓練推理技術、算力成本、GPU管理、GPU虛擬化等做專門優(yōu)化,確保能夠以相對合理的算力將大模型應用真正落地。
相比之前傳統(tǒng)OCR模型參數量,大模型參數量確實有較大提升,但是實際落地過程中,騰訊將集團內部幾大實驗室積累的模型訓練和推理加速框架加到了整個應用中,并對訓練過程包括推理過程都做了進一步提效。
同時針對私有化部署場景,騰訊會對模型做一系列蒸餾、裁剪,讓整個模型在私有化里能以比較低的成本落地?,F在來說,實際業(yè)務當中推理成本和原來傳統(tǒng)的OCR相差不大,具備可落地性。
此外,為了解決大模型落地最后一公里問題,也需要加強與擁有深厚行業(yè)know-how的生態(tài)伙伴的合作,比如此次華福證券合作中,騰訊云就是聯合了在證券行業(yè)開戶和運營環(huán)節(jié)有深厚積累的思迪信息,真正為華福提供了端到端的方案,而不只是提供一個技術中間件。
問題:在應用過程中,大模型方案是否會產生機器幻覺或者合規(guī)上的問題?有什么好的解決辦法?
丁鵬:幻覺和合規(guī)是大模型經常碰到的問題,也是金融機構特別關注的問題。
數據方面,目前的訓練數據都是基于自制或公開收集的合理數據,并且在訓練前,我們就會對數據進行安全過濾。
算法和產業(yè)實際應用上,為了解決大模型落地行業(yè)的多重挑戰(zhàn),騰訊云研發(fā)并推出檢索優(yōu)化引擎,基于向量數據庫、實時訪問數據服務等技術打造多層次算法框架。它依托行業(yè)知識分類提取,精準獲取專業(yè)知識,并利用大語言模型快速提供高質量生成信息,有效降低大模型可能存在的幻覺和信息不可控問題。
最后,騰訊云本身在安全領域深耕多年,產品豐富。所以目前我們在大模型應用的輸入端和輸出端都會接入文本、圖片、音視頻審核的模型,來進行安全過濾。
雷峰網從騰訊云處獲悉,早在2022年之前,騰訊云就已將多模態(tài)模型應用于OCR平臺中,經內部業(yè)務驗證打磨后,做成輕量化產品對外輸出。2022年產品已在金融行業(yè)落地。2023年大模型興起后,騰訊云又對整個模型參數規(guī)模對外輸出能力做了進一步強化?!昂罄m(xù)OCR相關產品將會依托大模型進行持續(xù)升級?!倍※i補充道。雷峰網
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。