0
本文作者: 德江 | 2019-12-27 08:29 |
光學(xué)字符識別(OCR),即將手寫或打印文本的圖像轉(zhuǎn)換為機(jī)器可讀文本,是一門可追溯到70年代早期的技術(shù)。
但是長期以來OCR算法一直很難識別出與水平面不平行的字符,于是Amazon的研發(fā)人員開發(fā)了一項叫“TextTubes”的技術(shù)。這是一個自然圖像中曲線文本的檢測器,可將文本建模為圍繞其中軸線的管狀。在一篇描述他們工作的論文中,合作者聲稱他們的方法在一個通用的OCR基準(zhǔn)上達(dá)到了最先進(jìn)的結(jié)果。
【 圖片來源:venturebeat 所有者:venturebeat 】
正如研究人員所解釋的,場景文本通常被分成兩個連續(xù)的任務(wù):文本檢測和文本識別。 第一個涉及使用上下文線索來定位字符、單詞和行,第二個是轉(zhuǎn)錄其內(nèi)容。兩者都說起來容易做起來難,自然環(huán)境中的文本不僅受到變形的影響,而且還會受到視點變化和字體的影響。
該團(tuán)隊的解決方案是利用文本參考框架的“管狀”表現(xiàn)形式,利用目標(biāo)文本通常是大小相似的字符串聯(lián)而成的事實,從而捕獲大部分可變性。與使用易于重疊和容易產(chǎn)生噪聲的矩形和四邊形來捕獲文本信息的傳統(tǒng)方法相比,它被公式化為一種數(shù)學(xué)函數(shù),能夠訓(xùn)練機(jī)器學(xué)習(xí)場景文本檢測器。
研究人員在CTW-1500上評估了TextTubes的性能。CTW-1500是一個數(shù)據(jù)集,該數(shù)據(jù)集由從自然場景和圖像庫中收集的1500張圖像(每個圖像至少一個曲線實例),超過10000個文本實例組成。同時在Total-Text上進(jìn)行了評估,Total-Text包含大約1255次訓(xùn)練圖像、300個測試圖像以及一個或多個曲線文本實例。他們報告說,他們在CTW-1500上以83.65%的準(zhǔn)確度取得了行業(yè)領(lǐng)先的結(jié)果,而最接近的方法的準(zhǔn)確度為75.6%。
“對一個實例的中間軸和平均半徑進(jìn)行建?!刹东@有關(guān)實例整體的信息?!痹撜撐牡暮现邔懙?。 “在由單個單詞組成的數(shù)據(jù)集上,例如Total-Text,我們的模型能夠?qū)崿F(xiàn)最先進(jìn)的性能。在具有行級注釋的數(shù)據(jù)集上,例如CTW-1500,我們的模型能夠更好地捕獲實例中各個單詞的文本信息?!?/p>
假設(shè)有一天,TextTubes能夠投入使用,對于那些高度依賴OCR技術(shù)開展業(yè)務(wù)的企業(yè)來說,這可能是一個好消息。據(jù)估計,超過80%的數(shù)字流程中仍保留著紙張;大約有97%的小企業(yè)仍在使用紙質(zhì)支票。據(jù)Grand View Research的數(shù)據(jù)顯示,這或許就是為什么到2025年,OCR解決方案市場的價值預(yù)計將達(dá)到138.8億美元原因。(雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng))
via VB
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。