0
作者丨郭 思
編輯丨陳彩嫻
2023 年,一場大模型劇場大戲持續(xù)上演。
臺(tái)前,以對(duì)話形式出現(xiàn)的ChatGPT成為當(dāng)前人工智能變革浪潮的佼佼者,“懂語言者得天下”是現(xiàn)今大模型市場顯著的商業(yè)現(xiàn)實(shí)。幕后, NLP、CV 的發(fā)展使得AI的價(jià)值被大眾重新挖掘。多模態(tài)的發(fā)展也讓文圖處理的價(jià)值到達(dá)了新的高峰,而這其中,以O(shè)CR技術(shù)為基礎(chǔ)的AI視覺技術(shù)也有較為亮眼的表現(xiàn)。
掃描產(chǎn)品無形之中迎來了第二春,此前頻頻登上 Github Trending 日榜月榜的開源項(xiàng)目 PaddleOC 、使用量眾多的Adobe Acrobat DC 等這些其實(shí)都是運(yùn)用AI視覺技術(shù)有效解決用戶問題的優(yōu)秀掃描產(chǎn)品。疫情期間,掃描產(chǎn)品也是為數(shù)不多實(shí)現(xiàn)逆勢(shì)增長的AI落地賽道。
一時(shí)間,用戶重新將目光聚焦于掃描產(chǎn)品。才猛然發(fā)現(xiàn),AIGC殺手級(jí)應(yīng)用或許已近在眼前,掃描產(chǎn)品帶來的巨大想象空間讓我們對(duì)于AI產(chǎn)品落地充滿著期待。
計(jì)算機(jī)科學(xué)自1950年代起步,在掃描這一特定領(lǐng)域,其技術(shù)路徑經(jīng)歷了從早期的統(tǒng)計(jì)模式識(shí)別,到句法模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等不同階段,最終發(fā)展至今天的深度學(xué)習(xí)技術(shù)。從使用范圍和功能上而言,如今的掃描產(chǎn)品早已不再局限于大眾眼中傳統(tǒng)的車牌識(shí)別等,而是裝進(jìn)了人們觸手可及的手機(jī)里,以智能而實(shí)用的APP產(chǎn)品出現(xiàn)。
疫情三年,掃描產(chǎn)品實(shí)現(xiàn)逆市增長,IDC數(shù)據(jù)顯示,2021年我國全年文檔掃描儀出貨量達(dá)到46.1萬臺(tái),同比疫情相對(duì)嚴(yán)重的2020年增幅達(dá)到了9.7%。在傳統(tǒng)大金融以及政府、教育等主流行業(yè)的推動(dòng)下, “后疫情” 時(shí)代的文檔掃描儀市場迸發(fā)出蓬勃生機(jī)。國外市場情況也一片大好,Office lens、Google Lens等老牌掃描產(chǎn)品在2022年均有著不錯(cuò)的月活成績。掃描產(chǎn)品無疑是 AI 落地的一支「潛力股」。
AI 科技評(píng)論根據(jù)公開資料整理
如此巨大增長的背后,其實(shí)是因?yàn)閽呙柽@個(gè)看似普遍不起眼的行業(yè)恰恰切中了AIGC產(chǎn)品落地并得以加速推廣的關(guān)鍵要點(diǎn)—C端市場的突破。
這其實(shí)也是ChatGPT火爆的邏輯。ChatGPT通過其高度逼真的AI對(duì)話能力和對(duì)用戶需求的精準(zhǔn)理解,成功打破了技術(shù)壁壘,使得復(fù)雜的AI技術(shù)能夠在普通消費(fèi)者中得到廣泛接納和應(yīng)用。Similarweb的數(shù)據(jù)顯示,ChatGPT在上線僅僅兩個(gè)月的時(shí)間里,其月活躍用戶數(shù)就已經(jīng)達(dá)到了1億人。相比之下,即使是現(xiàn)象級(jí)的短視頻應(yīng)用TikTok達(dá)到相同用戶量級(jí)也花費(fèi)了大約9個(gè)月的時(shí)間。
AI工具必須追求普惠是行業(yè)共識(shí)。以O(shè)CR技術(shù)為基礎(chǔ)的AI視覺技術(shù)與 ChatGPT 有著相似變革范式,自然也就得到了大家的廣泛關(guān)注。而另一方面,經(jīng)過數(shù)十年的技術(shù)演變與發(fā)展,在攻克數(shù)據(jù)、格式等問題后,以O(shè)CR技術(shù)為基礎(chǔ)的AI視覺技術(shù)落地與推廣已“瓜熟蒂落”。
Grand View Research的報(bào)告指出,隨著深度學(xué)習(xí)和人工智能技術(shù)的進(jìn)步,AI視覺技術(shù)的準(zhǔn)確性和效率得到了顯著提升。例如,谷歌的Tesseract OCR引擎在多項(xiàng)測試中取得了接近100%的識(shí)別準(zhǔn)確率,極大地解決了數(shù)據(jù)準(zhǔn)確性的問題。面對(duì)格式這個(gè)老大難問題,如今的掃描產(chǎn)品已經(jīng)能夠處理各種復(fù)雜的文檔格式和布局,包括表格、圖像、圖形以及多語言文本等,Adobe Acrobat Pro DC和ABBYY FineReader等主流掃描產(chǎn)品都提供了強(qiáng)大的格式識(shí)別和轉(zhuǎn)換功能。IBM的一項(xiàng)研究也強(qiáng)調(diào)隨著企業(yè)對(duì)自動(dòng)化和智能化需求的增加,掃描技術(shù)在金融、醫(yī)療、法律、教育等多個(gè)行業(yè)中的應(yīng)用越來越廣泛。
來到AI大模型時(shí)代,掃描這一市場再次迎來了新的生機(jī)。今年8月,夸克掃描王率先在掃描行業(yè)落地大模型技術(shù)應(yīng)用,開啟了AIGC+掃描的創(chuàng)新時(shí)代。
數(shù)據(jù)顯示,加載大模型后,目前夸克掃描王手寫字符識(shí)別準(zhǔn)確率與復(fù)雜公式識(shí)別準(zhǔn)確率已雙雙達(dá)到 99%的行業(yè)最高水準(zhǔn)。透過夸克掃描王的冰山一角,我們猛然發(fā)現(xiàn),其實(shí)如今的掃描產(chǎn)品早已經(jīng)從單純的硬件設(shè)備轉(zhuǎn)變?yōu)榧闪讼冗M(jìn)人工智能技術(shù)的多功能生產(chǎn)力效率工具。
2、Z世代人群需要怎樣的生產(chǎn)力工具?
掃描市場其實(shí)并不是一個(gè)藍(lán)海。外有谷歌、微軟等老牌巨頭的長久布局,內(nèi)有一大批不斷涌現(xiàn)的企業(yè)紛紛想分一杯羹。在以往的應(yīng)用落地中,掃描產(chǎn)品在B端的應(yīng)用十分之多。然而,在如此激烈的B端市場競爭之下,問題其實(shí)早已出現(xiàn),在某些特定領(lǐng)域或用戶群體中,掃描產(chǎn)品的需求可能已經(jīng)接近飽和。拿個(gè)最簡單的例子便是,在十分常見的企業(yè)環(huán)境中,許多公司已經(jīng)實(shí)施了文檔管理和流程自動(dòng)化系統(tǒng),對(duì)于新的掃描產(chǎn)品的需求十分有限。
困境之下,廠商們其實(shí)都意識(shí)到這個(gè)市場其實(shí)迫切需要新的突破點(diǎn)來實(shí)現(xiàn)新的增長。
在C端發(fā)力,是他們想到的最快也是最優(yōu)的思路。不過盡管在C端產(chǎn)品的發(fā)力入局者多,但由于絕大多數(shù)廠商習(xí)慣于此前賴以生存的B端環(huán)境,往往對(duì)用戶畫像的把握度不夠,市面上的許多掃描產(chǎn)品在基本功能上仍然存在一定程度的同質(zhì)化。
如今活躍在C端市場的大多都是90后、00后。電通中國《2022解碼Z世代》指出如今近3億Z世代人群2022年就撬動(dòng)達(dá)5萬億元的消費(fèi)支出,儼然成為國內(nèi)市場新的消費(fèi)增長極。Z世代的群像特征十分明顯。他們熱衷于尋求理想“人設(shè)”,對(duì)于自己使用的產(chǎn)品有著更高的個(gè)性化需求和品質(zhì)要求。
他們不僅需要基本的掃描和AI 識(shí)別功能,還期望應(yīng)用能集成其他實(shí)用工具,如文檔編輯、格式轉(zhuǎn)換、云存儲(chǔ)、協(xié)作分享等。這批人也很跳脫,希望在各種場景之下都能使用上掃描產(chǎn)品。期待產(chǎn)品能夠適應(yīng)不同的環(huán)境和需求,如課堂筆記掃描、合同管理、發(fā)票報(bào)銷等。更為重要的是,他們追求產(chǎn)品能夠真正解決自己的問題。
拿最常見的文檔處理場景而言,當(dāng)我們拿到一份橫版的發(fā)票,需要打印在A4中,進(jìn)行報(bào)銷,這個(gè)時(shí)候,我們?nèi)绻活~外設(shè)置,就會(huì)變成一張小發(fā)票居于巨大的A4中上方一側(cè),文字內(nèi)容縮小,閱讀體驗(yàn)很差。
而實(shí)際上,在這個(gè)場景中,我們真正的需求是機(jī)器能自動(dòng)識(shí)別文件內(nèi)容橫豎版式,橫版文件適配到A4紙上,自動(dòng)適配A4紙張大小,打印出來更適合閱讀。
這個(gè)需求非常小,卻很細(xì)節(jié),對(duì)于眾多用戶來說,是一個(gè)忍忍就過去了的痛點(diǎn)。不過對(duì)于現(xiàn)在挑剔的Z世代而言,可能第一次遇到后,就直接棄用這個(gè)產(chǎn)品了。
那么市面上有沒有人注意到這個(gè)細(xì)微而重要的痛點(diǎn)呢,還真有,就是那個(gè)被年輕一代經(jīng)常使用的夸克。在年輕用戶群體的視角中,搜索、閱讀小說、觀看電影、通過拍照識(shí)別萬物、進(jìn)行文檔翻譯、生成簡歷、自拍制作證件照等,夸克都可以做到。
圖注:夸克掃描王可以自動(dòng)識(shí)別文件內(nèi)容橫豎版式,橫版文件自動(dòng)適配A4紙張大小。
可以說夸克的天下就是靠這群Z時(shí)代撐起來的,天然就有對(duì)于年輕一代需求精準(zhǔn)把握的基因。8月29日,阿里智能信息事業(yè)群宣布搭載AI大模型技術(shù)的“夸克掃描王App”正式上線,這意味著夸克從夸克APP中將掃描王單拎出來,推出APP。
國內(nèi)權(quán)威第三方數(shù)據(jù)機(jī)構(gòu)QuestMobile此前調(diào)研顯示,夸克掃描王在00后、90后人群占比超過54%,穩(wěn)居行業(yè)第一。
推出掃描王APP之后,夸克的第一個(gè)動(dòng)作便是將這些看似不起眼卻十分影響用戶體驗(yàn)的痛點(diǎn)梳理了一遍。通過場景推動(dòng)技術(shù),提升年輕人效率。
啟動(dòng)掃描產(chǎn)品的第一步,就意味著我們需要處理文檔。這簡潔的表述實(shí)際上定義了掃描的過程。各品牌對(duì)這句話的理解和處理方式揭示了他們的差異。對(duì)于夸克來說,即使是“處理”這個(gè)詞匯,也蘊(yùn)含著獨(dú)特的思考。大部分掃描產(chǎn)品側(cè)重于掃描動(dòng)作后的文檔定型,而夸克則不同,它認(rèn)為既然目標(biāo)是獲得符合需求的文檔,為何不將“處理”環(huán)節(jié)融入掃描過程呢?
例如,當(dāng)需要為掃描文件添加濾鏡時(shí),常常會(huì)遇到掃描完成后內(nèi)容無法編輯修改的問題。
為此,夸克掃描王推出了萬能掃描功能。用戶在拍攝文檔后可以直接進(jìn)行編輯,圖片內(nèi)容可直接修改,智能識(shí)別文件類型并優(yōu)化濾鏡效果。掃描件上的文字內(nèi)容、字體樣式可自由編輯修改,同時(shí)智能識(shí)別表格等內(nèi)容,支持轉(zhuǎn)為Excel、刪除、替換和提取圖片。
這樣做帶來的好處很直接,30頁的文檔處理速度比其他產(chǎn)品快了2倍。打開手機(jī)應(yīng)用市場,下載同類軟件,這個(gè)功能只有夸克能夠做到。
上文提到的兩個(gè)場景是我們?nèi)粘3R?,卻的確會(huì)存在困擾的地方。此外,夸克掃描王還具備以下功能:能夠掃描已完成填寫的紙質(zhì)文檔,并一鍵轉(zhuǎn)化為Word格式,精準(zhǔn)還原原始排版。它能自動(dòng)識(shí)別手寫筆跡,讓用戶選擇刪除或保留手寫字體,并可將其智能轉(zhuǎn)換為印刷體樣式。用戶還可以在線編輯Word文檔中的文字內(nèi)容。
在對(duì)于表格的處理上,夸克掃描王可以直接拍照紙質(zhì)表格,一鍵生成Excel表格,手寫數(shù)字也能精準(zhǔn)識(shí)別,Excel表格上直接選擇行列在線求和計(jì)數(shù)。讓財(cái)務(wù)黨和會(huì)計(jì)黨直呼YYDS。
掃描是一個(gè)有門檻、十分垂直的賽道,其發(fā)展與AI技術(shù)的不斷迭代息息相關(guān)。
但在大部分其他AI產(chǎn)品都能達(dá)到95分的技術(shù)水平之際,掃描產(chǎn)品的殺出重圍并不僅僅是在于從95到96的死磕前進(jìn),更多的是在于將目光投至切實(shí)的生產(chǎn)力場景。
AI時(shí)代,每個(gè)技術(shù)的發(fā)展周期和特性都各不相同,必須兼顧技術(shù)和市場的兩端動(dòng)態(tài)。
一方面,需要明確了解技術(shù)的局限性和邊界在哪里,以便精準(zhǔn)定位研發(fā)方向。另一方面,在推動(dòng)技術(shù)商業(yè)化或產(chǎn)品化的過程中,也必須把握好節(jié)奏和優(yōu)先級(jí),確定何時(shí)以及如何將這些技術(shù)有效地轉(zhuǎn)化為實(shí)際產(chǎn)品或服務(wù)。
這就要求廠商在探索技術(shù)創(chuàng)新的同時(shí),也要對(duì)市場趨勢(shì)和用戶需求有深入的理解和敏銳的洞察。真正把提高生產(chǎn)力效率作為第一要義。
過去的三年疫情,掃描行業(yè)能夠在寒冬中逆襲,也是源于其對(duì)生產(chǎn)力切實(shí)的效率提升。
如今來到大模型時(shí)代,夸克掃描王,在這場角逐之中,恰恰選了一條最精準(zhǔn)也是最合適的道路,以用戶為先,用場景倒推技術(shù)。改進(jìn)行業(yè)難以解決的20%難題,收獲80%的效果。才得以讓這次AIGC殺手級(jí)應(yīng)用之戰(zhàn)開始有了新的風(fēng)向。
隨著大模型競爭步入下半場,AIGC應(yīng)用的潛在爆發(fā)點(diǎn)還有哪些尚待探索?本文作者持續(xù)追蹤大模型領(lǐng)域的最新進(jìn)展,歡迎讀者通過添加作者微信lionceau2046 進(jìn)行深度交流與探討。
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。