0
| 本文作者: 叢末 | 2019-06-16 13:00 |
雷鋒網(wǎng) AI 科技評(píng)論按:隨著人工智能的發(fā)展步入加速期,以計(jì)算機(jī)視覺為代表的人工智能技術(shù)也逐漸落地到行業(yè)場(chǎng)景中,開始在安防、教育、金融、物流等行業(yè)大顯身手,并從中衍生出一批新的應(yīng)用場(chǎng)景,如新零售、無人駕駛等等,在科技巨頭以及人工智能初創(chuàng)企業(yè)中都激起了千波浪。
然而,行業(yè)應(yīng)用場(chǎng)景中的一系列計(jì)算機(jī)視覺底層技術(shù),仍存在較大的挑戰(zhàn),就比如說商品識(shí)別技術(shù),相較于人臉識(shí)別、場(chǎng)景識(shí)別等技術(shù)相比,它因其特殊屬性而面臨著其獨(dú)有的挑戰(zhàn),比如商品包裝雷同問題、商品上新問題等等,對(duì)于該細(xì)分行業(yè)的玩家在技術(shù)實(shí)力以及技術(shù)產(chǎn)品化方面都提出了更高的要求。
作為一家在商品識(shí)別領(lǐng)域深耕四年多的創(chuàng)業(yè)公司,碼隆科技憑借其在行業(yè)內(nèi)深厚的技術(shù)積累以及豐富的產(chǎn)品商業(yè)化經(jīng)驗(yàn),業(yè)已成為該細(xì)分領(lǐng)域的領(lǐng)先者。本次,雷鋒網(wǎng) AI 科技評(píng)論聚焦 AI 商品識(shí)別技術(shù)這一主題,與該公司的 CTO 碼特(Matt Scott)進(jìn)行了一次對(duì)話,碼特也從碼隆科技在技術(shù)研發(fā)、產(chǎn)品化方面積淀下來的經(jīng)驗(yàn)出發(fā),為大家分享了在商品識(shí)別這一細(xì)分領(lǐng)域中的一些思路。
碼隆科技成立于 2014 年,在當(dāng)時(shí)無論是科技巨頭還是人工智能創(chuàng)業(yè)公司紛紛青睞人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域的背景下,創(chuàng)立之初便另辟蹊徑,選擇了商品識(shí)別這一賽道,而這一開始也為碼隆科技此后在該領(lǐng)域的發(fā)展贏得了先機(jī)。
對(duì)于公司成立之初的這一決定,碼特回憶道:「當(dāng)四年前我們剛剛成立并做出這個(gè)決定時(shí),還沒有其他公司完全專注于人工智能商品識(shí)別這一領(lǐng)域。在這五年的時(shí)間里,我們專注技術(shù)研發(fā),并同時(shí)兼顧核心科研成果的實(shí)際場(chǎng)景落地,可以說,如今即便在世界范圍內(nèi),我們都是將深度學(xué)習(xí)技術(shù)應(yīng)用于商品識(shí)別這一領(lǐng)域的引領(lǐng)者。雖然在該領(lǐng)域,我們目前也面臨著一些競(jìng)爭(zhēng)對(duì)手,但是碼隆在研發(fā)、工程、數(shù)據(jù)和國際客戶、合作伙伴方面,都有著先天優(yōu)勢(shì)?!?/p>
而實(shí)際上,相比于一般場(chǎng)景中所用到的人臉識(shí)別、場(chǎng)景識(shí)別而言,商品識(shí)別技術(shù)存在許多其獨(dú)有的難題,在場(chǎng)景落地中面臨著更大的挑戰(zhàn),對(duì)此,碼特詳細(xì)介紹道:「例如,商品有海量的庫存單位(SKU, Stock Keeping Unit),其中有很多都是細(xì)粒度的,存在的差異是很難分辨出來的。不僅如此,即使是同一種商品或者庫存單位,在不同的情境下也有可能呈現(xiàn)出非常不同的外觀,比如針對(duì)同一種商品的電商賣家秀和買家秀,往往外觀效果大有不同。此外,商品識(shí)別技術(shù)還需要解決的一個(gè)基本問題是:因?yàn)樯唐吠獠堪b經(jīng)常更新,需要保證高效的庫存單位更新能力,也就是上新的問題?!?/p>
對(duì)此,碼隆科技倚靠扎實(shí)的技術(shù)研發(fā)實(shí)力,從不同的技術(shù)路徑來解決這些問題?!副热玑槍?duì)商品上新問題,我們自主研發(fā)了弱監(jiān)督學(xué)習(xí)算法 CurriculumNet,能夠有效處理有噪音數(shù)據(jù)和數(shù)據(jù)不均衡的情況,讓我們僅需 20 張圖像數(shù)據(jù)進(jìn)行訓(xùn)練就能取得與訓(xùn)練成百上千張圖像相同的效果,從而極大地減輕了其數(shù)據(jù)收集和標(biāo)注的壓力和成本。另外對(duì)于不同商品的包裝相似問題,我們研究的細(xì)粒度分類(Fine-grained Classification)技術(shù)能夠讓 AI 系統(tǒng)做出判斷達(dá)到與人類根據(jù)視覺觀察做出正確判斷同樣的水準(zhǔn),在某些場(chǎng)景中,機(jī)器識(shí)別的正確率甚至更高。」
作為一家注重商品識(shí)別技術(shù)研發(fā)和商業(yè)化并駕齊驅(qū)的公司,碼隆在技術(shù)產(chǎn)品化方面也是不遺余力地投入。自創(chuàng)立以來,碼隆科技打造了一系列 AI 商品識(shí)別產(chǎn)品,其中就包括其最早大眾化的產(chǎn)品——商品識(shí)別基礎(chǔ)技術(shù)平臺(tái) ProductAI??。
據(jù)介紹,ProductAI? 集成了包括商品圖像的搜索、檢測(cè)、分類、分析、標(biāo)注以及色彩分析和文字識(shí)別等多種基礎(chǔ)技術(shù),涉及弱監(jiān)督學(xué)習(xí)、課程學(xué)習(xí)、目標(biāo)跟蹤、細(xì)粒度分類、物體檢測(cè)等等的計(jì)算機(jī)視覺核心算法。「同時(shí),碼隆科技也正在進(jìn)行前沿深度度量學(xué)習(xí)(Deep Metric Learning)的研究,作為細(xì)粒度分類、檢測(cè)和追蹤技術(shù)的補(bǔ)充?,F(xiàn)在這些算法都已應(yīng)用于圖像或視頻處理的商品識(shí)別場(chǎng)景?!?/p>
在場(chǎng)景中的實(shí)際落地情況,以智能貨柜為例,其在整個(gè)流程中充當(dāng)?shù)慕巧牵簩?duì)消費(fèi)者來說,該技術(shù)主要用于自動(dòng)結(jié)算這一環(huán)節(jié),可以根據(jù)消費(fèi)者的拿取商品前后的變化識(shí)別出消費(fèi)者具體購買了哪些商品,并以此為依據(jù)進(jìn)行結(jié)算;對(duì)商戶來說,一是商品識(shí)別技術(shù)能夠使商家實(shí)時(shí)了解智能貨柜的運(yùn)營狀態(tài),二是后臺(tái)會(huì)有銷售大數(shù)據(jù)分析系統(tǒng),可以為商家提供一些銷售洞察作為決策參考,如哪些商品在什么樣的布點(diǎn)位置銷售情況更好等等。
對(duì)于碼隆的商品識(shí)別技術(shù)的整個(gè)落地情況,碼特介紹道:「線上和線下零售是我們最優(yōu)先落地的場(chǎng)景。在線下零售方面,我們目前將智能貨柜作為實(shí)體零售的主要落地場(chǎng)景,此外還有商超資產(chǎn)保護(hù)、智能稱重等應(yīng)用場(chǎng)景。而在線上零售方面,我們的商品識(shí)別技術(shù)也已經(jīng)通過 API 調(diào)用的形式賦能了很多電商平臺(tái)和時(shí)尚應(yīng)用。」
作為在該行業(yè)有著合作伙伴積累的碼隆來說,在 AI 商品識(shí)別技術(shù)的場(chǎng)景落地合作伙伴的選擇上,也有著自己的考量點(diǎn) :「我們的策略是選擇那些垂直行業(yè)的龍頭玩家去進(jìn)行合作,他們能在更宏觀的角度看待產(chǎn)業(yè)發(fā)展,深知行業(yè)痛點(diǎn),同時(shí)對(duì)新技術(shù)的布局意識(shí)也更勝一籌。比如,在將商品識(shí)別與智能貨柜結(jié)合的探索中,我們選擇和世界頂級(jí)冰柜制造商海爾進(jìn)行合作。在 AI 技術(shù)落地的過程中,一定是有很多困難的,這就需要行業(yè)內(nèi)的廠商相互配合、各自發(fā)揮優(yōu)勢(shì)進(jìn)行一點(diǎn)一點(diǎn)地打磨?!?/p>
作為一家以技術(shù)研發(fā)為長的公司,碼隆科技也時(shí)刻關(guān)注著學(xué)術(shù)界在該領(lǐng)域的動(dòng)態(tài),比如包括細(xì)粒度分類、弱監(jiān)督學(xué)習(xí)、深度度量學(xué)習(xí)以及檢測(cè)追蹤算法等等。同時(shí),碼隆也會(huì)緊隨學(xué)術(shù)動(dòng)態(tài),將自己的研究成果搬到學(xué)術(shù)界去進(jìn)行測(cè)試:一方面是通過學(xué)術(shù)界一系列商品識(shí)別評(píng)估標(biāo)準(zhǔn)進(jìn)行自我檢驗(yàn);另一方面,碼隆科技也樂于向 CVPR、ICCV 和 ECCV 等計(jì)算機(jī)視覺世界頂級(jí)行業(yè)會(huì)議投遞論文,去接受該領(lǐng)域的國際權(quán)威評(píng)審。
例如,在 CVPR 2019,碼隆科技就發(fā)表了一篇關(guān)于多相似度損失的論文:「Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning」。據(jù)碼特介紹,該論文提出使用 GPW(General Pair Weighting)框架來從底層來理解圖像檢索中的損失函數(shù),并在該框架下提出了多相似度損失(Multi-similarity Loss, MS Loss)函數(shù),顯著提高了圖像搜索的性能——該損失函數(shù)在世界上所有主要的圖像檢索基準(zhǔn)上都獲得了領(lǐng)先的結(jié)果。
不僅如此,碼隆科技甚至還創(chuàng)建了自己的評(píng)估標(biāo)準(zhǔn)?!附衲?,我們舉辦了一項(xiàng)有關(guān)商品識(shí)別的比賽 iMaterialist Challenge on Product Recognition,截至目前,全球已有近一百支代表隊(duì)參賽,比賽結(jié)果將在 CVPR 研討會(huì)上公布。在比賽中,我們開放了史上數(shù)據(jù)量最大,商品種類最多元的數(shù)據(jù)庫,比賽涵蓋 2019 個(gè) SKU 超過一百萬張圖像數(shù)據(jù),每個(gè) SKU 都有超過 200 張圖片,是 CVPR 迄今數(shù)據(jù)規(guī)模最大、種類最多的商品識(shí)別競(jìng)賽。同時(shí),我們也和谷歌研究院一起合作將該挑戰(zhàn)賽列入了谷歌 CVPR 研討會(huì)『the Sixth Annual Workshop on Fine-Grained Visual Categorization』的一部分?!?/p>
作為前微軟亞洲研究院高級(jí)研發(fā)主管、現(xiàn)任碼隆科技 CTO 的碼特,在其學(xué)生時(shí)代就已在計(jì)算機(jī)視覺領(lǐng)域勤耕,如今選擇聚焦商品識(shí)別領(lǐng)域展開研究,對(duì)于這項(xiàng)技術(shù)未來的發(fā)展自然充滿了期待:「與計(jì)算機(jī)視覺其他相關(guān)任務(wù)一樣,我們同樣也期待機(jī)器能夠在這一細(xì)分領(lǐng)域以超越人類的水平實(shí)現(xiàn)持續(xù)學(xué)習(xí)和推理。未來,這項(xiàng)核心技術(shù)將會(huì)對(duì)零售等行業(yè)帶來變革性的影響,在讓商業(yè)更加高效運(yùn)營、提升利潤的同時(shí),也改變和優(yōu)化人們購物和生活的方式。」
而具化到碼隆科技上,碼特表示,現(xiàn)在和未來,碼隆科技依舊會(huì)聚焦于商品識(shí)別這一領(lǐng)域,同時(shí)會(huì)不斷開發(fā)和優(yōu)化相關(guān)的底層算法,并以此為基礎(chǔ)推動(dòng)技術(shù)與更多行業(yè)的結(jié)合,最終落地到實(shí)際場(chǎng)景中給人們帶來便利。此外,碼隆科技也從研究層面去探索該技術(shù)在其他行業(yè)應(yīng)用中更多的可能性,而具體的細(xì)節(jié),也將會(huì)在不久后對(duì)外公布。 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。