0
本文作者: 李旭旭 | 2015-05-01 14:20 |
近年來,計(jì)算機(jī)視覺技術(shù)發(fā)展迅速,但它往往趨于應(yīng)用于某種特定的應(yīng)用程序中,比如Facebook自動(dòng)標(biāo)記出照片中的朋友,谷歌會(huì)自動(dòng)顯示用戶搜索類似圖像。
但我們對(duì)計(jì)算機(jī)視覺技術(shù)真正的期望是,一臺(tái)經(jīng)過訓(xùn)練的相機(jī),能夠回答類似:“孩子放學(xué)回家了嗎?”“公司有開放的停車場(chǎng)嗎?”“奶茶店有多少人正在排隊(duì)?”等簡(jiǎn)單的問題。
而現(xiàn)在,計(jì)算機(jī)還沒有發(fā)達(dá)到準(zhǔn)確理解并回答這些問題。這也是Zensors研究人員想要改變的東西??▋?nèi)基-梅隆大學(xué)開發(fā)了一種項(xiàng)目,旨在運(yùn)用人類的智慧和人工智能的巧妙結(jié)合,使得使計(jì)算機(jī)視覺更加智能。然而目前這一想法僅在概念驗(yàn)證階段,它需要一個(gè)令人信服的解決方法。
假設(shè)你是一個(gè)奶茶店的老板,想要知道一天之內(nèi)有多少顧客排隊(duì)購(gòu)買。那Zensors就派上用場(chǎng)了:只要將一部舊的智能手機(jī)安裝在墻上,注冊(cè)賬號(hào)后,向Zensors APP發(fā)出指令,讓它查詢有多少顧客正在排隊(duì)。接下來, Zensors會(huì)把用戶指令傳達(dá)給卡耐基梅隆大學(xué)的研究人員。項(xiàng)目的“眾包”工人收到智能手機(jī)傳送過來的圖片,并數(shù)出照片中的人數(shù)并附上標(biāo)記(這步需要收取一筆小額費(fèi)用)。
處理后的圖像被同時(shí)用于機(jī)器算法的學(xué)習(xí),使機(jī)器學(xué)會(huì)自主數(shù)清排隊(duì)等待的顧客人數(shù)。當(dāng)人工智能訓(xùn)練到一定程度時(shí),即可完全接管這項(xiàng)任務(wù)。人工與機(jī)器的切換無縫發(fā)生;用戶甚至感覺不到差別,而他們所能體會(huì)到的是,在設(shè)置相機(jī)的幾分鐘中內(nèi),Zensors就會(huì)做出回答,給出一個(gè)確切的數(shù)字。
這讓我們想起了2011年就出現(xiàn)過的聯(lián)想樂助理的例子。這是一個(gè)日程應(yīng)用,你對(duì)著手機(jī)說“兩天之后早上十點(diǎn)飛北京”,它就能自動(dòng)幫你安排日程,識(shí)別相當(dāng)準(zhǔn)確。但真正起作用的并不是什么人工智能算法,而是另一端有客服人員“人工”聽到語(yǔ)音后,再安排行程。
該方法解決了計(jì)算機(jī)視覺存在的最大問題:缺乏靈活性。計(jì)算機(jī)視覺已經(jīng)取得了巨大的進(jìn)步,但很多都僅應(yīng)用于非常具體的情況。從技術(shù)上說, 經(jīng)過人工智能訓(xùn)練的計(jì)算機(jī)視覺系統(tǒng)非常不可靠,往往無法處理陌生的環(huán)境或行為。Zensors會(huì)雇傭適量的人力使計(jì)算機(jī)熟悉某個(gè)特定的場(chǎng)景,他們認(rèn)為這是將計(jì)算機(jī)視覺帶入大眾生活中的一種好方法。
這種方式比重新構(gòu)建解決方案便捷地多。研究人員詢問了一些程序員,開發(fā)一個(gè)常規(guī)的可以測(cè)定公共汽車是否已到達(dá)車站的計(jì)算機(jī)視覺系統(tǒng)的成本是多少,結(jié)論是平均3000美元。Zensors用自己的方法開發(fā)能解決類似問題的系統(tǒng),如“停車場(chǎng)有多少輛車? 水槽有多臟?洗碗機(jī)的門開著嗎?”。平均而言,只要每天讓一部分人幫助處理圖像,一周之內(nèi)該算法就可以自主回答類似的復(fù)雜問題。按最低工資來算,訓(xùn)練一個(gè)傳感器的成本最便宜是5美元,最貴也僅為40美元。
但這種方法似乎將人類置于機(jī)器之下,它們做不了的工作讓人類來完成,而我們的初衷卻是人類不愿做的就讓機(jī)器來完成。這固然也是人工智能還不成熟時(shí)的權(quán)宜之計(jì)。
Zensors團(tuán)隊(duì)目前仍在著手構(gòu)建該平臺(tái)。但Zensors真正的野心遠(yuǎn)不限于回答用戶提出的問題。該模型還可以把類似API的結(jié)構(gòu)應(yīng)用于視頻中,并供其他應(yīng)用程序使用。不同于iPhone中的運(yùn)動(dòng)傳感器,他們可以將獲得的數(shù)據(jù)提供給如Nike和MyFitnessPal的第三方應(yīng)用,目前仍沒有API可以從視頻中提取數(shù)據(jù)。使用Zensors,店主可以觀察每天排隊(duì)人數(shù)的變化,還可以使用這些數(shù)據(jù)喚醒其他操作,比如說,當(dāng)排隊(duì)等待的人數(shù)超過6人時(shí),自動(dòng)開放第二個(gè)收銀窗口。
“今天我們普遍將相機(jī)圖像認(rèn)為是一種沒有多少計(jì)算意義的模擬信號(hào)。但其傳遞的信息是清晰的,” Wiese說。目前來說,計(jì)算機(jī)算法可能無法自助提取信息,但只要給予它們一些時(shí)間與人類的輔助,相信這也不是遙遠(yuǎn)的愿景。
via wired
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。