丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給任平
發(fā)送

0

金出武雄和他的中國學生們,計算機視覺五十載風云

本文作者: 任平 2024-01-31 11:09
導語:沈向洋、韓玫、陳梅、田英利、肖京、鐘華、李巖、康洪文、蘇航......金出武雄和他的中國學生們。

突破性的成就對金出武雄來說并不新鮮。

自上世紀八十年代以來,金出武雄(Takeo Kanade)一直是卡內(nèi)基梅隆大學的基礎(chǔ)。

他發(fā)起、領(lǐng)導、合作了幾個主要的自主移動機器人和各種應用系統(tǒng),譬如該校的無人駕駛汽車(NavLab)、自主直升機(Robocopter)、計算機輔助髖關(guān)節(jié)置換手術(shù)系統(tǒng)(HipNav)和視頻監(jiān)控系統(tǒng)(VSAM),只要是與計算機視覺技術(shù)的相關(guān)項目,總能看到金出武雄的名字。

但這并非關(guān)鍵,當他在這所學校工作了十多年后,一則所長的任職才將他的后半生拉開帷幕。

這涉及卡內(nèi)基梅隆大學的機器人研究所,能否將技術(shù)創(chuàng)新推向高潮。1992年,金出武雄從創(chuàng)始所長羅杰·瑞迪(Raj Reddy)手中接過任命函,意味著這位從日本而來最初只有研究員身份的學者,徹底被美國敞開懷抱。

壓力不言而喻,但金出武雄設(shè)法做到了。

一用燈塔光環(huán)招攬全世界精英,二以本所為紐帶,聯(lián)合匹茲堡大學等多校學術(shù)資源開展跨學科研究,自身的技術(shù)研究與人才培養(yǎng)水準從此進入全球前列。

用金出武雄的話說:“作為機器人研究所的所長,我得到了一個機會--把研究所發(fā)展成擁有200多位研究專家、在全世界最具盛名的機器人研究所的機會?!?/p>

多米諾骨牌般的連鎖效應一旦開啟,卡內(nèi)基梅隆大學的機器人研究所變成了繁華的學術(shù)中心。

水漲船高,越來越多的美國科技公司毗鄰而建,投資機會和可用人才也開始增加,形成了一個生態(tài)系統(tǒng)。

傳言里Uber花大價錢在該校旁買下一棟樓幾乎挖盡機器人研究所教授,美國通用汽車甚至啤酒制造廠這種體量的企業(yè)都與該所保持著多年合作。那些富有經(jīng)濟頭腦的人,靠著從機器人研究所挖掘?qū)W生項目包裝成公司往外賣,一夜暴富的事情隔三差五就會上演。

無一例外,名師高徒的故事也發(fā)生在金出武雄身上。

金出武雄和他的中國學生們,計算機視覺五十載風云

金出武雄

縱觀整個計算機視覺、機器人、人工智能領(lǐng)域的風云人物,里面一定那些有耳熟能詳?shù)拿郑?/p>

沈向洋、韓玫(平安硅谷研究院院長)、陳梅(微軟云與AI首席科學家)、柯啟發(fā)(Uber高級工程總監(jiān))、田英利(紐約市立大學教授)、肖京(平安集團首席科學家)、鐘華(文遠知行工程資深副總裁)、李巖(文遠知行CTO)、康洪文(慧川智能創(chuàng)始人),再加上那些與金出武雄合作過的博士后、訪問學者,更是不勝枚舉。

作為金出武雄的學生,他們既標志著金出武雄的過去,又和金出武雄形成了流動的對照?!皩W生們”的身份,儼然成了他們的一個符號,相比很多人而言他們起點頗高。

事了拂衣去,深藏功與名。但江湖,記住了金出武雄的名字。

“我們只去美國五年”

金出武雄的人生分成了三段,前段留在了日本,中段留在了美國,現(xiàn)在七十多歲這段才又回到了日本。

他三段經(jīng)歷都值得說道,因為歸根到底都是一個主題,讓計算機“看”世界。但放在20世紀60年代,這不是一件輕而易舉的事情,那時的計算機處理圖像速度非常慢,半間屋子是計算機,另外半間是空調(diào),用來散熱,數(shù)據(jù)處理速度更是與今天不可相提并論。

1968年,金出武雄本科畢業(yè)于京都大學工學部電氣電子工學系,隨后六年碩博進入該校堺實驗室的“計算機化圖像識別”研究小組,師從酒井敏之教授。

金出武雄對計算機圖像和聲音處理與識別進行了研究。這是當時世界上最先進的研究,也引出了后來的研究課題--創(chuàng)建世界上第一個全面的基于計算機的面部識別程序。

事實上,開發(fā)這樣一個前所未有的面部識別程序需要很大的勇氣。金出武雄曾表示過,“我不想被問到我是否可以做到,當我進入博士課程時,使用計算機處理圖像的想法已經(jīng)開始出現(xiàn),我認為這是一種應該可行的技術(shù)?!?/p>

可以大膽想象,金出武雄一切構(gòu)想的根源都是“我想要這樣”,而并不是“能不能實現(xiàn)呢”,他始終抱著一種“能實現(xiàn)”的積極態(tài)度。

但是,當時還沒有數(shù)字圖像,沒有辦法將膠片上拍攝的照片數(shù)字化。他不得不使用標尺在紙質(zhì)照片上整齊地繪制網(wǎng)格線,將其與標準的亮度模式進行視覺匹配,并手動對每個像素進行編號。緊接著,他又不得不在打字機上重新輸入,并將其放入計算器中以創(chuàng)建數(shù)字圖像。這是一項非常耗時的任務,可以稱它為“人類數(shù)字化圖像”。

1970年,大阪世博會,機會來了。

金出武雄設(shè)計了一套裝置。觀眾在鏡頭前坐上3秒鐘,等待面部掃描,計算機會將他/她的眼睛、臉頰大小和五官比例與當時的名流對比。作為比對基準的名人大約有5個,約翰·肯尼迪(美國前總統(tǒng))、溫斯頓·丘吉爾(英國前首相)、瑪麗蓮·夢露(美國女星)。掃描后,屏幕會顯示測評結(jié)果,“您擁有一張夢露同款臉型”。 

這臺裝置在世博會上大獲成功,金出武雄在一次演講中回憶,約有數(shù)千人進行了掃描。但他的兩位指導老師酒井敏之教授和長尾真教授(后任京都大學校長)有些遺憾,未能將所有的數(shù)據(jù)保留形成數(shù)據(jù)庫。

金出武雄和他的中國學生們,計算機視覺五十載風云

1970年大阪世博會上大獲歡迎的人臉掃描儀裝置,一名東亞老年男性被判定為“丘吉爾同款臉型”

金出武雄1973年出版的博士論文封面

1977年,金出武雄出版了自己的博士論文,《Computer Recognition of Human Faces》,將基于神經(jīng)網(wǎng)絡的人臉檢測技術(shù)將檢測率提高到前所未有的水平。他因此收到了主要來自美國的采訪請求,如《連線》雜志。而且這項前所未有的研究成果,經(jīng)美國國家科學委員會報告驗證,也變得稍稍為人所知。

大概過了三十年后金出武雄對此表態(tài),“我的研究生時代,還好提早拿出了漂亮的成果?!?/p>

對于大眾來講,這促使了今天在智能手機攝像頭中普遍使用人臉檢測。

1980年,當金出武雄獲得博士學位,并從助教成為助理教授時,隨后便被羅杰·瑞迪(Raj Reddy)招聘到了美國匹茲堡的卡內(nèi)基梅隆大學(CMU),擔任計算機科學學院當時新成立的「機器人研究所」(CMU RI)的高級研究科學家。

金出武雄和他的中國學生們,計算機視覺五十載風云

羅杰·瑞迪(Raj Reddy) (左)、酒井敏之(中),金出武雄(右)(約1990年在京都大學)

實際上瑞迪的名聲在外,他就是李開復在CMU的博士導師,該校機器人研究所的首任所長,1994年圖靈獎得主,也是美劇《生活大爆炸》中能說一口地道的印式英語的主角Raj的人物原型。

當金出武雄來到美國兩個月后,在一次項目會議上,瑞迪突然告知:“視覺是金出武雄的專長,從今天開始,他將成為首席研究員,負責DARPA(國防高級研究計劃局)發(fā)起的圖像理解項目。”

通常,在美國,除非研究員編寫自己的提案并獲得預算,否則無法成為項目負責人。但當時如果瑞迪本人或CMU有任何其他人是成像方面的專家,這個機會一定不會如此輕松拿到。同時這也間接證明,瑞迪眼光毒辣,用人大膽,當初把金出武雄招來就計劃讓他挑起大梁。

但要說為何金出武雄提拔如此迅速,還有一個人不能忽視--艾倫·紐厄爾(Allen Newell)。

金出武雄和他的中國學生們,計算機視覺五十載風云

艾倫·紐厄爾(Allen Newell)

紐厄爾最大的名號是人工智能的創(chuàng)始人物,五十年代參加了具有歷史意義的會議達特茅斯會議,六十年代離開業(yè)界,正式加盟CMU,主要精力放在了籌建和發(fā)展該校的計算機科學系。剛好在長假的一天,紐厄爾來到京都大學酒井教授的實驗室。當時金出武雄是一名助理教授,相當主動地向紐厄爾介紹起正在做的研究。第二天,紐厄爾要去東京參觀皇居,酒井教授提議讓金出武雄帶他參觀,促使兩人的關(guān)系迅速升溫。

不過這還得說,金出武雄總是擅長抓住機會和更優(yōu)秀的人聊天,“我在日本的時候,要是有名字在論文或者報紙上出現(xiàn)過的人來,我一定會見面談一下,這樣的機會一年最多就兩三回?!?/p>

當金出武雄八十年代來到CMU,趕上了匹茲堡“銹帶經(jīng)濟區(qū)”轉(zhuǎn)型浪潮,該校機器人研究所抓住當?shù)亟⑾冗M技術(shù)中心的契機,鼓勵師生將其優(yōu)秀技術(shù)商業(yè)化運營,與英特爾、蘋果、谷歌、IBM、西門子、NEC研究院的合作由此開始。

在這樣一個時期,金出武雄等一眾研究員被徹底放開手腳,推動計算機視覺技術(shù)從實驗室走向應用。

事實上,無論是在日本還是美國,金出武雄都嚴格遵循了日本研究人員的典型道路--在同一所大學建立自己的職業(yè)生涯。

但當周圍的人問他:“你為什么要離開日本的大學去美國?”這個問題一經(jīng)問出便意味著,還有一部分人認為美國大學的工作是沒有保障的。

然而,金出武雄說道:“我知道美國大學擁有美妙的計算機環(huán)境,就像天堂一樣,我保證在CMU待上5年,就可以做3倍于日本的研究?,F(xiàn)在我35歲,如果加上15年,將是50歲。我想那時我不會再想任何新的事情,我的生命可以結(jié)束了?!?/p>

金出武雄最終在這所學校待了40多年,帶領(lǐng)出一支高水準的計算機視覺研究隊伍,而他本人也成為了CMU“吉祥物”地位的中心人物。

自動駕駛?早有人四十年前就玩過了

在美國期間,金出武雄參與了帶有人工智能的攝像眼的機器人及其系統(tǒng)的開發(fā)等各種各樣的研究。

1981年,金出武雄與團隊設(shè)計出世界上第一個直驅(qū)機械臂,包含機器人組件內(nèi)的所有電機,從而消除了長傳動軸。這個研究當時被多家機器人制造商使用,被公認為最先進的機械臂技術(shù)之一。

但金出武雄的機器人夢想并不止步于此。自20世紀80年代中期以來,他發(fā)起、領(lǐng)導、合作了幾個主要的自主移動機器人和各種應用系統(tǒng),包括CMU的無人駕駛汽車(NavLab)、自主直升機(Robocopter)、計算機輔助髖關(guān)節(jié)置換手術(shù)系統(tǒng)(HipNav)和視頻監(jiān)控系統(tǒng)(VSAM)。

金出武雄和他的中國學生們,計算機視覺五十載風云

金出武雄在卡內(nèi)基梅隆大學,拍攝時間約為1985年,這年他拿到CMU終身教授職稱

就拿無人駕駛汽車(NavLab)項目來說,這是一個開創(chuàng)性項目,旨在開發(fā)基于視覺的自動駕駛汽車技術(shù),包括車道保持、自動平行泊車和物體檢測。

1984年,在GPS還沒有被發(fā)明的時候,金出武雄和團隊在一處廢棄的停車場測試了他們的第一輛自動駕駛汽車。在今天看來,當時的水準不值一提,但從那時起,在美國DARPA(國防高級研究計劃局)等機構(gòu)的資助和推動下,這個項目在1995年夏天一炮而紅。

那一轟動性事件就是橫穿美國的越野旅行。一輛代號為“NAVLAB 5”的小型貨車從美國的東海岸駛到西海岸,它以約100公里/小時的速度從匹茲堡行駛到圣地亞哥,全程大概2849英里(約4587公里),其中自主駕駛部分達到了98.7%。

據(jù)Navlab 5的研發(fā)成員之一,這趟旅行中乘坐NavLab 5的兩名學生,迪安·波默洛(Dean Pomerleau,Navlab小組的聯(lián)合主任)和托德·約赫姆(Todd Jochem,兩人為師生關(guān)系)回憶:他們當時花了4個月時間完成車輛的改裝和軟件調(diào)試,總成本不超過2萬美元。所有裝備包括一臺計算機、一臺640×480像素的彩色照相機、GPS,以及一臺光纖陀螺儀。

最終駕駛方式是用擋風玻璃的攝像頭來尋找車道線,人類負責踩油門和剎車。但這已經(jīng)很棒了,為了標記這一事件,團隊借鑒了1986年“攜手美國” (Hands Across America)慈善活動的名稱,將這次旅行稱為“無手橫穿美國”(NO Hands Across America)。

值得一提的是,當時他們的GPS并不是用來定位,而是測速。托德·約赫姆說,那時GPS還沒有開放高精度定位功能,如果使用這種服務價格會十分高昂,同時,就算用GPS進行高精度定位,他們也沒有匹配的地圖。

不過這反而開辟了自動駕駛的一套范式。當諸多自動駕駛汽車依賴于3D地圖來進行環(huán)境自適應之時,不需要地圖來做決策的方式,意味著可以將一輛車輛扔到一個它完全沒有去過的地點,它能夠通過學習人類以往的駕駛經(jīng)驗來進行操控,而且表現(xiàn)很出色。

如今以特斯拉為代表的純視覺方案,只靠攝像頭,再加算法,來進行自動駕駛,走的就是這條路線。

金出武雄和他的中國學生們,計算機視覺五十載風云

基于1990年的龐蒂亞克運動款轎車改裝的自動駕駛車NavLab 5(1995年)

照片中的兩位是CMU研究員,迪安·波默洛(Dean Pomerleau)和托德·約赫姆(Todd Jochem)

有趣的是,這次具有歷史意義的長途旅行當時幾乎沒有任何資金支持,他們在路上賣10美元一件的襯衫,用于支付食宿費用?!安恍枰p手駕駛,一邊開車一邊賣貨確實是個好生意?!倍嗄旰?,在美國脫口秀上,金出武雄靠這個逸事一出場就引得全場叫絕。

把這話放在現(xiàn)在,直到最近幾年才有高?;剡^味來決定開設(shè)自動駕駛課程,但40年前,CMU人才一直處于自動駕駛汽車技術(shù)的前沿。在這一點上,甚至他們中很少有研究人員認為自動駕駛是一項難以想象的任務。

好比當時金出武雄表達了這樣一段話:“在1980年左右,計算機圖像處理已經(jīng)成為一個非常普遍的概念,通過分析航空照片來建立識別和尋找道路的研究正在取得進展。你需要做的僅僅是在你的車里放一個攝像頭,然后編寫一個遵循你路徑的程序。當然,這并不容易,但自動駕駛成為可能是理所當然的?!?/p>

這句話直接、簡單、省略,即便對計算機視覺領(lǐng)域一知半解,沒有深入研究的人也容易理解。這就是金出武雄的一大特點:像外行一樣思考,像專家一樣實踐。

這句話同時也極具鼓舞人心的效果,意思是,研究項目領(lǐng)導的主要工作,就是給出這樣的行動方針,懂得省略到什么程度是關(guān)鍵。如果直接從復雜的現(xiàn)實開始思考,是無法鼓勵團隊向前邁出一步的,提供研究經(jīng)費的贊助商也暗生動搖。

在CMU機器人研究所的帶領(lǐng)下,當時社會正處于一場意義深遠的交通革命的邊緣。

美國每天的頭條新聞大肆宣揚自動駕駛汽車技術(shù)的最新成就、DARPA發(fā)起關(guān)于自動駕駛的城市挑戰(zhàn)賽(這一比賽的地位等同于無人駕駛?cè)Φ膴W林匹克)、科技巨頭爭相在匹茲堡開設(shè)了自動駕駛研究機構(gòu)、汽車制造商競相為他們的汽車配備更加智能和自主的系統(tǒng),包括自適應巡航控制、停車輔助、避免碰撞、車道維護等。

比如2007年的DARPA城市挑戰(zhàn)賽,100余組參賽隊伍中,11輛自動駕駛車因其卓越性能脫穎而出,冠軍就是“Boss”——CMU基于雪佛蘭太浩的自動駕駛改裝車。

CMU機器人研究所在DARPA挑戰(zhàn)賽中的優(yōu)秀表現(xiàn),直接促使美國通用汽車公司對其捐贈500萬美金建立第二個實驗室--自動駕駛技術(shù)合作研發(fā)實驗室。當年帶隊參加這場比賽的CMU電子計算機工程系教授拉吉·拉庫馬(Raj Rajkumar),成為這所實驗室的聯(lián)合主任。

但更大的意義是,從此全球開啟了自動駕駛產(chǎn)業(yè)化之路。

就以拉吉·拉庫馬來說,此后他創(chuàng)辦了Ottomatika公司(主攻自動駕駛軟件和系統(tǒng)開發(fā)),2015年該公司被世界第三大汽車零部件制造商德爾福收購。到了2020年安波福(從德爾福分拆出來)和現(xiàn)代汽車共同出資40億美元,成立了現(xiàn)在的Motional,與Lyft、Uber、Via等公司都有合作。

此外迪安·波默洛和學生托德·約赫姆一起創(chuàng)辦了AssistWare,專門研究基于機器視覺的系統(tǒng)比如疲勞駕駛警告系統(tǒng)、車輛越位提醒,拿下一級汽車供應商威世通的訂單,后來該公司在2006年5月達到頂峰,被康耐視公司收購,再后來就是康耐視將部分業(yè)務出售給日本TKHoldings了。

總之,當初這些在金出武雄領(lǐng)導計算機視覺小組工作的人,都憑借那一時期的工作在美國建立聲名,從此在工業(yè)界獨當一面。

說實話,別看現(xiàn)在CMU機器人研究所在自動駕駛方面很了不起,但當時接過DARPA(國防高級研究計劃局)這種軍方資金的支持,如果成效甚微免不了一頓重擊。

尤其是如果說出CMU機器人研究所成立的背景,是由美國前副總統(tǒng)迪克·切尼(Dick Cheney)、海軍研究辦公室海軍上將布奇諾(Bacchico)打了包票,找來了匹茲堡當?shù)仄髽I(yè)西屋電氣總裁湯姆·默林Tom Murrin談贊助,光面對這三人的“考核”都是巨大壓力。

金出武雄一次說起類似的事。他到達美國后不久,第一次參加DARPA會議,從早到晚連上通宵都在討論工作問題,當然他的英語不錯,常被人褒獎“金出教授頭腦很活躍啊”,還曾在研究生時74小時連續(xù)不斷地思考問題,但是,“當我回到酒店洗澡時,我的手上有頭發(fā),我認為當時壓力很大?!?/p>

在研究界活躍的研究者都有一個共同點,就是擁有智慧體力。智慧體力是金出武雄造的詞,指的是能長時間連續(xù)思考同一個問題,從各方面來思考同一個問題而怎么都不厭倦的能力。

金出武雄設(shè)法做到了沒有屈服于壓力,僅1991年這一年的論文和報告數(shù)量為25篇,這樣的研究強度保持了幾十年,堪稱史上罕見。

唯一一位登上超級碗的大學教授 

21世紀之前,金出武雄已經(jīng)功成名就:CMU最高榮譽Helen Whitaker講座教授、CV領(lǐng)域最高榮譽之一Marr獎、美國國家航空航天局(NASA)先進技術(shù)咨詢委員會顧問、美國兩院院士、IEEE / ACM fellow,諸如此類......

但他一生最重要的角色,一定是CMU機器人研究所的所長。

1992年,金出武雄從羅杰·瑞迪(Raj Reddy)手中接過了第二任所長一職,從此奠定了CMU機器人研究所的江湖地位。

用他自己的話說:作為機器人研究所的所長,我得到了一個機會--把研究所發(fā)展成擁有200多位研究專家、在全世界最具盛名的機器人研究所的機會。”

故此,1995年,機器人研究所憑借自動駕駛名聲大噪,僅僅是金出武雄完成的第一階段任務--幫助該所減輕經(jīng)費壓力、擴大師資力量,并將研究模塊衍生到自動駕駛汽車一直到醫(yī)療機器人領(lǐng)域--機器人研究所從一個研究中心轉(zhuǎn)變?yōu)橐粋€擁有獨特研究生和本科課程的成熟學術(shù)部門。

此時,距離金出武雄和團隊亮相超級碗,還有六年。那是一場極致的視覺盛宴。

“我們涵蓋了一切,從理論到軟件,再到技術(shù)和硬件。我們的多功能性可能是我們真正的強項,我為此感到自豪。”金出武雄稱。

(注:超級碗(Super Bowl)是美國職業(yè)橄欖球聯(lián)盟年度冠軍賽。多年來都是全美收視率最高的電視節(jié)目,并發(fā)展為美國一個非官方的全國性節(jié)日,甚至超級碗中場秀有“美國春晚”之稱)

2001年1月28日,電視臺在轉(zhuǎn)播超級碗比賽時,使用了一個搭載“機器人攝像機”的名叫“EyeVision”(幻影)的新式現(xiàn)場直播系統(tǒng)。當時,世界上約有五億人在電視機前收看了那場比賽。這個系統(tǒng)所用的技術(shù)是受在世界上擁有廣泛電視網(wǎng)絡的CBS公司的委托,由金出武雄和他的團隊開發(fā)的。

這一直播系統(tǒng)新在何處?

打個比方,現(xiàn)在我們經(jīng)常在刷到“運動會上攝影師跟拍,舉著相機與運動員同頻奔跑”的新聞。對于短跑比賽來說這種攝像操作比較簡單,但對于橄欖球這種集體配合的、對抗性的射球比賽,要把決勝一瞬間的精彩畫面捕捉進電視直播,光靠人力根本不可能完成。

于是,金出武雄提出一個思路:“我認為最好把相機放在你想看的地方,一個相機不行,就多加相機。”

球場內(nèi),他和團隊在場地上方設(shè)置了200多臺機器人攝像機來覆蓋整個球場。球場外,CBS轉(zhuǎn)播車中設(shè)置有帶有監(jiān)視畫面的類似移動攝像機的裝置,并與場內(nèi)的機器人攝像機全部連接。

也就是說,當場外的裝置做出“移動鏡頭”或者“變焦”的操作時,計算機同時進行運算,遠程控制相應的機器人攝像機做出同樣的操作,并且輸出拍攝畫面。所以,轉(zhuǎn)播車中的攝影師根據(jù)拍攝的位置,可以自由地選擇運動場內(nèi)的攝像機,從而得到最理想的拍攝位置。

但效果并不僅僅而已。

“橄欖球比賽的時候要過那條線,過去是一堆人擠在那盯著,有了那個系統(tǒng)之后,就是‘啪’把那個時間停住,所有攝像機都轉(zhuǎn)過來看。例如,在四分衛(wèi)投球的那個瞬間,和傳統(tǒng)的單向拍攝不同,我們的攝像機一起旋轉(zhuǎn),一起拍攝投球人的方向。對于是否觸底得分的微妙情況,我們可以自由地將視點變換360°,一目了然并做出裁決。那個效果就像電影《黑客帝國》中的‘子彈時間’鏡頭一樣。”

所有攝像機把拍攝的視頻傳送到轉(zhuǎn)播車中,這樣對每個攝像機拍攝的畫面進行合并剪輯的話,可以360°全方位地再現(xiàn)選手和球的移動狀況。

那次“EyeVision”在超級碗中所體現(xiàn)出的效果得到了大家很高的評價。這項研究的投資公司想把這項技術(shù)投放市場,結(jié)果它的股價在兩周內(nèi)翻了六倍。當年擔任這屆“超級碗”的中場秀表演嘉賓美國歌手小甜甜布蘭妮,在這套直播系統(tǒng)的加持下制造了一場視覺盛宴,成為美國新生代流行文化的代表人物之一。

有趣的是,超級碗轉(zhuǎn)播當天,金出武雄得到了25秒的時間對“EyeVision”系統(tǒng)中應用的新技術(shù)進行解釋。2001年超級碗一個30秒廣告220萬美元,以后,金出武雄就戴上了“唯一出現(xiàn)在超級碗中的大學教授”的帽子。

他打趣道,“EyeVision是與世界上任何人開啟精彩對話的門票?!痹贓yeVision之前, 當他在飛機上與旁邊的人交談,會說自己是CMU從事機器人技術(shù)研究的教授,僅此而已。 但是那場比賽后,當告訴別人建立了EyeVision時,所有人都說“哦,那個我知道,就是你做的啊。”那時金出武雄就會非常自豪。

金出武雄和他的中國學生們,計算機視覺五十載風云

在用于虛擬現(xiàn)實的3D相機室中,金出武雄被50臺攝像機包圍(1998年)

在準備安裝EyeVision的工作人員的陪同下(美國佛羅里達州,2001年)

但后來回憶起來,金出武雄說比賽前的事故曾經(jīng)接二連三地出現(xiàn)。

真正轉(zhuǎn)播的日子是1月28日,前一年的9月就已經(jīng)開始計劃了,可到了12月初也才能確保幾臺機器人攝像機就位。12月24日圣誕節(jié)前夕,在紐約巨人體育場用5臺攝像機做練習的時候,開發(fā)中的軟件讓他們團隊認識到,要想使用30臺攝像機所做的準備工作還差得很遠,起碼要200臺。

接著,機器人電源的的電容器又不知道什么原因爆了,電源又不能用了。都到了轉(zhuǎn)播的前一周1月21日,200臺機器人攝像頭中因為嚴寒能動的只有一半,而且還因為電容爆炸的原因數(shù)目還在減少。

解救了這場危機的是三個工作人員。

他們是研制完全自動飛行直升飛機項目的成員,而且在圖像處理、計算機系統(tǒng)、通信軟件、電路等方面可以說是專家中的專家。其中一位來自中國,如今谷歌資深軟件工程師(principle level)滑蔚。管理Google Cloud AI的多個團隊,也是平安硅谷研究院院長韓玫的先生。當初韓玫博士師從金出武雄(1995--2001),滑蔚從臨校匹大畢業(yè)后進入金出武雄團隊(1999--2001),一邊等待韓玫畢業(yè)。

不過兩人的方向稍有不同,滑蔚參與了金出武雄發(fā)起的多個大型項目,如EyeVision、虛擬化現(xiàn)實,重點研究了多攝像頭標定、圖像配準、面部表情分析、視覺跟蹤和模式識別等問題。韓玫選的是導師金出武雄的強項--三維重建,博士論文做的是經(jīng)典的Structure from Motion (SfM) 方法研究。

金出武雄和他的中國學生們,計算機視覺五十載風云

韓玫

此后,兩人幾乎在2001年初同一時間拿到NEC美國實驗室的offer。同期華人有龔怡宏、朱勝火、余凱、王進軍、王孝宇、林元慶、徐常勝、呂鳳軍、楊銘、徐偉、賈揚清等等,此后他們中陸續(xù)有人回國,余凱2012年加入百度、王進軍2013年跟著龔怡宏回了西安交大、王孝宇在2017年10月加入云天勵飛、林元慶2017年11月創(chuàng)立Aibee......撐起了中國計算機視覺的半壁江山。(這段故事請看:硅谷NEC Lab往事:將中國企業(yè)拽進AI時代的人。后續(xù)本文作者吳彤將推出韓玫的個人故事。歡迎添加微信交流:icedaguniang)

沈向洋、韓玫、田英利、肖京 

很多人可能有所不知,金出武雄門下的華人學生并不少。

除了之前提到的韓玫,還有陳梅(微軟云與AI首席科學家)、柯啟發(fā)(Uber高級工程總監(jiān))、田英利(紐約市立大學教授)、肖京(平安集團首席科學家)、鐘華(文遠知行工程資深副總裁)、李巖(文遠知行CTO)、康洪文(慧川智能創(chuàng)始人)等等。

他們大多數(shù)人大都是跟著沈向洋(曾任微軟全球執(zhí)行副總裁,當年是視覺計算組負責人)在微軟亞洲研究院(MSRA,當時還叫微軟中國研究院)實習,開始對圖像感興趣,又追隨著沈向洋的腳步到CMU機器人研究所,慢慢都成為了金出武雄的學生。

這里面有個沈向洋的故事,他其實是羅杰·瑞迪(Raj Reddy)的學生,但在1991年進入CMU后,卻并沒有走上導師所研究的語音識別這條路。沈向洋認為,語音雖然重要,但人對外界的感知,95%是從視覺來的,所以誤打誤撞成了金出武雄的“半個學生”。

當然,金出武雄給了沈向洋很多指導。沈向洋發(fā)表的博士論文是世界上最早有關(guān)由照片轉(zhuǎn)換成虛擬現(xiàn)實的研究,所設(shè)計的四分樹樣條數(shù)函數(shù)算法,則是世界上最好的運動參數(shù)估計算法之一。

韓玫跟沈向洋在CMU重疊過一年,韓95年入學,沈96年畢業(yè),韓玫還做過沈向洋在微軟雷德蒙研究院的第一個實習生,兩人關(guān)系匪淺,“我三次換工作之前都是先問沈向洋的意見?!?/p>

韓玫曾問過金出武雄,“當時你有沒有一個判斷,哪個學生很強?”

“我基本有一些判斷,誰適合做教授,誰適合在公司,誰更有鋒芒,誰更內(nèi)斂。當時能看出來沈向洋是跟你們不太一樣的中國人,更外向一些,臉皮厚,沖上去跟人聊天?!?/p>

金出武雄描述,沈向洋怎么跟人聊呢?他發(fā)現(xiàn)別人都喜歡這個football(美式橄欖球),他就會專門去找新聞看,開頭能唬人一陣,但說的深一點專業(yè)術(shù)語他也不懂,他就回去再研究,第二天再找那個人聊。就是臉皮厚到不停地聊,跟人打交道的能力就練出來了,慢慢就成了圈子里的意見領(lǐng)袖。

金出武雄和他的中國學生們,計算機視覺五十載風云

沈向洋

1997年,柯啟發(fā)來到CMU,1998年和1999年田英利、肖京也來了。

他們?nèi)说穆臍v有不少相似之處。肖京稱柯啟發(fā)是“嫡系師兄”。兩人本碩都在中科大和中科院自動化所的模式識別與人工智能實驗室,同是時任所長馬頌德的學生。

據(jù)肖京所言,柯啟發(fā)還曾指導過他的本科畢業(yè)論文,畢業(yè)后兩人都曾在日本企業(yè)和微軟供職,當初肖京一進微軟就是柯啟發(fā)帶領(lǐng)的Bing搜索團隊。

田英利則早于他們幾年到中科院做研究員。當時國內(nèi)的模式識別和機器人研究剛剛起步,馬頌德后來又與田英利定下兩年之約--博士學成之后要回來工作兩年--正是柯啟發(fā)和肖京讀碩期間。后來田英利來到CMU做博士后,加入了當時剛剛啟動不久的“人臉的表情識別”課題。

(后續(xù)本文作者吳彤將推出田英利、柯啟發(fā)、肖京的個人故事。歡迎添加微信交流:icedaguniang)

金出武雄和他的中國學生們,計算機視覺五十載風云


田英利、柯啟發(fā)、肖京

前文說過,人臉是金出武雄博士期間的研究課題,二十年后,一幫學生的到來將其進一步發(fā)展到“面部表情分析技術(shù)”的高度。

不像以前的識別系統(tǒng),充其量只注意到“快樂”或“憤怒”等廣泛類別。金出武雄和團隊希望運用心理學和機器學習的方法,做三維的人臉跟蹤,以及人類的微小表情變化的識別和分析。一旦成功,這種技術(shù)就能廣泛應用于安全、司法、醫(yī)療和人機交互等領(lǐng)域。

經(jīng)過一年的摸索,2000年,他們的研究迎來突破。這其中,Jeffrey Cohn教授起到了關(guān)鍵作用。

金出武雄和他的中國學生們,計算機視覺五十載風云


Jeffrey Cohn

Jeffrey Cohn是隔壁匹茲堡大學的心理學系教授,擅長微表情計算。他與金出武雄的認識卻頗為有趣,據(jù)田英利所說,“巧就巧在Jeffrey Cohn的兒子和金出武雄的兒子是同學,一次約在一起做作業(yè),Jeffrey Cohn發(fā)現(xiàn)金出武雄兒子用的那張草稿紙的背面,就是他爸爸做的人臉識別的演算,便直接約了金出武雄見面?!?/p>

因此,自九十年代以來他就與金出武雄保持著密切的跨學科合作,神奇地推動了情感計算領(lǐng)域的發(fā)展。

后來,這一團隊除了在當時建立了第一套全自動的人的微表情識別系統(tǒng),田英利還為此建立了微表情公開數(shù)據(jù)庫,肖京將這種技術(shù)從二維擴展到了三維,使得人臉表情識別技術(shù)的應用范圍更加廣泛。

不久后,MIT的一位女教授關(guān)注到了田英利的工作,還邀請過她到MIT一起合作。雖然沒有成行,但值得一提的是,這位女教授就是冠有“情感計算”之母的Rosalind Picard(她在1997年提出了“情感計算”的概念)。

這充分說明了她的研究成果得到了國際一流學術(shù)機構(gòu)的認可和關(guān)注,并推動了情感計算領(lǐng)域在2000年后迎來一波發(fā)展浪潮。

當時除了金出武雄團隊之外,加州大學的The Salk Institute for Biological Studies(索爾克生物研究所)Terry Sejnowski教授的團隊勢頭甚猛,他們主要研究人機交互,尤其側(cè)重表情識別。

金出武雄和他的中國學生們,計算機視覺五十載風云


Rosalind Picard

Terry Sejnowski(神經(jīng)網(wǎng)絡的先驅(qū),早在1986年,與Geoffrey Hinton共同發(fā)明了玻爾茲曼機)

因此,美國中央情報局組織了一個比賽,邀請了卡內(nèi)基梅隆大學和加州大學兩個團隊。這個比賽的主要目的是測試他們的系統(tǒng)在測謊方面的效果,還請來了Pietro Perona做第三方評判。

盡管只有兩個團隊,但是比賽參與者來自多個國家和地區(qū):田英利來自中國、金出武雄來自日本、Jeffrey Cohn來自美國、Pietro Perona來自波蘭,對方團隊也來自多個國家,因此大家統(tǒng)稱為“聯(lián)合國戰(zhàn)隊”。

田英利分享了一個細節(jié),那天比賽的返程路上,大家都坐電梯下樓,金出武雄大聲說笑,“英利,我最近老覺得有點累,怎么樣才能不累呢?”

為了保證工作連續(xù)性,通常是金出武雄的夫人中午來送飯,做出很漂亮的壽司,但很多時候,到了下午五六點他才想起吃飯,既不是午飯也不是晚飯,一邊吃一邊干活。

“我不知道,要是能找到讓你這么工作還不累的妙方,也告訴我一下?!碧镉⒗卮稹?/p>

那之后,當金出武雄在講座上發(fā)言時,經(jīng)常有人問他,“你所做的一切都成功了”,或者,“你曾經(jīng)失敗過嗎?” 

金出武雄笑答,“我想如果我告訴你我失敗的時候,每個人都會更快樂,但我相當刻薄,所以我回答說,我的信念是一直做到成功,所以我的字典說失敗在邏輯上是不可能的。 ”

金出武雄和他的中國學生們,計算機視覺五十載風云

金出武雄在辦公室,攝于2000年前后

2001年9月11日,一場有目的的自殺式撞機事件在美國發(fā)生,其中第四架被劫持的飛機墜落在匹茲堡。當天,機器人研究所的電話響了,是美國聯(lián)邦調(diào)查局(FBI)打來的。

“我們想得到墜落現(xiàn)場詳細情況的地圖?!?/p>

他們是想要金出武雄團隊使用勘查地形的自動操縱迷你直升飛機,到墜落現(xiàn)場的上空將散落各處的飛機殘骸的狀態(tài)用攝像機拍攝下來。幾天后,金出武雄他們將迷你直升飛機升到墜落現(xiàn)場上空,將激光傳感器拍攝的三維圖像經(jīng)過計算機處理,制成可以對現(xiàn)場情況一目了然的三維地圖,提交給了FBI。

“這真是非常典型的美國政府行為。當國家遇到緊急情況時,大學提供全面的協(xié)助。他們非?,F(xiàn)實,只要有幫助的無論什么都要用上。”金出武雄評價。

他和一眾的學生表示,911事件是他們研究生涯的一個重要節(jié)點:要更加關(guān)注當下的社會生活。

2001年,田英利加入IBM研究中心計算機視覺研究組,迅速將研究重心轉(zhuǎn)向了視覺監(jiān)控,研究如何自動檢測不安全和不規(guī)則的行為并發(fā)出警報,與語音語義背景的高雨青也多有接觸。如今在紐約市立大學生則和醫(yī)療走得緊密,最近正在建立一個手語視覺識別的系統(tǒng),幫助那些想要學習手語的人自動判斷自己的手語準確度,并在出錯時給予提醒。

2004年,韓玫、滑蔚、徐偉、劉昕四人聯(lián)手打造的核心技術(shù)為基礎(chǔ)的初創(chuàng)公司Vidient,該公司的智能視頻監(jiān)控系統(tǒng)最先部署在美國舊金山國際機場,每天預警上百件對潛在危機事件。自從2018年被師弟肖京招入平安硅谷研究院后,主打攻堅業(yè)務驅(qū)動的先進AI技術(shù)研發(fā)。

至于金出武雄,他則更為決斷。

2001年,他辭去了機器人研究所所長的職務。那一年他56歲。

同年,他在日本東京成立了“數(shù)字人類研究中心”,擔任了首任主任。該中心觀察,測量和模擬人類功能,以努力理解許多系統(tǒng)中這個最重要,但最不被理解的組成部分。2006年,他又在CMU成立“生活質(zhì)量技術(shù)工程研究中心”,同樣是擔任首任主任。該中心由美國國家科學基金會(NSF)資助,旨在開發(fā)智能系統(tǒng)以幫助老年人和殘疾人。

眾所周知NSF經(jīng)費非常難拿,習慣于資助小型項目,但金出武雄從那拿了上千萬美元,拉了56個學校一起做,是美國歷史經(jīng)費最高,單位最多的項目之一。

在美國,很多重要大學的所長和主任等職務并不是輪流擔任的閑職。他們既是負責組織運轉(zhuǎn)的經(jīng)營者,也是老板、領(lǐng)導者。他們既需要制定戰(zhàn)略又負責指揮,所以這樣的人一定是精力充沛的。

金出武雄做了一個形容:就好比美國西部劇中的警長都比助手強很多,拔槍他最快,絕不是走到現(xiàn)場大喊一聲“上啊”,身手卻已經(jīng)不如部下了,還要站在前面裝腔作勢,既幫不上忙,部下們也會看輕他。

“要想不被別人當成擺設(shè)的木偶,無論到了什么地位都要履行好自己的職責?!?/p>

鐘華、李巖、康洪文、蘇航

有人問:“金出武雄的中文名字有什么含義嗎?”

金出武雄回答說:“每個漢字倒是有自己的意思的,大概說來,‘金’是money(錢)或是gold(黃金)的意思,‘出’是give out(提供)的意思,‘武’是soldiery(士兵)的意思,‘雄’是brave(勇敢),man(男人)的意思。 ”

“啊,連起來就是招財?shù)挠赂椅涫?!那拿研究資金一定很容易了?!?/p>

確實如此,在拿經(jīng)費這件事上,金出武雄還是頗有心得的,幾乎所有人讀完他的研究計劃書都要說,“給這項研究經(jīng)費提供支持,而且經(jīng)費給他?!?/p>

遙想在1979年10月CMU機器人研究所成立時,要達到研究的臨界質(zhì)量,計劃書上寫的是需要“5~10名教師”和“每年200萬~500萬美元的資金”。但是在金出武雄10年任期中,研究員數(shù)量到了200人,研究所每年的研究費預算大約是6500萬美元。

最主要是美國國防部(DOD)的資助,此外還有美國國防高級研究計劃局(DARPA),美國太空總署(NASA),美國國立衛(wèi)生研究院(NIH),美國國家科學基金會(NSF)等等。

因此,金出武雄給學生定了一條不成文規(guī)定:只允許做一個實習生。

等鐘華、李巖、康洪文、蘇航來到CMU,都是在911風波之后。DARPA痛定思痛,拿著一堆錢到各個學校找人去做各種各樣的研究。尤其是鐘華,“我剛?cè)]幾天就趕上了,本來想學習圖形學,招我的導師Paul Heckbert幾個月前去了英偉達做首席科學家,我就成了‘沒人要’的狀態(tài)?!?/p>

趕巧,史建波剛從UC Berkeley畢業(yè)后來到CMU任教,非常年輕,從美國國防部拿到了一個叫做“Human ID”的項目。這個項目特別神奇,是從人的走路姿勢來判斷身份,意思是這個人可能改頭換面了,但是他走路姿勢這些特征還存在,可用來鎖定出恐怖分子。

與此同時,等到Human ID項目快做完了,眼下又要去碰碰新的項目。

實際上,在鐘華入學之前,沈向洋就早已為他寫好推薦信。雖然鐘華是沈向洋在微軟的第二個實習生,卻是最早跟著他發(fā)展微軟亞研的人,前十五號員工。當時沈向洋在微軟亞研專門創(chuàng)立了一個“assistant researcher”的title給本科生,鐘華是第一個。那么自然,在推薦信中沈向洋對他不吝贊賞。

金出武雄找到鐘華,給了兩個項目選擇,“一個是無人機在樓里飛,另一個是在心臟里導航?!?/p>

鐘華開玩笑吐槽,但這兩個項目的難度都非常大?!?002年那會無人機還非常不普及,給你一無人機不是在外面空曠地飛,要在樓里飛?穿過樓道進屋?我一聽臥槽這太難了,這不是一個人干的事,就選了另一個?!?/p>

那時金出武雄和匹茲堡大學附屬醫(yī)院(UPMC)的醫(yī)生合作非常多,一個醫(yī)生(名字是David Schwartzman)找過來,希望做不開胸的心臟微創(chuàng)手術(shù),還得往里面塞支架,迫切需要一種心臟導航的系統(tǒng)。

說難也難,說易也易,導航定位早在八十年代就被金出武雄應用在戶外機器人上,做了活火山口勘測、極地研究、深海作業(yè)。但心臟導航需要了解大量的生物學知識,包括心臟的解剖結(jié)構(gòu),生理、病理改變,超聲影像等,以及心臟超聲與別的超聲的不同之處在于它還得了解血液動力學的知識。

但他們幾個人對此的熱情不減反增。鐘華說到,“我記得我畢業(yè)論文答辯那幾天,金出武雄的母親去世,他回日本去處理喪事。時差原因,他白天處理日本的事,晚上處理美國的事,我答辯那天問要不要推遲,他說不要推遲,我線上參加。那時候他已經(jīng)72小時沒睡了,但精神看上去還是很好。”

最終那套心臟超聲波導航系統(tǒng)在2007年推出,花費了五年時間,包含手術(shù)導管的實時3D位置和心臟圖像。當時市面上最好的系統(tǒng)精度還在厘米級,他們已經(jīng)提升到毫米級。后來那位醫(yī)生拉著鐘華成立了一個公司,兩年后將IP賣給一家醫(yī)療器械公司,小賺了一筆。

后來的經(jīng)歷中,鐘華曾加入西門子、谷歌、曾再次創(chuàng)業(yè),也曾因幾位創(chuàng)始人意見不一致無奈離職,郁悶地“一個猛子扎進太平洋里”。不過他這個人最厲害的地方就是不發(fā)怨言:“臥槽!人進海了,手機還在兜里,正好誰都別找我了?!?/p>

一周后鐘華重振旗鼓,老同學李巖的電話打來,“要不要來神州優(yōu)車?”

那時候李巖已經(jīng)從CMU畢業(yè),先去了微軟、Facebook,2015年底被同學劉亞霄(現(xiàn)亞馬遜AWS中國區(qū)CTO)找到,說神州優(yōu)車打算在硅谷成立實驗室,缺個帶頭人,便推薦了李巖。

李巖提到,汽車是一個新的領(lǐng)域,也是一個能夠充分體現(xiàn)計算機視覺和人工智能的最佳平臺。無論是從手機、增強現(xiàn)實還是虛擬現(xiàn)實,它們可能都不是真正集大成的產(chǎn)品。鐘華也沒猶豫。他和李巖知根知底,兩人都是清華計算機系,在微軟亞研時都是沈向洋的實習生,后面都拿到沈向洋的推薦信后踏進CMU,前后腳都到了金出武雄門下。兩人一拍即合。

2016年,李巖、鐘華還有幾個跟過來的老搭檔,花了三四個月,把整個神州之前所有的那套轎車系統(tǒng)和派遣系統(tǒng)全改了,放到了云端(AWS)。這是當時的一個痛點,經(jīng)常掛,所有人租不到車,老陸(陸正耀)經(jīng)常罵,“系統(tǒng)一掛一分鐘多少錢就沒了。”

那會百度也在硅谷也在做自動駕駛,兩撥人經(jīng)常這么來往,后來不知道誰起的頭,“要不咱們別這么吹了,一起干算了。”后來就創(chuàng)立了景馳科技。當然自動駕駛?cè)Φ臓幾h一直都不少,說的最多的是誰跳槽誰空降誰挖人,背后牽扯一纜子事情。直到2017年,事情終于告一段落,公司改名文遠知行,李巖擔任CTO,鐘華擔任工程資深副總裁,韓旭擔任CEO、呂慶擔任CFO。故事回歸到最應該討論的技術(shù)軌道上。

李巖第一時間與金出武雄聯(lián)系,并邀請他擔任顧問。

2019年,距離金出武雄發(fā)布了世界上第一輛自動駕駛車輛,已經(jīng)是第34個年頭。他來到了文遠知行全球總部廣州,關(guān)心技術(shù),也關(guān)心商業(yè)化落地,還為融資做了很多幫助。

(后續(xù)本文作者吳彤將推出鐘華、李巖的個人故事,重點談及他們在西門子研究院往事,涉及當今醫(yī)學影像圈的大牛呂樂、鄭冶楓等人。歡迎添加微信交流:icedaguniang)

金出武雄和他的中國學生們,計算機視覺五十載風云

顧烈、鐘華、金出武雄、李巖、韓旭(2019年)

值得一提,在這張合照的左邊,也是金出武雄的一個學生,顧烈。以前是西安交大少年班的,早年和鐘華和李巖都在微軟亞洲研究院共事,做的是圖像和視頻檢索,人臉檢測和對齊,2002年幾人約莫著同一時間拜入金出武雄門下。畢業(yè)后顧烈去了華爾街做量化基金,那地正是全世界最聰明的量化投資者的聚集地--WorldQuant(世坤投資)。

哈工大金融智能量化投資研究中心的羅勇曾在知乎有一段細節(jié)描述--“世坤就是全球量化界的黃埔軍校,加上它背后的千禧基金(Millennium),培養(yǎng)出了一批頂級的Quant人才,其中就包括九坤投資的創(chuàng)始人王琛、合伙人姚聰,誠奇資產(chǎn)創(chuàng)始人何文奇,均投資馬志宇,明汯投資創(chuàng)始人裘慧明等。2017年時世坤的北京分公司就已經(jīng)達到了月薪10萬?!?/p>

不過關(guān)于顧烈的江湖傳聞很少,頗為神秘,但多年好友鐘華提到他時脫口而出,“他是個神童。2009年畢業(yè)后在世坤做到現(xiàn)在,是他職業(yè)欄中僅有的第二段工作?!保ū疚闹皇潜揭唤?,更多內(nèi)幕添加作者微信知曉,歡迎投資界同道交流)

那次到訪中國,金出武雄還特意去了一趟杭州,看望了自己的另一個學生,康洪文。

金出武雄和他的中國學生們,計算機視覺五十載風云

康洪文、金出武雄

康洪文算得上是金出武雄與Martial Hebert聯(lián)合培養(yǎng)的“關(guān)門弟子”,等到康洪文博士畢業(yè)后Martial晉升了CMU的院長。

讀博期間的康洪文對人工智能的應用落地萌生了念頭,2012年畢業(yè)后,他成立“慧川智能”(HUNCH.AI),第一筆投資來自導師金出武雄,緊接著又獲得沈向洋、童士豪、張磊等眾多大佬的投資。

不過相比“慧川智能”,大家可能更熟悉另一個名字——“智影”。

2017年,康洪文回國進行業(yè)務拓展,并迅速鎖定了視頻及短視頻制作賽道。當時中國市場正處于從圖文到視頻的轉(zhuǎn)變過程,內(nèi)容生產(chǎn)者逐步開始轉(zhuǎn)向短視頻平臺,在抖音、快手、西瓜等地方試水。

敏銳捕捉到當時市場的增量需求,康洪文提出了一種算法,“文字生成視頻——Text to Video”,將一維文字數(shù)據(jù)自動生成三維視頻數(shù)據(jù)。用戶只需要輸入腳本文字,直接通過云端生成相應的視頻內(nèi)容,自動配音,并且能進行在線進行編輯和修改,同時預覽、渲染、視頻文件導出和下載等全部在平臺云端完成。

在過去幾年中,智影服務包括了湖南衛(wèi)視、芒果TV、浙江衛(wèi)視等省級上星頻道,這些第一批吃螃蟹的媒體,通過智影成為最早與AIGC商業(yè)化應用接觸的頻道。他們借助智影的工具也完成了眾多在當時看來不可能的任務,包括央視2019國慶七十周年大閱兵短視頻自動化生產(chǎn)、以及2020疫情期間湖南衛(wèi)視歌手云錄制。

2021年初,康洪文所創(chuàng)立的這家人工智能公司最終被騰訊全資收購,他本人出任“騰訊智影”的高級總監(jiān),負責推進集團的智能化內(nèi)容創(chuàng)作工作。

康洪文說,“早在2018年就與騰訊開始接觸,通過兩年的雙方溝通和考察最終在2021年完成全現(xiàn)金收購。騰訊給智影的定位是‘AI視頻中臺’,支持內(nèi)部各個業(yè)務線,如騰訊視頻、騰訊會議。等到2022年底AIGC概念鋪天蓋地火起來時,騰訊突然意識到,原來買的是一個AIGC公司,累積突破千萬級營收。”

這次收購對雙方是雙贏的。如果站在2023年看當時的收購,可以說騰訊在AIGC新紀元開啟前,就撿了個大寶貝。兩年時間,AIGC技術(shù)和概念的發(fā)展帶來價值和估值的增長可能在十倍以上,而康洪文通過智影的收購幫助所有歷史投資人成功高收益退出。

與此同時,在大模型技術(shù)的催化下,康洪文關(guān)于人工智能商業(yè)化落地的夢想再次被點燃。2023年10月,康洪文作別騰訊,開始了自己的新征程。新項目是大語言模型與多模態(tài)AIGC結(jié)合的新方向,目前已經(jīng)獲得多位投資人的投資,其中不乏慧川智能的歷史投資人。

如今再說起跟隨金出武雄的日子,康洪文吐露:我對CMU的教育體系,尤其是金出武雄對自己的培養(yǎng),有一種發(fā)自內(nèi)心的認可和感謝。這不僅僅是說當初導師幫我張羅融資、引薦人脈,他也讓我明白,經(jīng)歷過PhD訓練的人是最好的創(chuàng)業(yè)者。

“博士論文開題就像是你的商業(yè)計劃書:為什么這個問題存在、為什么這個問題值得解決、為什么是我能解決、我用什么方式去解決、解決這個問題之后能夠給用戶和社會創(chuàng)造什么樣的價值。開題后,進入論文的正式研究,學生需要開發(fā)新技術(shù),和創(chuàng)業(yè)時候的產(chǎn)品研發(fā)、技術(shù)創(chuàng)新和迭代一樣。另外學生需要學會團隊合作,這就是創(chuàng)業(yè)時與合作伙伴、投資方的協(xié)作。最后如果幸運通過論文答辯,就等同于市場愿意買單了。”

最近,康洪文作為主要捐贈人牽頭成立了以“金出武雄”名字命名的講席教授,以資助未來在CMU任教的青年教授。兜兜轉(zhuǎn)轉(zhuǎn),老師成就了當初的學生,學生又成就了如今的老師。

在康洪文之后,金出武雄的辦公室依舊走進過非常多的華人學者,有目前紐約州立大學石溪分校的副教授尹兆正、清華計算機系的副研究員蘇航、微軟云與AI首席科學家陳梅、谷歌從事CV研究的潘吉彥,他們幾乎都趁那段時間打開了學術(shù)聲譽。

蘇航感慨萬千,能夠得到金出武雄的指導是一件非?!靶疫\”的事情。因為他不僅能夠一針見血地指出問題所在,還能夠提供宏觀和微觀兩個方面的指導。

“我們寫論文之前,他要求我們把要解決的問題說一下,跟他做一次presentation,寫幾頁PPT,包括這個工作的重點、難點、實驗設(shè)計,但他真正厲害的是,他不僅關(guān)注研究的大方向,他在指導時細致入微,我有一次寫錯了一個數(shù)學符號就被他發(fā)現(xiàn)了?!?/p>

僅用半年,蘇航的一篇論文作為特邀稿件發(fā)在MICCAI上。這是一個跨醫(yī)學影像計算(MIC)和計算機輔助介入(CAI) 兩個領(lǐng)域的綜合性學術(shù)會議,屬于頂級會議,蘇航也成為中國大陸的第二位獲獎者。

(限于篇幅,康洪文、蘇航、陳梅的故事將在后續(xù)系列中詳述。歡迎添加作者微信搶鮮交流:icedaguniang)

故事未完待續(xù)

當今天全球各地熱烈地討論大模型、無人駕駛、AIGC、數(shù)字人、虛擬現(xiàn)實......憧憬著未來各種研究合作的時候,金出武雄在做什么?

2023年的11月初,卡內(nèi)基梅隆大學舉行了一次盛大的計算機視覺研討會,回顧了最近50周年來的CV發(fā)展變革。到場的不僅有金出武雄和他的諸多學生們、他大半個人生中的重要合作者,過去他從世界各地挖來的精英學者、還有如今在計算機視覺前沿的各類項目發(fā)起人。

金出武雄和他的中國學生們,計算機視覺五十載風云

會議開始,所有人都安靜下來,金出武雄快步走上臺。臺下的人身體微微前傾,大家都知道,待會金出武雄第一句話一定不會鋪墊,而是直切正題。

他有一個很重要的策略,就是“先出手中最好的牌”,無論過去在大型國際會議上的演講,還是機器人研究所開的研討發(fā)言,他都會從聽眾最關(guān)心的結(jié)論開始。

“第一張PPT竟然是金出武雄三十年前的一頁筆記?!?/p>

那是金出武雄從當年筆記本上撕下來一頁,一份他對于自動駕駛的設(shè)計,密密麻麻的一張紙,Martial當年還開玩笑,“我打賭30年之后自動駕駛就做成了?!?/p>

不過30年后很快來了,Martia在臺下又補了一句,“現(xiàn)在看至少還得30年才行。”金出武雄笑著把話又拋回去,“都是因為你們這幫學生不聽話,沒有百分百執(zhí)行老板的指示,所以自動駕駛還要搞。”

這個場景很像CMU計算機專業(yè)研究生學院的一個傳統(tǒng)--“黑色星期五”,也就是教授們決定是否開除學生的評鑒日。

所有的教師集中到一個教室,會議的召開常常是大家侃侃而談,特別是涉及到否定結(jié)論的時候。因為這種否定和學生一生的命運相關(guān),所以往往會陳述一個小時,甚至有時候會更久。

但對于那些已經(jīng)畢業(yè)的老學生們就不一樣了,趁著重回學校的機會,他們聚在一起互相談論當年那封名為“黑色星期五”的郵件究竟是怎么寫的。一般為“做了非常了不起的研究”“寫了不少論文”“總是關(guān)心研究以外的事情,而研究沒有絲毫進展”“最近,結(jié)婚了”,等等。

金出武雄和他的中國學生們,計算機視覺五十載風云

2023年 CMU RI 開展了CV研討會,從左到右 田英利、鐘華、李巖、沈向洋、金出武雄、康洪文、韓玫

現(xiàn)在學生們反過來評價老師,給到的回答非常多,譬如:

“金出武雄的成就清單很長、種類繁多且獨一無二?!薄八怯嬎銠C視覺領(lǐng)域的第一批研究人員。他的研究方法不受限制,與如今業(yè)界主流的模仿人類視覺特征的方法不同?!薄澳銢]法給他貼個標簽,究竟是深度學習的人、還是做工程的人。為了解決問題,他不限定用任何算法,不限定用任何學科,”“他是出了名的‘爭強好勝’,熬一個通宵后第二天還會和學生們在球場打車輪戰(zhàn)?!?/p>

不過一個最亮眼的評價是,相比于他做了什么,他沒做什么才更值得關(guān)注。

“從金出武雄自身來講,他沒有去做商人。我相信他也懂這個道理,因為商業(yè)上的成功不一定是技術(shù)最牛。但他培養(yǎng)的學生都愿意去業(yè)界闖一闖,有需要他的地方,他還是會來?!?/p>

本文作者吳彤長期關(guān)注人工智能、醫(yī)療領(lǐng)域,熱衷于系統(tǒng)完整地記錄故事。歡迎同道微信交流,icedagunian

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

金出武雄和他的中國學生們,計算機視覺五十載風云

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說