0
2024年伊始,特斯拉FSD V12正式開始推送。對于廣大國內(nèi)智駕企業(yè)來說,這或許意味著一次“暴擊”。
自特斯拉的FSD V12問世以來,有許多的業(yè)者和投資人對其贊譽有加。一位來自某國際金融機構(gòu)的工作人員甚至對雷峰網(wǎng)(公眾號:雷峰網(wǎng))《新智駕》表示,如若FSD能夠入華,對于國內(nèi)智駕企業(yè)而言,不是簡單的“掀起新一輪智能化浪潮”,而是對國內(nèi)高新技術企業(yè)投下了一枚大殺器,將造成后果難以估量的毀滅性打擊。
在他看來,特斯拉是以國別來開啟智駕的使用范圍,不像國內(nèi)是以城市或者里程數(shù)來“開城”。他表示,特斯拉FSD的開放范圍,如果換算成實際的里程數(shù)和覆蓋面積,各方面都是遠高于國內(nèi),但很多國內(nèi)同行對此還沒有引起足夠的重視。
就上述觀點,雷峰網(wǎng)《新智駕》與國內(nèi)某智駕公司的技術人員進行了交流。該工作人員表示,F(xiàn)SD的性能相當強悍,現(xiàn)階段國內(nèi)消費市場能與之PK的,只有“那家”通訊技術出身的大廠。
他認為,基于目前公開的資料來看,F(xiàn)SD V12強大的關鍵,在于使用了端到端技術。
更接近人類的駕駛方式
眾所周知,傳統(tǒng)自動駕駛方案通常采用模塊化的方法,分為感知、預測、規(guī)劃和控制等不同的子系統(tǒng)。每個子系統(tǒng)完成特定的任務,然后將結(jié)果傳遞給下一個模塊,最終形成駕駛操作方案。
而端到端自動駕駛方案則采用一種統(tǒng)一的架構(gòu),直接將傳感器輸入數(shù)據(jù)映射到駕駛控制信號上。這種方法不需要單獨的感知、預測和規(guī)劃模塊,而是通過一個單一的神經(jīng)網(wǎng)絡來處理所有的任務,其優(yōu)勢在于能夠進行聯(lián)合特征優(yōu)化,提高計算效率,并且有潛力通過擴展訓練資源來改進系統(tǒng)的性能。
簡而言之,傳統(tǒng)方案強調(diào)模塊間的明確分工和順序處理,端到端方案則側(cè)重于通過深度學習方法,實現(xiàn)直接從感知到控制的轉(zhuǎn)換。由于它模仿了人類如何直接從視覺輸入中做出駕駛決策這一過程,也被認為是更接近人類的駕駛方式。
一位高級感知算法工程師告訴新智駕,目前的端到端模型,從技術層面上大致有三種分類:
第一種是輕模塊化級聯(lián)方案,將原本利用規(guī)則和經(jīng)驗構(gòu)造的算法代碼用設計好的神經(jīng)網(wǎng)絡來代替,保證下游網(wǎng)絡結(jié)構(gòu)也能提取到原始信息。
第二種方案則是借助近期快速爆發(fā)的大語言模型,利用大語言模型出色的涌現(xiàn)能力和推理能力,將網(wǎng)絡級別的知識遷移到自動駕駛系統(tǒng)中,使其同時具備場景理解和解決實時駕駛問題的能力,例如商湯。
第三種,則較為激進,類似特斯拉這樣,利用海量傳感器和用戶行車數(shù)據(jù),忽略中間過程,直接監(jiān)督最終控制信號的真正的端到端大模型。
FSD V12的跑火,讓“端到端”成為智駕圈的熱詞。同時,也為國內(nèi)智駕行業(yè)染上了一絲悲觀情緒:
有業(yè)者向新智駕表示,國內(nèi)智駕行業(yè)的發(fā)展速度,相比全球最頂尖的技術,滯后了一年左右。他表示,很多國內(nèi)公司對于國外的頂尖技術亦步亦趨,原創(chuàng)性不足,因此有一定的滯后性,而這一特性在端到端技術出現(xiàn)時較為明顯。
對于端到端技術,國內(nèi)依舊有具備敏銳技術嗅覺的企業(yè),例如元戎啟行。
據(jù)新智駕了解,早在23年初,元戎啟行就和英偉達高層交流并展示了自己的端到端計劃。并且,元戎的端到端模型今年就會在消費市場落地。
在元戎啟行CEO周光看來,端到端能夠以一種很好的、AI Driven的方式,去打造更具智慧、可靠的智能駕駛汽車。只不過有AI背景的他,更早察覺到了這一點。
他說,傳統(tǒng)的模塊化模型是基于規(guī)則的,本質(zhì)上是由人通過不斷敲代碼制定規(guī)則的方式,讓智駕系統(tǒng)來駕駛,因此駕駛動作的“機械感"很強,但實際的道路狀況千變?nèi)f化,規(guī)則無法全部解決。
端到端模型則不一樣,它鍛煉的是系統(tǒng)的自主學習、變通的能力,對駕駛環(huán)境全場景的理解能力更強。
周光舉了兩個例子:
比如,搭載端到端模型的車會顧慮后車需求,在停車的狀態(tài)下,可以“看到”后車打轉(zhuǎn)向燈,主動禮讓后車右轉(zhuǎn),而傳統(tǒng)的模塊化模型沒有辦法這么”人性化”。
再比如,壓實線的規(guī)則在不同城市的執(zhí)行方式是不一樣的,有一些城市或一些路段非常嚴格,必須嚴格遵守。但有一些城市的路邊會有很多違停車輛,或者道路施工,所以車輛不得不壓點實線,借個道才能通過。如果單純基于規(guī)則,那車輛到底該不該壓實線?這很難回答。
遇到這樣的情形,端到端模型則更能體現(xiàn)優(yōu)勢:它的全場景理解能力更強,會根據(jù)當?shù)厝说鸟{駛風格以及實時路況來做決策。
而且在效率方面,模塊化模型也存在一定的劣勢。
周光表示,傳統(tǒng)模塊化模型的信息傳遞,需要經(jīng)過不同模塊,而模塊間存在gap,造成信息減損,帶來安全隱患。
出現(xiàn)問題時,模塊化模型也需要工程師手動處理case。一位熟練工程師一天只能處理10多個case,而技術水平略低的工程師,能夠處理的case則更少。這意味著數(shù)據(jù)越多,處理起來越棘手,效率也更低,只能不斷增添人手。
假如這種情況發(fā)生在某款已經(jīng)量產(chǎn)的車型上,那么后果會很嚴重。
與之相反,端到端模型則是數(shù)據(jù)越多越聰明。
依據(jù)OpenAI已經(jīng)驗證過的Scaling Law(比例定律),在數(shù)據(jù)集規(guī)模以及計算資源不斷增長的情況下,模型的性能將會單調(diào)提升。因此只需要給滿足Scaling Law的端到端模型,“投喂”大量人類老司機的駕駛數(shù)據(jù),它就能學習到駕駛方法。
周光認為,之所以準確判斷出端到端技術的重要性,源于自己的Tech Vision。
他說,Tech Vision是AI公司的命脈,其核心是要對技術有準確的預判,以及具備終局思維。一家公司不應該耗費精力去做一些過分雕花的事情,卻沒能解決用戶真正的痛點。
憑借這種敏銳的技術嗅覺,早在2017年,周光就意識到了前融合的重要性,雖然當時很多企業(yè)還在做后融合,但周光堅持進行了前融合的技術規(guī)劃。如今看來,這一舉措讓元戎啟行在all in端到端時,避免了“大象轉(zhuǎn)身”般的窘迫。
但在真正打造端到端模型的時候,周光還是選擇了循序漸進的方式。他將這一過程,總結(jié)為“三步走”:
第一步,將后融合感知技術,變成了多傳感器前融合感知技術,把多個傳感器感知的數(shù)據(jù)放到一個神經(jīng)網(wǎng)絡里。
在物體檢測層面,元戎用 AI 的能力把全場景感知的能力建立起來,讓感知的準確率、魯棒性大大提升。
第二步,讓系統(tǒng)擺脫了對高精度地圖的依賴,讓模型可以進一步感知道路拓撲結(jié)構(gòu),讓預測和規(guī)劃由規(guī)則驅(qū)動變成了數(shù)據(jù)驅(qū)動。
第三步,是推出端到端模型,將感知、預測、規(guī)劃三個模型一體化。
周光稱,可以將這一模型理解為,原本三個獨立模塊,現(xiàn)在被直接相連,看到不同的路況都能做出相應的駕駛反應,“所見即所得”。
他表示,這其中跨出的每一步,都是一次重要的技術突破。由于堅持技術原創(chuàng),所以在研發(fā)時面臨很多不確定性,也被質(zhì)疑過。但他強調(diào),AI 2.0 的時代已然來臨,競爭只會更加激烈,走在行業(yè)前列的公司幾乎都會選擇閉源,這是必須認清的現(xiàn)實。
元戎啟行對技術的執(zhí)念,使其成為國內(nèi)最早能夠?qū)⒍说蕉四P蛻玫杰嚩说钠髽I(yè)。
此時,行業(yè)內(nèi)同樣有質(zhì)疑的聲音,認為國內(nèi)公司現(xiàn)階段談端到端上車還不太成熟,尤其是基礎建設和數(shù)據(jù)方面的儲備都不夠。
對此,周光表示,打造端到端模型的核心因素有三個:模型、算力和數(shù)據(jù)。
端到端模型,元戎已經(jīng)打造好了;算力方面,元戎和英偉達有深度技術合作,元戎的大股東阿里也會提供支持;數(shù)據(jù)層面,元戎和多家車企有了量產(chǎn)合作,客戶為元戎提供了很多真實的、脫敏后的行車數(shù)據(jù),而且涵蓋的場景很全面,足夠訓練模型,可謂是萬事俱備。
同時,各家主機廠對于端到端方案的上車,態(tài)度也非常積極。
周光稱,當下高速路段的智能駕駛,各家已經(jīng)做得比較成熟。相反,城區(qū)才是真正的戰(zhàn)場,可以說得城區(qū)者得“天下”。但城區(qū)的路況非常復雜,也存在很多長尾場景。
所以,周光認為城區(qū)的智能駕駛還沒有跨越早期市場與成熟市場的鴻溝,消費者對城區(qū)NOA沒有產(chǎn)生依賴。鑒于此,主機廠非常期望能找到一個厲害的技術伙伴,幫他們做好城區(qū)NOA體驗,而元戎提供的端到端模型正好符合他們的需求。
據(jù)周光介紹,目前主機廠對于端到端方案,有以下幾個關注點:
第一,系統(tǒng)是否能夠在復雜路段流暢行駛,保證舒適的體感。
第二,全場景的理解能力強不強,能否有一些類人的決策。譬如,會顧慮后車需求,在停車的狀態(tài)下,“看到”后車打轉(zhuǎn)向燈,主動禮讓后車右轉(zhuǎn)。
第三,安全層面的兜底策略是否可靠。
第四,后期OTA的天花板高不高,是否能新增一些讓人驚艷的功能。例如,雨天車輛在靠近人行道的車道行駛時,遇到積水會主動減速,避免把水濺到行人身上。
周光說,以上所述的幾點核心需求,元戎都能滿足。
然而,順利上車只是第一步。有多位行業(yè)人士向新智駕表示,更大的挑戰(zhàn)其實在于工程化。
周光也承認,工程化能力是一項很大的挑戰(zhàn),需要去遵循汽車工業(yè)的整套車規(guī)標準,精細地拆解、解讀標準,再把這些標準融合到整個研發(fā)流程中,實現(xiàn)工程化的轉(zhuǎn)變。
不過同時他也表示,元戎的研發(fā)同事都期望能夠推動產(chǎn)品更好更快地落地,促進形成技術閉環(huán),所以大家都有很大的決心去迅速補齊工程化能力,讓搭載元戎方案的量產(chǎn)車在今年順利落地。
對于很多科技企業(yè)而言,搭載了端到端模型的特斯拉,屬實是個實力強勁的對手。但換個角度來看,F(xiàn)SD雖然在美國和加拿大都已經(jīng)開通,可眾所周知,兩國的人口密度都相對較低,城市規(guī)劃也和許多國家或地區(qū)不同。如果換成中國的北上廣深、日本的東京、韓國的首爾這種人口更為密集,路況更為復雜的城市,F(xiàn)SD又會有怎樣的表現(xiàn)呢?鹿死誰手,或許猶未可知。
同時,端到端模型實際上也具備著相當強的技術復用能力,智能駕駛是重要的應用場景之一,但同時也是最能擊穿“次元壁”的應用場景,它就像阿基米德口中的那個支點,能夠撬動一個全新的世界,一如借助于手機這個“支點”而被撬動的物聯(lián)網(wǎng)世界。假以時日,通過智能駕駛而不斷完善的端到端模型,將會賦能于更多的場景。
比如,包括周光在內(nèi),許多人心心念念的人形機器人。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。