丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
智能駕駛 正文
發(fā)私信給郭瑞嬋
發(fā)送

0

理想VLM有不少驚喜,但還不是端到端的終局

本文作者: 郭瑞嬋 2024-07-16 17:47
導語:“理想的端到端架構不乏先進性,首次將VLM部署到Orin-X芯片,那么VLM是加速端到端上車的妙招嗎?”

理想VLM有不少驚喜,但還不是端到端的終局

7月15日,理想汽車正式向AD Max用戶全量推送無圖NOA,成為繼華為系之后第二家完成全量推送的車企。這次推送將覆蓋理想的5個車型、超過24萬用戶。

無圖NOA有了著落,給理想以及理想的用戶乃至投資者吃下了一顆定心丸。

在此前的智能駕駛發(fā)布會上,理想發(fā)布了正在研發(fā)中的端到端+VLM(視覺語言模型)+世界模型的第三代技術架構。

相比現(xiàn)有的端到端技術路線,理想的亮點在于提出了“雙系統(tǒng)”的理念,首次將VLM部署到Orin-X芯片,并選擇了更為激進的目標,即One Model端到端。

去年下半年,理想開始在團隊內部孵化并啟動預研端到端+VLM技術架構。理想智能駕駛副總裁朗咸朋表示,目前該技術架構已經(jīng)完成模型的原型驗證和實車部署,“實際上車效果超過了我們的預期。”

不久前,CEO李想在重慶論壇上透露,理想的端到端+VLM技術架構最早會在今年年底,最晚明年年初推出。這是個頗為激進的提法。

發(fā)布會之后,雷峰網(wǎng)《新智駕》與一些智駕圈的從業(yè)者進行了交流,從他們的角度對理想的端到端+VLM技術架構進行評價。

One Model有可能明年初就上車?

自動駕駛端到端的熱潮由特斯拉掀起,F(xiàn)SD V12所表現(xiàn)的超高能力上限,讓國內的自動駕駛玩家看到了確定性,形成了新一輪的競爭中心。

在智駕自研上布局較晚的理想,也大力投入端到端。在無圖NOA的基礎上,理想正在部署第三代架構——基于One Model端到端模型、VLM和世界模型的全新自動駕駛技術架構。

理想的第三代架構參考了丹尼爾·卡尼曼的《思考,快與慢》,也分成了系統(tǒng)1和系統(tǒng)2來模擬人類的駕駛行為,兩個一快一慢的系統(tǒng)各占用一塊英偉達Orin-X芯片。

系統(tǒng)1,即快系統(tǒng),由One Model端到端大模型構成——感知與規(guī)劃共同整合成一個大模型,輸入傳感器的信息后,直接就輸出行駛軌跡,完全由數(shù)據(jù)驅動,能夠應付95%的駕駛場景。

理想VLM有不少驚喜,但還不是端到端的終局

從目前業(yè)內披露的信息來看,理想系統(tǒng)1的One Model端到端架構相當激進。

以華為與小鵬為例,這兩家的端到端架構還主要劃分為兩大塊,分別是感知大模型與規(guī)控大模型,還不是理想宣稱的“一步到位”。

由于各家對于“端到端”的理解與定義不盡相同,不同玩家展出的“端到端”模型都有所區(qū)別。

根據(jù)辰韜資本發(fā)布的《端到端自動駕駛行業(yè)研究報告》,端到端的核心定義是感知信息無損耗傳遞,可以實現(xiàn)自動駕駛系統(tǒng)的全局優(yōu)化。

從傳統(tǒng)自動駕駛模型向端到端演進,將經(jīng)歷四個階段:感知“端到端”、決策規(guī)劃模型化、模塊化端到端、 以及One Model端到端。

目前,業(yè)內大多數(shù)玩家通過“BEV+transformer”架構已經(jīng)完成了感知“端到端”,正在努力實現(xiàn)決策規(guī)劃模型化。

在決策規(guī)劃模型化階段,基于感知“端到端”,從預測到?jīng)Q策到規(guī)劃的功能模塊被集成到同一個神經(jīng)網(wǎng)絡當中,用深度學習取代了Rule-based,能夠提升決策規(guī)劃應對復雜場景的上限。

但在這個階段,從感知到?jīng)Q策規(guī)劃的接口信息還需要人為定義,感知信息仍有損耗,且兩大模型是獨立訓練而成,還不是真正意義上的“端到端”。

直到進入第三個階段,即模塊化端到端,才能稱作“端到端”。在這個階段,雖然還分為感知與規(guī)控兩大部分,但感知與規(guī)控之間的接口已經(jīng)不再基于人為定義,保證了信息的完整性。

此外,兩個模塊之間通過梯度傳導的方式進行整體的訓練,能實現(xiàn)全局優(yōu)化的效果。

《報告》認為,目前已經(jīng)或者接近量產(chǎn)的方案還停留在決策規(guī)劃模型化階段,距離模塊化端到端或One Model端到端自動駕駛量產(chǎn)落地還有距離,預計模塊化端到端將于2025年開始上車。

盡管各家的口號都喊得響亮,但實際上要走向第二個階段都不容易。

某智駕公司創(chuàng)始人何揚告訴《雷峰網(wǎng)》新智駕,規(guī)控純“端到端”(即決策規(guī)劃模型化)不現(xiàn)實,如果發(fā)生了錯誤,難以確保要采多少數(shù)據(jù)才能把這個錯誤給修正回來,研發(fā)迭代和OTA量產(chǎn)都沒有保證,因此必須要用規(guī)則來為規(guī)控“端到端”兜底。

蔚來智能駕駛研發(fā)副總裁任少卿也曾在《深網(wǎng)》的采訪中表態(tài),到今天來說,業(yè)內已經(jīng)完成規(guī)控模型化的玩家都寥寥無幾。

任少卿認為,做端到端大模型的前提是智駕各功能模塊都已經(jīng)完成模型化,并且具有足夠性能與效率的工程體系支撐,沒辦法模型化,是因為工程體系還支撐不了這件事,比如需要有快速訓練一個模型并快速驗證的能力。

“你得有一些基本的能力之后,(端到端大模型)這玩意才有用,否則它是個毒藥?!?/p>

因此,蔚來采取的是漸進式端到端路線,逐一完成模塊的“端到端”。7月11日,蔚來發(fā)布了“端到端”AEB,宣稱“端到端”的應用使得AEB的場景覆蓋率提升5倍,同時誤報率幾乎沒有增加。

據(jù)理想官方介紹,理想現(xiàn)在的無圖NOA已經(jīng)把感知和規(guī)劃各自整合成一個模型,也就是說,理想現(xiàn)階段已經(jīng)完成了決策規(guī)劃的模型化。

而理想最晚要在明年年初實現(xiàn)最后的One Model端到端,這個目標已經(jīng)超越了業(yè)內的整體進度。

算法、算力與數(shù)據(jù),是自動駕駛的三大基礎。而自動駕駛端到端的數(shù)據(jù)驅動特質,對算力、數(shù)據(jù)等基建提出了更高的要求。與特斯拉為“端到端”在算力、數(shù)據(jù)方面投入的資源相比,國內目前仍有較大差距。

算力層面,根據(jù)“汽車之心”統(tǒng)計,特斯拉的DOJO智算中心,預計到2024年10月,總算力將達到10萬PFLOPS,相當于約30萬塊英偉達A100的算力總和。目前,理想的算力儲備為2400PFLOPS,這個數(shù)值在國內已屬于頭部。

數(shù)據(jù)層面的差距也十分凸顯。何揚向雷峰網(wǎng)《新智駕》提到,特斯拉每天在線跑的車的數(shù)量有200萬輛,國內難以望其項背。

某智駕公司高管也曾向雷峰網(wǎng)《新智駕》表示,特斯拉從早年做L2的功能,到高速領航,開始推出Learning-based的規(guī)控,并以之為基礎做端到端,正好是在它的保有量大概達到百萬輛的時候。

“只有當你有這么大規(guī)模的數(shù)據(jù)量以后,才能用相應的方法,當你沒那么多量的時候,方法根本用不起來。”

位居新勢力榜單榜首的理想,在這方面與國內同行相比具有不小優(yōu)勢。

截至今年6月,理想的車輛保有量已經(jīng)超過80萬臺。在可觀的保有量里,理想篩選出了只占3%的達到專車司機標準的用戶,把這些用戶的數(shù)據(jù)輸入到模型中,目前端到端模型已經(jīng)學習了超過100萬公里的數(shù)據(jù),到年底可能超過500萬公里。

算力與數(shù)據(jù)均無法媲美特斯拉,國內的端到端玩家選擇開辟與特斯拉不完全相同的路線。

VLM是加速端到端上車的妙招嗎?

理想的技術路線,是在One Model端到端之外,再加一個基于VLM的系統(tǒng)2提供輔助,配合系統(tǒng)1處理余下的5%的特殊場景。

VLM是LLM(即大語言模型)的進階版,除了處理文本,VLM還能處理視覺輸入,認識所在的場景,此前在具身智能領域已有較多探索。

理想是國內第一家公開將VLM這個概念引入自動駕駛的車企。但實際上,VLM在自動駕駛領域的應用可以追溯得更早。

今年5月獲得10.5億美元融資的英國科技公司W(wǎng)ayve,在23年9月年就發(fā)布了基于VLAM的LINGO系列的第一個模型,將自然語言引入了自動駕駛,讓自動駕駛系統(tǒng)解釋自己的決策邏輯,提高了模型的可解釋性。

“大語言模型收集語料,通過預訓練擁有了隱性的知識,包含了常識性的東西,具備一定的思考和退避能力。”

某車企智駕模塊負責人徐智告訴雷峰網(wǎng)(公眾號:雷峰網(wǎng))《新智駕》,VLM所具有的這些顯性優(yōu)勢,理論上能幫助解決長尾問題,這也是為什么業(yè)內要嘗試把大語言模型引入自動駕駛,甚至提出要用大語言模型替代傳統(tǒng)的規(guī)控算法。

今年5月,小鵬聲稱已經(jīng)量產(chǎn)的端到端大模型實際上也運用了大語言模型。小鵬的端到端由感知神經(jīng)網(wǎng)絡XNet、規(guī)控大模型XPlanner、AI大語言模型XBrain三部分組成。其中,大語言模型XBrain能夠提供系統(tǒng)處理復雜甚至未知場景的泛化處理能力。

理想方面表示,基于VLM的系統(tǒng)2能夠提供復雜環(huán)境的理解能力、讀懂導航地圖的能力以及交通規(guī)則的理解能力。

比如當系統(tǒng)2識別到坑洼不平的路面,或者光線較差的道路環(huán)境,會對駕駛員和系統(tǒng)一發(fā)出提醒,并適當減速。

系統(tǒng)2還能理解潮汐車道、公交車道等交通運行規(guī)則,知道在什么時間開哪條車道,對系統(tǒng)一作指導和建議。通過讀取導航信息,系統(tǒng)二還能判定系統(tǒng)一是否有走錯路,并實時規(guī)劃新的路徑。

朗咸朋表示,“系統(tǒng)2的角色相當于我們的副駕永遠坐了一個駕校的教練,這個教練也會時時刻刻監(jiān)督你的行為,當你開錯道或者需要幫助的時候,它會主動提供一些建議,讓你更好地開這個車?!?/p>

不過,從“紙上談兵”邁入量產(chǎn),現(xiàn)實非?!肮歉小?。車端算力有限,VLM這類動輒10億參數(shù)量以上的大模型難以在端側部署,是落地最顯性的難題。

理想是第一家將VLM部署到Orin-X芯片的企業(yè)。理想的VLM參數(shù)量達到22億,為了把這樣一個大模型部署在車端芯片,理想做了許多嘗試并與英偉達共同合作,最終將推理性能從4秒降到了0.3秒。

理想VLM有不少驚喜,但還不是端到端的終局

不止一位自動駕駛業(yè)者認為,理想對于VLM模型在車端芯片上運行的時延問題,優(yōu)化得比想象中要更好。

“學術界一直有對VLM進行探索,在工程化上,理想能夠把時延從4秒壓縮到0.3秒挺令人震驚,這意味著VLM已經(jīng)開始具備實用性了?!毙熘潜硎尽?/p>

但0.3秒的時延,也表示理想的VLM只能扮演一個非實時的監(jiān)督者,提供輔助。如要承擔系統(tǒng)1這樣的主線任務,時延要達到30~50毫秒級別才算合格。

視覺算法工程師梅樂表示,理想的系統(tǒng)2由于時延的問題實際上無法處理突然發(fā)生的Corner Case,VLM的作用主要還是在規(guī)劃層面。

“實時的感知和規(guī)劃會丟掉更多的歷史信息,但是VLM跑得比較慢,可以把更長的歷史信息積累下來,可以給出更多關于場景的信息,幫助規(guī)劃收斂到一條更合適的路線。”

據(jù)介紹,理想的VLM采用流式視覺編碼器,相比于大部分的單幀VLM來說,可以緩存更長的視覺時序。同時,理想還設計了一個記憶模塊,用來緩存多幀歷史信息,更好地來執(zhí)行超長時序的推理問題,解決超長時序的推理時延。

理想VLM有不少驚喜,但還不是端到端的終局

理想基于VLM的系統(tǒng)2,相當于給系統(tǒng)1上了一個“外掛”。

梅樂認為,“端到端大模型上車,還有很長的路要走,如果優(yōu)化的效果沒有達到一定程度,車企是不敢貿然上車的,這時候有個外掛系統(tǒng),起碼讓車企的信心更足一點,能加速端到端更快上車,是挺好的嘗試?!?/p>

理想的雙系統(tǒng)技術架構,是否會在業(yè)內掀起一波跟風潮?

梅樂認為,“VLM能起到作用是無疑的,但是業(yè)界真正關注的是,VLM花掉的算力和所實現(xiàn)的功能之間的投入收益比,這也是各家要不要跟進的一個決定性因素?!?/p>

另一方面是,“特斯拉的路徑已經(jīng)證明了,好的司機是不需要教練的?!?/strong>

VLM的賦能,最終能為理想的端到端提供多大的幫助,在未正式量產(chǎn)前還難以判定。

徐智最近在研究VLM模型在機器人領域的應用。他表示,用VLM來控制機械臂,從目前的研究來看,即便是針對專門的簡單場景,如執(zhí)行把物品放在桌子上的指令,若經(jīng)過VLA、模仿學習的優(yōu)化后,機械臂執(zhí)行任務的成功率是80%,若沒有經(jīng)過優(yōu)化,成功率只有30%不到。

“這個概率對于自動駕駛來說是無法接受的,現(xiàn)階段就把VLM用起來其實難度挺大的。”

目前來看,端到端的技術路線尚未收斂,理想的雙系統(tǒng)架構是其中一項不乏創(chuàng)新性的探索。

過去,在蔚小理三家中,理想對自動駕駛的投入相對保守。去年理想開始大力擴招并追趕進度,今年一季度研發(fā)投入達30億元,同比增長64.6%,理想正在以更積極的姿態(tài)加入這場競爭中。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄