丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智能駕駛 正文
發(fā)私信給郭瑞嬋
發(fā)送

0

理想VLM有不少驚喜,但還不是端到端的終局

本文作者: 郭瑞嬋 2024-07-16 17:47
導(dǎo)語(yǔ):“理想的端到端架構(gòu)不乏先進(jìn)性,首次將VLM部署到Orin-X芯片,那么VLM是加速端到端上車的妙招嗎?”

理想VLM有不少驚喜,但還不是端到端的終局

7月15日,理想汽車正式向AD Max用戶全量推送無(wú)圖NOA,成為繼華為系之后第二家完成全量推送的車企。這次推送將覆蓋理想的5個(gè)車型、超過(guò)24萬(wàn)用戶。

無(wú)圖NOA有了著落,給理想以及理想的用戶乃至投資者吃下了一顆定心丸。

在此前的智能駕駛發(fā)布會(huì)上,理想發(fā)布了正在研發(fā)中的端到端+VLM(視覺(jué)語(yǔ)言模型)+世界模型的第三代技術(shù)架構(gòu)。

相比現(xiàn)有的端到端技術(shù)路線,理想的亮點(diǎn)在于提出了“雙系統(tǒng)”的理念,首次將VLM部署到Orin-X芯片,并選擇了更為激進(jìn)的目標(biāo),即One Model端到端。

去年下半年,理想開(kāi)始在團(tuán)隊(duì)內(nèi)部孵化并啟動(dòng)預(yù)研端到端+VLM技術(shù)架構(gòu)。理想智能駕駛副總裁朗咸朋表示,目前該技術(shù)架構(gòu)已經(jīng)完成模型的原型驗(yàn)證和實(shí)車部署,“實(shí)際上車效果超過(guò)了我們的預(yù)期。”

不久前,CEO李想在重慶論壇上透露,理想的端到端+VLM技術(shù)架構(gòu)最早會(huì)在今年年底,最晚明年年初推出。這是個(gè)頗為激進(jìn)的提法。

發(fā)布會(huì)之后,雷峰網(wǎng)《新智駕》與一些智駕圈的從業(yè)者進(jìn)行了交流,從他們的角度對(duì)理想的端到端+VLM技術(shù)架構(gòu)進(jìn)行評(píng)價(jià)。

One Model有可能明年初就上車?

自動(dòng)駕駛端到端的熱潮由特斯拉掀起,F(xiàn)SD V12所表現(xiàn)的超高能力上限,讓國(guó)內(nèi)的自動(dòng)駕駛玩家看到了確定性,形成了新一輪的競(jìng)爭(zhēng)中心。

在智駕自研上布局較晚的理想,也大力投入端到端。在無(wú)圖NOA的基礎(chǔ)上,理想正在部署第三代架構(gòu)——基于One Model端到端模型、VLM和世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu)。

理想的第三代架構(gòu)參考了丹尼爾·卡尼曼的《思考,快與慢》,也分成了系統(tǒng)1和系統(tǒng)2來(lái)模擬人類的駕駛行為,兩個(gè)一快一慢的系統(tǒng)各占用一塊英偉達(dá)Orin-X芯片。

系統(tǒng)1,即快系統(tǒng),由One Model端到端大模型構(gòu)成——感知與規(guī)劃共同整合成一個(gè)大模型,輸入傳感器的信息后,直接就輸出行駛軌跡,完全由數(shù)據(jù)驅(qū)動(dòng),能夠應(yīng)付95%的駕駛場(chǎng)景。

理想VLM有不少驚喜,但還不是端到端的終局

從目前業(yè)內(nèi)披露的信息來(lái)看,理想系統(tǒng)1的One Model端到端架構(gòu)相當(dāng)激進(jìn)。

以華為與小鵬為例,這兩家的端到端架構(gòu)還主要?jiǎng)澐譃閮纱髩K,分別是感知大模型與規(guī)控大模型,還不是理想宣稱的“一步到位”。

由于各家對(duì)于“端到端”的理解與定義不盡相同,不同玩家展出的“端到端”模型都有所區(qū)別。

根據(jù)辰韜資本發(fā)布的《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》,端到端的核心定義是感知信息無(wú)損耗傳遞,可以實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)的全局優(yōu)化。

從傳統(tǒng)自動(dòng)駕駛模型向端到端演進(jìn),將經(jīng)歷四個(gè)階段:感知“端到端”、決策規(guī)劃模型化、模塊化端到端、 以及One Model端到端。

目前,業(yè)內(nèi)大多數(shù)玩家通過(guò)“BEV+transformer”架構(gòu)已經(jīng)完成了感知“端到端”,正在努力實(shí)現(xiàn)決策規(guī)劃模型化。

在決策規(guī)劃模型化階段,基于感知“端到端”,從預(yù)測(cè)到?jīng)Q策到規(guī)劃的功能模塊被集成到同一個(gè)神經(jīng)網(wǎng)絡(luò)當(dāng)中,用深度學(xué)習(xí)取代了Rule-based,能夠提升決策規(guī)劃應(yīng)對(duì)復(fù)雜場(chǎng)景的上限。

但在這個(gè)階段,從感知到?jīng)Q策規(guī)劃的接口信息還需要人為定義,感知信息仍有損耗,且兩大模型是獨(dú)立訓(xùn)練而成,還不是真正意義上的“端到端”。

直到進(jìn)入第三個(gè)階段,即模塊化端到端,才能稱作“端到端”。在這個(gè)階段,雖然還分為感知與規(guī)控兩大部分,但感知與規(guī)控之間的接口已經(jīng)不再基于人為定義,保證了信息的完整性。

此外,兩個(gè)模塊之間通過(guò)梯度傳導(dǎo)的方式進(jìn)行整體的訓(xùn)練,能實(shí)現(xiàn)全局優(yōu)化的效果。

《報(bào)告》認(rèn)為,目前已經(jīng)或者接近量產(chǎn)的方案還停留在決策規(guī)劃模型化階段,距離模塊化端到端或One Model端到端自動(dòng)駕駛量產(chǎn)落地還有距離,預(yù)計(jì)模塊化端到端將于2025年開(kāi)始上車。

盡管各家的口號(hào)都喊得響亮,但實(shí)際上要走向第二個(gè)階段都不容易。

某智駕公司創(chuàng)始人何揚(yáng)告訴《雷峰網(wǎng)》新智駕,規(guī)控純“端到端”(即決策規(guī)劃模型化)不現(xiàn)實(shí),如果發(fā)生了錯(cuò)誤,難以確保要采多少數(shù)據(jù)才能把這個(gè)錯(cuò)誤給修正回來(lái),研發(fā)迭代和OTA量產(chǎn)都沒(méi)有保證,因此必須要用規(guī)則來(lái)為規(guī)控“端到端”兜底。

蔚來(lái)智能駕駛研發(fā)副總裁任少卿也曾在《深網(wǎng)》的采訪中表態(tài),到今天來(lái)說(shuō),業(yè)內(nèi)已經(jīng)完成規(guī)控模型化的玩家都寥寥無(wú)幾。

任少卿認(rèn)為,做端到端大模型的前提是智駕各功能模塊都已經(jīng)完成模型化,并且具有足夠性能與效率的工程體系支撐,沒(méi)辦法模型化,是因?yàn)楣こ腆w系還支撐不了這件事,比如需要有快速訓(xùn)練一個(gè)模型并快速驗(yàn)證的能力。

“你得有一些基本的能力之后,(端到端大模型)這玩意才有用,否則它是個(gè)毒藥?!?/p>

因此,蔚來(lái)采取的是漸進(jìn)式端到端路線,逐一完成模塊的“端到端”。7月11日,蔚來(lái)發(fā)布了“端到端”AEB,宣稱“端到端”的應(yīng)用使得AEB的場(chǎng)景覆蓋率提升5倍,同時(shí)誤報(bào)率幾乎沒(méi)有增加。

據(jù)理想官方介紹,理想現(xiàn)在的無(wú)圖NOA已經(jīng)把感知和規(guī)劃各自整合成一個(gè)模型,也就是說(shuō),理想現(xiàn)階段已經(jīng)完成了決策規(guī)劃的模型化。

而理想最晚要在明年年初實(shí)現(xiàn)最后的One Model端到端,這個(gè)目標(biāo)已經(jīng)超越了業(yè)內(nèi)的整體進(jìn)度。

算法、算力與數(shù)據(jù),是自動(dòng)駕駛的三大基礎(chǔ)。而自動(dòng)駕駛端到端的數(shù)據(jù)驅(qū)動(dòng)特質(zhì),對(duì)算力、數(shù)據(jù)等基建提出了更高的要求。與特斯拉為“端到端”在算力、數(shù)據(jù)方面投入的資源相比,國(guó)內(nèi)目前仍有較大差距。

算力層面,根據(jù)“汽車之心”統(tǒng)計(jì),特斯拉的DOJO智算中心,預(yù)計(jì)到2024年10月,總算力將達(dá)到10萬(wàn)PFLOPS,相當(dāng)于約30萬(wàn)塊英偉達(dá)A100的算力總和。目前,理想的算力儲(chǔ)備為2400PFLOPS,這個(gè)數(shù)值在國(guó)內(nèi)已屬于頭部。

數(shù)據(jù)層面的差距也十分凸顯。何揚(yáng)向雷峰網(wǎng)《新智駕》提到,特斯拉每天在線跑的車的數(shù)量有200萬(wàn)輛,國(guó)內(nèi)難以望其項(xiàng)背。

某智駕公司高管也曾向雷峰網(wǎng)《新智駕》表示,特斯拉從早年做L2的功能,到高速領(lǐng)航,開(kāi)始推出Learning-based的規(guī)控,并以之為基礎(chǔ)做端到端,正好是在它的保有量大概達(dá)到百萬(wàn)輛的時(shí)候。

“只有當(dāng)你有這么大規(guī)模的數(shù)據(jù)量以后,才能用相應(yīng)的方法,當(dāng)你沒(méi)那么多量的時(shí)候,方法根本用不起來(lái)。”

位居新勢(shì)力榜單榜首的理想,在這方面與國(guó)內(nèi)同行相比具有不小優(yōu)勢(shì)。

截至今年6月,理想的車輛保有量已經(jīng)超過(guò)80萬(wàn)臺(tái)。在可觀的保有量里,理想篩選出了只占3%的達(dá)到專車司機(jī)標(biāo)準(zhǔn)的用戶,把這些用戶的數(shù)據(jù)輸入到模型中,目前端到端模型已經(jīng)學(xué)習(xí)了超過(guò)100萬(wàn)公里的數(shù)據(jù),到年底可能超過(guò)500萬(wàn)公里。

算力與數(shù)據(jù)均無(wú)法媲美特斯拉,國(guó)內(nèi)的端到端玩家選擇開(kāi)辟與特斯拉不完全相同的路線。

VLM是加速端到端上車的妙招嗎?

理想的技術(shù)路線,是在One Model端到端之外,再加一個(gè)基于VLM的系統(tǒng)2提供輔助,配合系統(tǒng)1處理余下的5%的特殊場(chǎng)景。

VLM是LLM(即大語(yǔ)言模型)的進(jìn)階版,除了處理文本,VLM還能處理視覺(jué)輸入,認(rèn)識(shí)所在的場(chǎng)景,此前在具身智能領(lǐng)域已有較多探索。

理想是國(guó)內(nèi)第一家公開(kāi)將VLM這個(gè)概念引入自動(dòng)駕駛的車企。但實(shí)際上,VLM在自動(dòng)駕駛領(lǐng)域的應(yīng)用可以追溯得更早。

今年5月獲得10.5億美元融資的英國(guó)科技公司W(wǎng)ayve,在23年9月年就發(fā)布了基于VLAM的LINGO系列的第一個(gè)模型,將自然語(yǔ)言引入了自動(dòng)駕駛,讓自動(dòng)駕駛系統(tǒng)解釋自己的決策邏輯,提高了模型的可解釋性。

“大語(yǔ)言模型收集語(yǔ)料,通過(guò)預(yù)訓(xùn)練擁有了隱性的知識(shí),包含了常識(shí)性的東西,具備一定的思考和退避能力。”

某車企智駕模塊負(fù)責(zé)人徐智告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))《新智駕》,VLM所具有的這些顯性優(yōu)勢(shì),理論上能幫助解決長(zhǎng)尾問(wèn)題,這也是為什么業(yè)內(nèi)要嘗試把大語(yǔ)言模型引入自動(dòng)駕駛,甚至提出要用大語(yǔ)言模型替代傳統(tǒng)的規(guī)控算法。

今年5月,小鵬聲稱已經(jīng)量產(chǎn)的端到端大模型實(shí)際上也運(yùn)用了大語(yǔ)言模型。小鵬的端到端由感知神經(jīng)網(wǎng)絡(luò)XNet、規(guī)控大模型XPlanner、AI大語(yǔ)言模型XBrain三部分組成。其中,大語(yǔ)言模型XBrain能夠提供系統(tǒng)處理復(fù)雜甚至未知場(chǎng)景的泛化處理能力。

理想方面表示,基于VLM的系統(tǒng)2能夠提供復(fù)雜環(huán)境的理解能力、讀懂導(dǎo)航地圖的能力以及交通規(guī)則的理解能力。

比如當(dāng)系統(tǒng)2識(shí)別到坑洼不平的路面,或者光線較差的道路環(huán)境,會(huì)對(duì)駕駛員和系統(tǒng)一發(fā)出提醒,并適當(dāng)減速。

系統(tǒng)2還能理解潮汐車道、公交車道等交通運(yùn)行規(guī)則,知道在什么時(shí)間開(kāi)哪條車道,對(duì)系統(tǒng)一作指導(dǎo)和建議。通過(guò)讀取導(dǎo)航信息,系統(tǒng)二還能判定系統(tǒng)一是否有走錯(cuò)路,并實(shí)時(shí)規(guī)劃新的路徑。

朗咸朋表示,“系統(tǒng)2的角色相當(dāng)于我們的副駕永遠(yuǎn)坐了一個(gè)駕校的教練,這個(gè)教練也會(huì)時(shí)時(shí)刻刻監(jiān)督你的行為,當(dāng)你開(kāi)錯(cuò)道或者需要幫助的時(shí)候,它會(huì)主動(dòng)提供一些建議,讓你更好地開(kāi)這個(gè)車。”

不過(guò),從“紙上談兵”邁入量產(chǎn),現(xiàn)實(shí)非?!肮歉小?。車端算力有限,VLM這類動(dòng)輒10億參數(shù)量以上的大模型難以在端側(cè)部署,是落地最顯性的難題。

理想是第一家將VLM部署到Orin-X芯片的企業(yè)。理想的VLM參數(shù)量達(dá)到22億,為了把這樣一個(gè)大模型部署在車端芯片,理想做了許多嘗試并與英偉達(dá)共同合作,最終將推理性能從4秒降到了0.3秒。

理想VLM有不少驚喜,但還不是端到端的終局

不止一位自動(dòng)駕駛業(yè)者認(rèn)為,理想對(duì)于VLM模型在車端芯片上運(yùn)行的時(shí)延問(wèn)題,優(yōu)化得比想象中要更好。

“學(xué)術(shù)界一直有對(duì)VLM進(jìn)行探索,在工程化上,理想能夠把時(shí)延從4秒壓縮到0.3秒挺令人震驚,這意味著VLM已經(jīng)開(kāi)始具備實(shí)用性了?!毙熘潜硎?。

但0.3秒的時(shí)延,也表示理想的VLM只能扮演一個(gè)非實(shí)時(shí)的監(jiān)督者,提供輔助。如要承擔(dān)系統(tǒng)1這樣的主線任務(wù),時(shí)延要達(dá)到30~50毫秒級(jí)別才算合格。

視覺(jué)算法工程師梅樂(lè)表示,理想的系統(tǒng)2由于時(shí)延的問(wèn)題實(shí)際上無(wú)法處理突然發(fā)生的Corner Case,VLM的作用主要還是在規(guī)劃層面。

“實(shí)時(shí)的感知和規(guī)劃會(huì)丟掉更多的歷史信息,但是VLM跑得比較慢,可以把更長(zhǎng)的歷史信息積累下來(lái),可以給出更多關(guān)于場(chǎng)景的信息,幫助規(guī)劃收斂到一條更合適的路線?!?/p>

據(jù)介紹,理想的VLM采用流式視覺(jué)編碼器,相比于大部分的單幀VLM來(lái)說(shuō),可以緩存更長(zhǎng)的視覺(jué)時(shí)序。同時(shí),理想還設(shè)計(jì)了一個(gè)記憶模塊,用來(lái)緩存多幀歷史信息,更好地來(lái)執(zhí)行超長(zhǎng)時(shí)序的推理問(wèn)題,解決超長(zhǎng)時(shí)序的推理時(shí)延。

理想VLM有不少驚喜,但還不是端到端的終局

理想基于VLM的系統(tǒng)2,相當(dāng)于給系統(tǒng)1上了一個(gè)“外掛”。

梅樂(lè)認(rèn)為,“端到端大模型上車,還有很長(zhǎng)的路要走,如果優(yōu)化的效果沒(méi)有達(dá)到一定程度,車企是不敢貿(mào)然上車的,這時(shí)候有個(gè)外掛系統(tǒng),起碼讓車企的信心更足一點(diǎn),能加速端到端更快上車,是挺好的嘗試?!?/p>

理想的雙系統(tǒng)技術(shù)架構(gòu),是否會(huì)在業(yè)內(nèi)掀起一波跟風(fēng)潮?

梅樂(lè)認(rèn)為,“VLM能起到作用是無(wú)疑的,但是業(yè)界真正關(guān)注的是,VLM花掉的算力和所實(shí)現(xiàn)的功能之間的投入收益比,這也是各家要不要跟進(jìn)的一個(gè)決定性因素。”

另一方面是,“特斯拉的路徑已經(jīng)證明了,好的司機(jī)是不需要教練的。”

VLM的賦能,最終能為理想的端到端提供多大的幫助,在未正式量產(chǎn)前還難以判定。

徐智最近在研究VLM模型在機(jī)器人領(lǐng)域的應(yīng)用。他表示,用VLM來(lái)控制機(jī)械臂,從目前的研究來(lái)看,即便是針對(duì)專門的簡(jiǎn)單場(chǎng)景,如執(zhí)行把物品放在桌子上的指令,若經(jīng)過(guò)VLA、模仿學(xué)習(xí)的優(yōu)化后,機(jī)械臂執(zhí)行任務(wù)的成功率是80%,若沒(méi)有經(jīng)過(guò)優(yōu)化,成功率只有30%不到。

“這個(gè)概率對(duì)于自動(dòng)駕駛來(lái)說(shuō)是無(wú)法接受的,現(xiàn)階段就把VLM用起來(lái)其實(shí)難度挺大的?!?/p>

目前來(lái)看,端到端的技術(shù)路線尚未收斂,理想的雙系統(tǒng)架構(gòu)是其中一項(xiàng)不乏創(chuàng)新性的探索。

過(guò)去,在蔚小理三家中,理想對(duì)自動(dòng)駕駛的投入相對(duì)保守。去年理想開(kāi)始大力擴(kuò)招并追趕進(jìn)度,今年一季度研發(fā)投入達(dá)30億元,同比增長(zhǎng)64.6%,理想正在以更積極的姿態(tài)加入這場(chǎng)競(jìng)爭(zhēng)中。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)