自動(dòng)駕駛將駛向何方？大模型（World Models）自動(dòng)駕駛綜述

倒序?yàn)g覽 · 發(fā)表于 2024-9-5 12:02:00

前言自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)是一個(gè)技術(shù)與哲學(xué)的雙重挑戰(zhàn)，核心在于模擬人類的直覺(jué)推理和常識(shí)。盡管機(jī)器學(xué)習(xí)在模式識(shí)別上取得了進(jìn)展，但在復(fù)雜情境下仍存在局限。人類決策基于感官感知，但能預(yù)見(jiàn)行動(dòng)結(jié)果和預(yù)判變化，這是機(jī)器難以復(fù)制的。
世界模型是解決這一差距的關(guān)鍵，它模仿人類的感知和決策，使系統(tǒng)能預(yù)測(cè)和適應(yīng)環(huán)境。這一概念從70年代的控制理論發(fā)展而來(lái)，與模型預(yù)測(cè)控制（MPC）緊密相關(guān)，并受到心理模型理論的支持。神經(jīng)網(wǎng)絡(luò)的發(fā)展，尤其是循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），為動(dòng)態(tài)系統(tǒng)建模提供了新深度，促進(jìn)了對(duì)環(huán)境交互的理解。
2018年，Ha和Schmidhuber提出世界模型，使用混合密度網(wǎng)絡(luò)和RNN提取環(huán)境數(shù)據(jù)模式，標(biāo)志著自動(dòng)系統(tǒng)對(duì)其操作環(huán)境理解的突破。在自動(dòng)駕駛領(lǐng)域，世界模型的引入是向數(shù)據(jù)驅(qū)動(dòng)智能的轉(zhuǎn)變，解決了數(shù)據(jù)稀缺問(wèn)題，增強(qiáng)了模擬環(huán)境中訓(xùn)練的能力，預(yù)示著自動(dòng)駕駛汽車(chē)將具備更復(fù)雜的預(yù)測(cè)和響應(yīng)能力。

在自動(dòng)駕駛領(lǐng)域，世界模型的引入標(biāo)志著向數(shù)據(jù)驅(qū)動(dòng)智能的關(guān)鍵轉(zhuǎn)變，在這種智能中，預(yù)測(cè)和模擬未來(lái)情景的能力成為安全和效率的基石。數(shù)據(jù)稀缺性問(wèn)題，特別是在如鳥(niǎo)瞰圖（BEV）標(biāo)注等專業(yè)任務(wù)中，突顯了世界模型等創(chuàng)新解決方案的實(shí)際必要性。通過(guò)從歷史數(shù)據(jù)中生成預(yù)測(cè)情景，這些模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)注帶來(lái)的限制，還增強(qiáng)了在模擬環(huán)境中訓(xùn)練自動(dòng)系統(tǒng)的能力，這些環(huán)境可以反映甚至超越現(xiàn)實(shí)世界條件的復(fù)雜性。這種方法預(yù)示著一個(gè)新時(shí)代的到來(lái)，在這個(gè)時(shí)代，自動(dòng)駕駛汽車(chē)具備反映某種直覺(jué)的預(yù)測(cè)能力，使它們能夠以前所未有的復(fù)雜程度導(dǎo)航和響應(yīng)其環(huán)境。
歡迎加入自動(dòng)駕駛實(shí)戰(zhàn)群

世界模型的發(fā)展世界模型的架構(gòu)是一個(gè)復(fù)雜的系統(tǒng)，它嘗試模仿人類大腦在認(rèn)知和決策方面的功能。
世界模型的架構(gòu)基礎(chǔ)：

感知模塊：作為系統(tǒng)的感官輸入，使用如變分自動(dòng)編碼器（VAE）、掩碼自動(dòng)編碼器（MAE）和離散自動(dòng)編碼器（DAE）等先進(jìn)技術(shù)，將復(fù)雜的環(huán)境輸入轉(zhuǎn)化為易于處理的格式。這個(gè)模塊對(duì)于準(zhǔn)確捕捉環(huán)境特征至關(guān)重要。
記憶模塊：類似于人類的海馬體，負(fù)責(zé)記錄和存儲(chǔ)信息，包括短期和長(zhǎng)期記憶。它通過(guò)重放經(jīng)歷來(lái)加強(qiáng)學(xué)習(xí)，并將過(guò)去的經(jīng)驗(yàn)應(yīng)用于未來(lái)的決策中，從而加深對(duì)環(huán)境動(dòng)態(tài)的理解。
控制/行動(dòng)模塊：負(fù)責(zé)與環(huán)境的互動(dòng)，評(píng)估當(dāng)前狀態(tài)和預(yù)測(cè)，以確定實(shí)現(xiàn)目標(biāo)的最佳行動(dòng)。這個(gè)模塊的獨(dú)立訓(xùn)練允許使用不同的策略，如進(jìn)化策略，來(lái)解決復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題。
世界模型模塊：作為系統(tǒng)的核心，負(fù)責(zé)估計(jì)當(dāng)前狀態(tài)的缺失信息和預(yù)測(cè)未來(lái)狀態(tài)。它通過(guò)模擬潛在的未來(lái)場(chǎng)景，使系統(tǒng)能夠主動(dòng)準(zhǔn)備和調(diào)整策略，體現(xiàn)了人類認(rèn)知中的預(yù)測(cè)和適應(yīng)性思維。

世界模型的應(yīng)用：

在處理高維感官輸入時(shí)，世界模型利用潛在動(dòng)態(tài)模型來(lái)抽象表示觀測(cè)信息，允許在潛在狀態(tài)空間內(nèi)進(jìn)行緊湊的前向預(yù)測(cè)。這種方法利用深度學(xué)習(xí)和潛在變量模型的進(jìn)步，實(shí)現(xiàn)高效的并行預(yù)測(cè)。
世界模型通過(guò)潛在變量來(lái)表示不確定性，這在處理真實(shí)世界動(dòng)態(tài)的不可預(yù)測(cè)性時(shí)尤為重要。例如，在汽車(chē)在交叉路口的不確定性場(chǎng)景中，潛在變量幫助模型設(shè)想基于當(dāng)前狀態(tài)的各種未來(lái)可能性。
世界模型需要在預(yù)測(cè)的確定性與真實(shí)世界現(xiàn)象的固有不確定性之間找到平衡。這種平衡對(duì)于模型在復(fù)雜環(huán)境中的有效性至關(guān)重要，確保了模型能夠靈活應(yīng)對(duì)各種情況。
這個(gè)任務(wù)的核心在于在預(yù)測(cè)的確定性方面與真實(shí)世界現(xiàn)象的固有不確定性之間實(shí)現(xiàn)平衡，這一平衡對(duì)世界模型的有效性至關(guān)重要。
為了解決這一挑戰(zhàn)，提出了各種策略，從通過(guò)溫度變量引入不確定性到采用結(jié)構(gòu)化框架，如遞歸狀態(tài)空間模型（RSSM）和聯(lián)合嵌入預(yù)測(cè)架構(gòu)（JEPA）。這些方法力求微調(diào)預(yù)測(cè)的精度和靈活性之間的平衡。此外，利用Top-k采樣以及從基于CNN的模型過(guò)渡到變壓器架構(gòu)（如變壓器狀態(tài)空間模型（TSSM）或空間時(shí)間Patchwise變壓器（S?TPT）），在更好地近似真實(shí)世界的復(fù)雜性和不確定性方面顯示出潛力。
特別是在世界模型研究中最常使用的核心結(jié)構(gòu)是RSSM和JEPA：
遞歸狀態(tài)空間模型（RSSM）：
作為Dreamer系列世界模型中的關(guān)鍵模型，旨在完全在潛在空間內(nèi)進(jìn)行前向預(yù)測(cè)。這一創(chuàng)新結(jié)構(gòu)使模型能夠通過(guò)潛在狀態(tài)空間進(jìn)行預(yù)測(cè)，其中轉(zhuǎn)移模型內(nèi)的隨機(jī)路徑和確定路徑在成功規(guī)劃中起到關(guān)鍵作用。
圖3展示了跨三個(gè)時(shí)間步的潛在動(dòng)態(tài)模型的示意圖。最初觀察兩個(gè)時(shí)間步，這些模型隨后預(yù)測(cè)第三個(gè)時(shí)間步。在這里，模型架構(gòu)內(nèi)的隨機(jī)變量（圓形）和確定變量（方形）相互作用——實(shí)線表示生成過(guò)程，虛線表示推理路徑。圖3a中的初始確定推理方法揭示了其因固定性質(zhì)而難以捕捉多樣化潛在未來(lái)的局限性。相反，圖3b中的完全隨機(jī)方法由于其固有的不確定性，在時(shí)間步之間的信息保留方面提出了挑戰(zhàn)。RSSM的創(chuàng)新在于其戰(zhàn)略性地將狀態(tài)分解為圖3c中的隨機(jī)和確定性組件，有效地利用確定元素的預(yù)測(cè)穩(wěn)定性和隨機(jī)元素的適應(yīng)潛力。這種混合結(jié)構(gòu)確保了強(qiáng)大的學(xué)習(xí)和預(yù)測(cè)能力，既能適應(yīng)現(xiàn)實(shí)世界動(dòng)態(tài)的不確定性，又能保持信息連續(xù)性。通過(guò)結(jié)合RNN的優(yōu)勢(shì)和狀態(tài)空間模型（SSM）的靈活性，RSSM為世界模型建立了一個(gè)全面的框架，增強(qiáng)了其在精度和適應(yīng)性之間的平衡。

聯(lián)合嵌入預(yù)測(cè)架構(gòu)（JEPA)：
在預(yù)測(cè)建模中標(biāo)志著范式轉(zhuǎn)變，專注于表示空間而非直接、詳細(xì)的預(yù)測(cè)。通過(guò)雙編碼器將輸入（x）和目標(biāo)（y）抽象為表示（sx和sy），并利用潛在變量（z）進(jìn)行預(yù)測(cè)，JEPA在效率和準(zhǔn)確性上實(shí)現(xiàn)了顯著飛躍。該模型在過(guò)濾噪音和無(wú)關(guān)信息方面表現(xiàn)出色，專注于預(yù)測(cè)任務(wù)的本質(zhì)。戰(zhàn)略性地使用潛在變量（z）管理不確定性，進(jìn)一步提高了模型的專注力，使其能夠以更高的精度預(yù)測(cè)抽象結(jié)果。通過(guò)優(yōu)先考慮相關(guān)特征并接受預(yù)測(cè)任務(wù)的內(nèi)在不確定性，JEPA不僅簡(jiǎn)化了預(yù)測(cè)過(guò)程，還確保了結(jié)果既相關(guān)又可靠，為復(fù)雜環(huán)境中的世界模型的下一步發(fā)展鋪平了道路。
這些策略共同增強(qiáng)了世界模型在高維和動(dòng)態(tài)場(chǎng)景中的適應(yīng)性和精度，使其能夠更好地反映真實(shí)世界的復(fù)雜性和不可預(yù)測(cè)性。這種多樣化的策略融合通過(guò)先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)和創(chuàng)新的潛在變量模型為世界模型提供了強(qiáng)大的基礎(chǔ)，提升了其在模擬和決策中的表現(xiàn)力。

世界模型在不同研究中的應(yīng)用自動(dòng)駕駛：
在自動(dòng)駕駛領(lǐng)域，世界模型通過(guò)模擬車(chē)輛在各種交通環(huán)境中的行為和互動(dòng)來(lái)增強(qiáng)決策和規(guī)劃能力。它們能夠預(yù)測(cè)其他車(chē)輛、行人和動(dòng)態(tài)環(huán)境變化，從而幫助自主系統(tǒng)做出更安全、更高效的駕駛決策。例如，在無(wú)人駕駛汽車(chē)項(xiàng)目中，世界模型可以預(yù)測(cè)交通流量、路況變化以及潛在的風(fēng)險(xiǎn)因素，使車(chē)輛能夠提前做出反應(yīng)，避免事故和優(yōu)化行駛路徑。
機(jī)器人控制：
在機(jī)器人控制中，世界模型通過(guò)模擬機(jī)器人在不同任務(wù)和環(huán)境中的行為，增強(qiáng)其自主性和適應(yīng)能力。通過(guò)感知和記憶模塊，機(jī)器人能夠?qū)W習(xí)和記住復(fù)雜的任務(wù)流程，并通過(guò)預(yù)測(cè)模塊預(yù)見(jiàn)潛在的任務(wù)挑戰(zhàn)，從而調(diào)整其行動(dòng)策略。例如，在倉(cāng)庫(kù)管理中，機(jī)器人可以通過(guò)世界模型優(yōu)化貨物搬運(yùn)路徑，提高工作效率和準(zhǔn)確性。
游戲AI：
在游戲AI開(kāi)發(fā)中，世界模型通過(guò)模擬復(fù)雜的游戲環(huán)境和角色行為，提升了游戲的智能和互動(dòng)性。通過(guò)感知和預(yù)測(cè)模塊，游戲AI能夠?qū)崟r(shí)分析玩家的行為和決策，并相應(yīng)調(diào)整游戲策略，提供更具挑戰(zhàn)性和沉浸感的游戲體驗(yàn)。例如，在策略游戲中，世界模型可以預(yù)測(cè)玩家的下一步行動(dòng)，并相應(yīng)調(diào)整游戲難度和資源配置，提升游戲的娛樂(lè)性和可玩性。
醫(yī)療診斷：
在醫(yī)療診斷領(lǐng)域，世界模型通過(guò)模擬患者的病情變化和治療效果，輔助醫(yī)生做出更準(zhǔn)確的診斷和治療決策。通過(guò)感知和記憶模塊，模型能夠記錄和分析大量患者數(shù)據(jù)，識(shí)別潛在的疾病模式和風(fēng)險(xiǎn)因素，并通過(guò)預(yù)測(cè)模塊預(yù)見(jiàn)疾病的發(fā)展趨勢(shì)，從而優(yōu)化治療方案。例如，在癌癥治療中，世界模型可以模擬不同治療方法的效果，幫助醫(yī)生選擇最有效的治療方案，提高患者的生存率和生活質(zhì)量。

世界模型的未來(lái)方向和挑戰(zhàn)盡管世界模型在多個(gè)領(lǐng)域表現(xiàn)出巨大的潛力，但其發(fā)展和應(yīng)用仍面臨一系列挑戰(zhàn)和未來(lái)方向：
數(shù)據(jù)的多樣性和質(zhì)量：
世界模型依賴大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。然而，獲取和處理這些數(shù)據(jù)往往需要耗費(fèi)大量時(shí)間和資源。未來(lái)的發(fā)展需要在數(shù)據(jù)收集、標(biāo)注和處理方面取得突破，確保模型能夠從多樣化和高質(zhì)量的數(shù)據(jù)中學(xué)習(xí)，提升其預(yù)測(cè)和決策能力。
模型的可解釋性：
世界模型的復(fù)雜性使其決策過(guò)程難以解釋和理解。這在某些應(yīng)用場(chǎng)景（如醫(yī)療診斷和自動(dòng)駕駛）中可能帶來(lái)潛在風(fēng)險(xiǎn)。未來(lái)的研究需要致力于提高模型的可解釋性，開(kāi)發(fā)透明和可理解的決策機(jī)制，使用戶能夠信任和理解模型的行為。
計(jì)算資源的需求：
訓(xùn)練和運(yùn)行世界模型需要大量的計(jì)算資源，特別是在處理高維數(shù)據(jù)和復(fù)雜場(chǎng)景時(shí)。未來(lái)的發(fā)展需要在硬件和算法方面取得進(jìn)展，優(yōu)化計(jì)算效率和資源利用，使世界模型能夠在有限的計(jì)算資源下高效運(yùn)行。
跨領(lǐng)域的應(yīng)用：
世界模型的潛力不僅限于當(dāng)前的應(yīng)用領(lǐng)域。未來(lái)的研究應(yīng)探索其在更多領(lǐng)域中的應(yīng)用，如教育、金融和環(huán)境保護(hù)等，發(fā)揮其在復(fù)雜決策和預(yù)測(cè)中的優(yōu)勢(shì)，為更多行業(yè)帶來(lái)創(chuàng)新和變革。
世界模型在自動(dòng)駕駛中的應(yīng)用作為世界模型應(yīng)用的新興前沿，自動(dòng)駕駛領(lǐng)域在場(chǎng)景生成和規(guī)劃與控制機(jī)制方面展現(xiàn)了獨(dú)特的挑戰(zhàn)和機(jī)遇，這些領(lǐng)域正是探索和創(chuàng)新的沃土。盡管興趣日益增加，世界模型在自動(dòng)駕駛中的整合主要集中在場(chǎng)景生成和規(guī)劃與控制機(jī)制。

A. 駕駛場(chǎng)景生成在自動(dòng)駕駛數(shù)據(jù)獲取方面面臨著重大挑戰(zhàn)，包括高昂的數(shù)據(jù)收集和標(biāo)注成本、法律限制以及安全考量。世界模型通過(guò)自監(jiān)督學(xué)習(xí)范式，提供了一種有前途的解決方案，可以從大量未標(biāo)記數(shù)據(jù)中提取有價(jià)值的見(jiàn)解，從而以成本效益提升模型性能。世界模型在駕駛場(chǎng)景生成中的應(yīng)用尤為值得注意，因?yàn)樗軌騽?chuàng)建多樣化和逼真的駕駛環(huán)境。這種能力顯著豐富了訓(xùn)練數(shù)據(jù)集，使自主系統(tǒng)具備在稀有和復(fù)雜駕駛場(chǎng)景中導(dǎo)航的穩(wěn)健性。
GAIA-1是一個(gè)新穎的自主生成AI模型，能夠使用視頻、文本和動(dòng)作輸入生成逼真的駕駛視頻。GAIA-1在英國(guó)城市的實(shí)際駕駛數(shù)據(jù)上進(jìn)行了廣泛訓(xùn)練，學(xué)習(xí)并理解了一些真實(shí)世界的規(guī)則和關(guān)鍵概念，包括不同類型的車(chē)輛、行人、建筑物和基礎(chǔ)設(shè)施。它可以基于幾秒鐘的視頻輸入預(yù)測(cè)和生成后續(xù)的駕駛場(chǎng)景。值得注意的是，生成的未來(lái)駕駛場(chǎng)景并不緊密依賴于提示視頻，而是基于GAIA-1對(duì)世界規(guī)則的理解。GAIA-1核心采用自回歸變壓器網(wǎng)絡(luò)，基于輸入圖像、文本和動(dòng)作令牌預(yù)測(cè)即將發(fā)生的圖像令牌，然后將這些預(yù)測(cè)解碼回像素空間。GAIA-1可以預(yù)測(cè)多個(gè)潛在的未來(lái)，并基于提示生成多樣的視頻或特定的駕駛場(chǎng)景（例如改變天氣、場(chǎng)景、交通參與者、車(chē)輛動(dòng)作），甚至包括其訓(xùn)練集中不存在的動(dòng)作和場(chǎng)景（例如強(qiáng)行進(jìn)入人行道）。這表明其能夠理解和推斷訓(xùn)練集中未出現(xiàn)的駕駛概念，也證明了其反事實(shí)推理能力。在現(xiàn)實(shí)世界中，這種駕駛行為由于其風(fēng)險(xiǎn)性難以獲取數(shù)據(jù)。駕駛場(chǎng)景生成允許模擬測(cè)試，豐富數(shù)據(jù)構(gòu)成，增強(qiáng)系統(tǒng)在復(fù)雜場(chǎng)景中的能力，并更好地評(píng)估現(xiàn)有的駕駛模型。此外，GAIA-1生成連貫的動(dòng)作，有效捕捉3D幾何結(jié)構(gòu)的透視影響，展示了其對(duì)上下文信息和物理規(guī)則的理解。結(jié)合其反事實(shí)推理能力，可以說(shuō)GAIA-1在自動(dòng)駕駛世界模型中達(dá)到了高水平，無(wú)論在抽象概念的理解還是因果推理方面。
DriveDreamer也專注于駕駛場(chǎng)景生成，不同于GAIA-1，它在nuScenes數(shù)據(jù)集上進(jìn)行了訓(xùn)練。其模型輸入包括更多元素，如高清地圖和3D框，允許更精確地控制駕駛場(chǎng)景生成和更深入的理解，從而提高視頻生成質(zhì)量。此外，DriveDreamer可以生成未來(lái)駕駛動(dòng)作及相應(yīng)的預(yù)測(cè)場(chǎng)景，幫助決策。
ADriver-I使用當(dāng)前的視頻幀和歷史的視覺(jué)-動(dòng)作對(duì)作為多模態(tài)大型語(yǔ)言模型（MLLM和視頻潛在擴(kuò)散模型（VDM）的輸入。MLLM以自回歸方式輸出控制信號(hào)，作為VDM預(yù)測(cè)后續(xù)視頻輸出的提示。通過(guò)連續(xù)的預(yù)測(cè)周期，ADriver-I在預(yù)測(cè)世界中實(shí)現(xiàn)了無(wú)限駕駛。在ADriver-I中，世界模型與MLLM的結(jié)合顯著提高了預(yù)測(cè)和決策的可解釋性，也表明了將世界模型作為基礎(chǔ)模型與其他模型結(jié)合的可行性。
借鑒大型語(yǔ)言模型的成功，WorldDreamer將世界建模視為無(wú)監(jiān)督的視覺(jué)序列建模挑戰(zhàn)。它利用STPT集中注意力于時(shí)空窗口內(nèi)的局部補(bǔ)丁。這種聚焦促進(jìn)了視覺(jué)信號(hào)的動(dòng)態(tài)學(xué)習(xí)，加速了訓(xùn)練過(guò)程的收斂。盡管WorldDreamer是通用的視頻生成模型，但它在生成自動(dòng)駕駛視頻方面表現(xiàn)出色。除了視覺(jué)信息，駕駛場(chǎng)景還包括大量重要的物理數(shù)據(jù)。MUVO利用世界模型框架進(jìn)行駕駛場(chǎng)景的預(yù)測(cè)和生成，結(jié)合了激光雷達(dá)點(diǎn)云和視覺(jué)輸入來(lái)預(yù)測(cè)視頻、點(diǎn)云和未來(lái)駕駛場(chǎng)景的3D占用網(wǎng)格。這種綜合方法顯著提高了預(yù)測(cè)和生成結(jié)果的質(zhì)量。尤其是3D占用網(wǎng)格的結(jié)果可以直接應(yīng)用于下游任務(wù)。更進(jìn)一步，OccWorld和Think2Drive直接利用3D占用信息作為系統(tǒng)輸入來(lái)預(yù)測(cè)周?chē)h(huán)境的演變并規(guī)劃自動(dòng)駕駛車(chē)輛的動(dòng)作。顯然，隨著研究的進(jìn)展，自動(dòng)駕駛領(lǐng)域的場(chǎng)景生成世界模型研究逐漸朝著多模態(tài)方法發(fā)展。世界模型在處理多模態(tài)信息方面展示了多功能性。
B. 規(guī)劃與控制除了場(chǎng)景生成，世界模型在駕駛情境中的學(xué)習(xí)、潛在未來(lái)的評(píng)估以及規(guī)劃與控制策略的改進(jìn)中也起著關(guān)鍵作用。例如，基于模型的模仿學(xué)習(xí)（MILE）采用基于模型的模仿學(xué)習(xí)方法，從離線數(shù)據(jù)集中聯(lián)合學(xué)習(xí)動(dòng)態(tài)模型和駕駛行為。MILE使用“廣義推理算法”進(jìn)行理性和可視化的未來(lái)駕駛環(huán)境的想象和預(yù)測(cè)，通過(guò)想象來(lái)彌補(bǔ)感知信息的缺失。這種能力使得未來(lái)行動(dòng)的規(guī)劃成為可能，允許自動(dòng)駕駛車(chē)輛在沒(méi)有高清地圖的情況下操作。在CARLA模擬器中的不熟悉測(cè)試場(chǎng)景中，MILE顯著超越了最先進(jìn)的模型，將駕駛評(píng)分從46提高到61（相比專家數(shù)據(jù)評(píng)分為88）。MILE的特點(diǎn)是長(zhǎng)期的時(shí)間跨度和高度多樣化的未來(lái)預(yù)測(cè)。通過(guò)對(duì)預(yù)測(cè)的未來(lái)狀態(tài)進(jìn)行解碼，MILE在各種場(chǎng)景中展示了穩(wěn)定的駕駛能力。
SEM2在RSSM的基礎(chǔ)上，介紹了語(yǔ)義掩碼世界模型，以提高端到端自動(dòng)駕駛的采樣效率和魯棒性。作者認(rèn)為，世界模型的潛在狀態(tài)包含過(guò)多與任務(wù)無(wú)關(guān)的信息，影響了采樣效率和系統(tǒng)的魯棒性。此外，由于訓(xùn)練數(shù)據(jù)的不平衡，世界模型難以處理意外情況。為解決這些問(wèn)題，引入了一個(gè)簽名過(guò)濾器來(lái)提取關(guān)鍵任務(wù)特征，使用過(guò)濾后的特征重建語(yǔ)義掩碼。對(duì)于數(shù)據(jù)不平衡，使用采樣器平衡數(shù)據(jù)分布。在每批訓(xùn)練中，均勻地添加來(lái)自各種場(chǎng)景的樣本，以實(shí)現(xiàn)訓(xùn)練樣本的均勻和平衡分布，有利于泛化和解決極端情況。在CARLA中訓(xùn)練和測(cè)試后，SEM2的性能相比DreamerV2顯著提升。
考慮到大多數(shù)自動(dòng)駕駛車(chē)輛通常有多個(gè)攝像頭，多視角建模也是世界模型的關(guān)鍵方面。Drive-WM是第一個(gè)設(shè)計(jì)用于增強(qiáng)端到端自動(dòng)駕駛規(guī)劃安全性的多視角世界模型。Drive-WM通過(guò)多視角和時(shí)間建模，共同生成多個(gè)視角的幀，然后從相鄰視角預(yù)測(cè)中間視角，顯著提高了多個(gè)視角之間的一致性。此外，Drive-WM引入了一個(gè)簡(jiǎn)單統(tǒng)一的條件接口，靈活應(yīng)用圖像、動(dòng)作、文本和其他條件，簡(jiǎn)化了條件生成過(guò)程。在六個(gè)視角的nuScenes數(shù)據(jù)集上訓(xùn)練和驗(yàn)證，Drive-WM通過(guò)采樣預(yù)測(cè)的候選軌跡并使用基于圖像的獎(jiǎng)勵(lì)函數(shù)選擇最佳軌跡。此外，與GAIA-1一致，Drive-WM在非可行駛區(qū)域的導(dǎo)航能力展示了世界模型在處理域外情況方面的理解和潛力。此外，借鑒Alberto Elfes的開(kāi)創(chuàng)性工作，UniWorld引入了一種創(chuàng)新方法，通過(guò)使用多幀點(diǎn)云融合作為生成4D占用標(biāo)簽的真值。該方法考慮了來(lái)自多攝像機(jī)系統(tǒng)的圖像中的時(shí)空相關(guān)性。通過(guò)利用未標(biāo)記的圖像-激光雷達(dá)對(duì)，UniWorld進(jìn)行了世界模型的預(yù)訓(xùn)練，顯著增強(qiáng)了對(duì)環(huán)境動(dòng)態(tài)的理解。在nuScenes數(shù)據(jù)集上測(cè)試時(shí)，UniWorld在運(yùn)動(dòng)預(yù)測(cè)和語(yǔ)義場(chǎng)景完成等任務(wù)的IoU方面相比單目預(yù)訓(xùn)練方法表現(xiàn)出顯著改進(jìn)。
TrafficBots也是一個(gè)端到端的自動(dòng)駕駛模型，更強(qiáng)調(diào)場(chǎng)景中個(gè)體代理的動(dòng)作預(yù)測(cè)。以每個(gè)代理的目標(biāo)地作為條件，TrafficBots采用條件變分自編碼器（CVAE）學(xué)習(xí)每個(gè)代理的獨(dú)特個(gè)性，從而促進(jìn)動(dòng)作預(yù)測(cè)從鳥(niǎo)瞰圖（BEV）的角度進(jìn)行。相比替代方法，TrafficBots具有更快的操作速度，并且可以擴(kuò)展以容納更多代理。盡管其性能可能尚未達(dá)到最先進(jìn)的開(kāi)放循環(huán)策略，但TrafficBots展示了閉環(huán)
測(cè)試中的顯著潛力，特別是在駕駛場(chǎng)景復(fù)雜且包括其他智能體時(shí)。
結(jié)合這些應(yīng)用案例，可以看出，世界模型在自動(dòng)駕駛領(lǐng)域正處于快速發(fā)展階段。通過(guò)整合多模態(tài)信息和增強(qiáng)模型的泛化能力，世界模型在豐富自動(dòng)駕駛系統(tǒng)的訓(xùn)練數(shù)據(jù)、改進(jìn)決策和規(guī)劃、提高系統(tǒng)魯棒性等方面展現(xiàn)出廣闊的應(yīng)用前景。然而，仍有許多挑戰(zhàn)需要克服，包括處理復(fù)雜場(chǎng)景中的意外情況、多智能體的協(xié)調(diào)等。未來(lái)的研究和應(yīng)用將進(jìn)一步推動(dòng)世界模型在自動(dòng)駕駛領(lǐng)域的發(fā)展。

挑戰(zhàn)與未來(lái)展望A. 技術(shù)與計(jì)算挑戰(zhàn)1. 從模擬到現(xiàn)實(shí)世界的泛化：
模擬訓(xùn)練環(huán)境與現(xiàn)實(shí)世界條件的多樣性之間的差異，構(gòu)成了自動(dòng)駕駛技術(shù)發(fā)展的關(guān)鍵瓶頸。盡管當(dāng)前的模擬平臺(tái)已經(jīng)相當(dāng)先進(jìn)，但它們?nèi)詿o(wú)法完美再現(xiàn)現(xiàn)實(shí)世界場(chǎng)景的不可預(yù)測(cè)性和變異性。
2. 長(zhǎng)期可擴(kuò)展記憶集成：
在賦予世界模型以長(zhǎng)期、可擴(kuò)展記憶以反映人類認(rèn)知過(guò)程的復(fù)雜性方面，依然存在巨大的挑戰(zhàn)。當(dāng)前的模型面臨諸如梯度消失和災(zāi)難性遺忘等問(wèn)題，這嚴(yán)重限制了它們的長(zhǎng)期記憶能力。
3. 理論與硬件的突破：
世界模型在生成任務(wù)中表現(xiàn)出色，但在純粹的預(yù)測(cè)任務(wù)（如運(yùn)動(dòng)預(yù)測(cè)）方面仍顯不足。這部分是因?yàn)檫@些模型尚未完美地模擬現(xiàn)實(shí)世界的演變，包括確定性與隨機(jī)性之間的平衡。
B. 倫理與安全挑戰(zhàn)1. 決策責(zé)任：
確保車(chē)輛自主決策框架中的責(zé)任成為首要的倫理問(wèn)題，迫切需要開(kāi)發(fā)具有前所未有透明度的系統(tǒng)。
2. 隱私與數(shù)據(jù)完整性：
自動(dòng)駕駛技術(shù)依賴大量數(shù)據(jù)進(jìn)行操作和持續(xù)改進(jìn)，這帶來(lái)了重大的隱私和數(shù)據(jù)安全問(wèn)題。對(duì)于開(kāi)發(fā)自動(dòng)駕駛系統(tǒng)的公司而言，收集到的車(chē)輛相關(guān)數(shù)據(jù)，包括乘客信息等，都需要得到妥善保護(hù)。
3. 責(zé)任和標(biāo)準(zhǔn)：
隨著世界模型在自動(dòng)駕駛系統(tǒng)中支持或接管駕駛?cè)蝿?wù)，人類的責(zé)任不是減少或消除，而是重新分配給參與創(chuàng)建、部署和使用這些系統(tǒng)的個(gè)人和組織。這種轉(zhuǎn)變要求參與者提出新的需求，呼吁新的研究和政策來(lái)管理這一轉(zhuǎn)變。
C. 未來(lái)展望1. 橋接人類直覺(jué)與AI精度：
一個(gè)突破性的前景是世界模型向促進(jìn)自動(dòng)駕駛汽車(chē)內(nèi)認(rèn)知協(xié)同駕駛框架的發(fā)展。與傳統(tǒng)的完全依賴預(yù)定義算法和傳感器輸入進(jìn)行決策的自動(dòng)駕駛系統(tǒng)不同，認(rèn)知協(xié)同駕駛旨在融合人類直覺(jué)與AI的精確度。
2. 與城市生態(tài)系統(tǒng)的協(xié)調(diào)：
另一個(gè)愿景是世界模型在將自動(dòng)駕駛汽車(chē)轉(zhuǎn)變?yōu)樯鷳B(tài)工程代理方面的作用，通過(guò)適應(yīng)性、響應(yīng)性的行為來(lái)與城市生態(tài)系統(tǒng)和諧共處，促進(jìn)環(huán)境可持續(xù)性。
總結(jié)：世界模型在自動(dòng)駕駛技術(shù)中的應(yīng)用具有革命性的潛力，它們通過(guò)提高車(chē)輛的預(yù)測(cè)、模擬和決策能力，對(duì)推動(dòng)汽車(chē)自主性的提升至關(guān)重要。盡管目前已經(jīng)有了顯著的發(fā)展，但要實(shí)現(xiàn)這些模型在實(shí)際場(chǎng)景中的應(yīng)用，我們?nèi)匀幻媾R著一些挑戰(zhàn)，包括如何整合長(zhǎng)期記憶、將模型從模擬環(huán)境泛化到現(xiàn)實(shí)世界，以及如何處理與自動(dòng)駕駛相關(guān)的倫理問(wèn)題。解決這些問(wèn)題需要跨學(xué)科的合作，包括人工智能的最新研究、建立倫理框架和開(kāi)發(fā)創(chuàng)新的計(jì)算技術(shù)。
展望未來(lái)，隨著世界模型的不斷進(jìn)步，我們預(yù)期它們不僅會(huì)推動(dòng)自動(dòng)駕駛技術(shù)的發(fā)展，還將改變我們與自動(dòng)化系統(tǒng)的互動(dòng)方式。這進(jìn)一步強(qiáng)調(diào)了持續(xù)的跨領(lǐng)域研究和合作的重要性，以確保這些技術(shù)的安全、有效和道德發(fā)展。
引用CVPR2024文章：
World Models for Autonomous Driving:
An Initial Survey
最后別忘了，幫忙點(diǎn)“在看”。
您的點(diǎn)贊，在看，是我創(chuàng)作的動(dòng)力。

AiFighing是全網(wǎng)第一且唯一分享自動(dòng)駕駛實(shí)戰(zhàn)，以代碼、項(xiàng)目的形式講解自動(dòng)駕駛感知方向的關(guān)鍵技術(shù)，從算法訓(xùn)練到模型部署。