電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 61|回復(fù): 0
收起左側(cè)

自動(dòng)駕駛將駛向何方?大模型(World Models)自動(dòng)駕駛綜述

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
樓主
匿名  發(fā)表于 2024-9-5 12:02:00 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
前言自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)是一個(gè)技術(shù)與哲學(xué)的雙重挑戰(zhàn),核心在于模擬人類的直覺(jué)推理和常識(shí)。盡管機(jī)器學(xué)習(xí)在模式識(shí)別上取得了進(jìn)展,但在復(fù)雜情境下仍存在局限。人類決策基于感官感知,但能預(yù)見(jiàn)行動(dòng)結(jié)果和預(yù)判變化,這是機(jī)器難以復(fù)制的。
世界模型是解決這一差距的關(guān)鍵,它模仿人類的感知和決策,使系統(tǒng)能預(yù)測(cè)和適應(yīng)環(huán)境。這一概念從70年代的控制理論發(fā)展而來(lái),與模型預(yù)測(cè)控制(MPC)緊密相關(guān),并受到心理模型理論的支持。神經(jīng)網(wǎng)絡(luò)的發(fā)展,尤其是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),為動(dòng)態(tài)系統(tǒng)建模提供了新深度,促進(jìn)了對(duì)環(huán)境交互的理解。
2018年,Ha和Schmidhuber提出世界模型,使用混合密度網(wǎng)絡(luò)和RNN提取環(huán)境數(shù)據(jù)模式,標(biāo)志著自動(dòng)系統(tǒng)對(duì)其操作環(huán)境理解的突破。在自動(dòng)駕駛領(lǐng)域,世界模型的引入是向數(shù)據(jù)驅(qū)動(dòng)智能的轉(zhuǎn)變,解決了數(shù)據(jù)稀缺問(wèn)題,增強(qiáng)了模擬環(huán)境中訓(xùn)練的能力,預(yù)示著自動(dòng)駕駛汽車(chē)將具備更復(fù)雜的預(yù)測(cè)和響應(yīng)能力。

在自動(dòng)駕駛領(lǐng)域,世界模型的引入標(biāo)志著向數(shù)據(jù)驅(qū)動(dòng)智能的關(guān)鍵轉(zhuǎn)變,在這種智能中,預(yù)測(cè)和模擬未來(lái)情景的能力成為安全和效率的基石。數(shù)據(jù)稀缺性問(wèn)題,特別是在如鳥(niǎo)瞰圖(BEV)標(biāo)注等專業(yè)任務(wù)中,突顯了世界模型等創(chuàng)新解決方案的實(shí)際必要性。通過(guò)從歷史數(shù)據(jù)中生成預(yù)測(cè)情景,這些模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)注帶來(lái)的限制,還增強(qiáng)了在模擬環(huán)境中訓(xùn)練自動(dòng)系統(tǒng)的能力,這些環(huán)境可以反映甚至超越現(xiàn)實(shí)世界條件的復(fù)雜性。這種方法預(yù)示著一個(gè)新時(shí)代的到來(lái),在這個(gè)時(shí)代,自動(dòng)駕駛汽車(chē)具備反映某種直覺(jué)的預(yù)測(cè)能力,使它們能夠以前所未有的復(fù)雜程度導(dǎo)航和響應(yīng)其環(huán)境。
歡迎加入自動(dòng)駕駛實(shí)戰(zhàn)群

世界模型的發(fā)展世界模型的架構(gòu)是一個(gè)復(fù)雜的系統(tǒng),它嘗試模仿人類大腦在認(rèn)知和決策方面的功能。
世界模型的架構(gòu)基礎(chǔ):
  • 感知模塊:作為系統(tǒng)的感官輸入,使用如變分自動(dòng)編碼器(VAE)、掩碼自動(dòng)編碼器(MAE)和離散自動(dòng)編碼器(DAE)等先進(jìn)技術(shù),將復(fù)雜的環(huán)境輸入轉(zhuǎn)化為易于處理的格式。這個(gè)模塊對(duì)于準(zhǔn)確捕捉環(huán)境特征至關(guān)重要。
    記憶模塊:類似于人類的海馬體,負(fù)責(zé)記錄和存儲(chǔ)信息,包括短期和長(zhǎng)期記憶。它通過(guò)重放經(jīng)歷來(lái)加強(qiáng)學(xué)習(xí),并將過(guò)去的經(jīng)驗(yàn)應(yīng)用于未來(lái)的決策中,從而加深對(duì)環(huán)境動(dòng)態(tài)的理解。
    控制/行動(dòng)模塊:負(fù)責(zé)與環(huán)境的互動(dòng),評(píng)估當(dāng)前狀態(tài)和預(yù)測(cè),以確定實(shí)現(xiàn)目標(biāo)的最佳行動(dòng)。這個(gè)模塊的獨(dú)立訓(xùn)練允許使用不同的策略,如進(jìn)化策略,來(lái)解決復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題。
    世界模型模塊:作為系統(tǒng)的核心,負(fù)責(zé)估計(jì)當(dāng)前狀態(tài)的缺失信息和預(yù)測(cè)未來(lái)狀態(tài)。它通過(guò)模擬潛在的未來(lái)場(chǎng)景,使系統(tǒng)能夠主動(dòng)準(zhǔn)備和調(diào)整策略,體現(xiàn)了人類認(rèn)知中的預(yù)測(cè)和適應(yīng)性思維。


    世界模型的應(yīng)用:
  • 在處理高維感官輸入時(shí),世界模型利用潛在動(dòng)態(tài)模型來(lái)抽象表示觀測(cè)信息,允許在潛在狀態(tài)空間內(nèi)進(jìn)行緊湊的前向預(yù)測(cè)。這種方法利用深度學(xué)習(xí)和潛在變量模型的進(jìn)步,實(shí)現(xiàn)高效的并行預(yù)測(cè)。
    世界模型通過(guò)潛在變量來(lái)表示不確定性,這在處理真實(shí)世界動(dòng)態(tài)的不可預(yù)測(cè)性時(shí)尤為重要。例如,在汽車(chē)在交叉路口的不確定性場(chǎng)景中,潛在變量幫助模型設(shè)想基于當(dāng)前狀態(tài)的各種未來(lái)可能性。
    世界模型需要在預(yù)測(cè)的確定性與真實(shí)世界現(xiàn)象的固有不確定性之間找到平衡。這種平衡對(duì)于模型在復(fù)雜環(huán)境中的有效性至關(guān)重要,確保了模型能夠靈活應(yīng)對(duì)各種情況。
    這個(gè)任務(wù)的核心在于在預(yù)測(cè)的確定性方面與真實(shí)世界現(xiàn)象的固有不確定性之間實(shí)現(xiàn)平衡,這一平衡對(duì)世界模型的有效性至關(guān)重要。
    為了解決這一挑戰(zhàn),提出了各種策略,從通過(guò)溫度變量引入不確定性到采用結(jié)構(gòu)化框架,如遞歸狀態(tài)空間模型(RSSM)和聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)。這些方法力求微調(diào)預(yù)測(cè)的精度和靈活性之間的平衡。此外,利用Top-k采樣以及從基于CNN的模型過(guò)渡到變壓器架構(gòu)(如變壓器狀態(tài)空間模型(TSSM)或空間時(shí)間Patchwise變壓器(S?TPT)),在更好地近似真實(shí)世界的復(fù)雜性和不確定性方面顯示出潛力。
    特別是在世界模型研究中最常使用的核心結(jié)構(gòu)是RSSM和JEPA:
    遞歸狀態(tài)空間模型(RSSM):
    作為Dreamer系列世界模型中的關(guān)鍵模型,旨在完全在潛在空間內(nèi)進(jìn)行前向預(yù)測(cè)。這一創(chuàng)新結(jié)構(gòu)使模型能夠通過(guò)潛在狀態(tài)空間進(jìn)行預(yù)測(cè),其中轉(zhuǎn)移模型內(nèi)的隨機(jī)路徑和確定路徑在成功規(guī)劃中起到關(guān)鍵作用。
    圖3展示了跨三個(gè)時(shí)間步的潛在動(dòng)態(tài)模型的示意圖。最初觀察兩個(gè)時(shí)間步,這些模型隨后預(yù)測(cè)第三個(gè)時(shí)間步。在這里,模型架構(gòu)內(nèi)的隨機(jī)變量(圓形)和確定變量(方形)相互作用——實(shí)線表示生成過(guò)程,虛線表示推理路徑。圖3a中的初始確定推理方法揭示了其因固定性質(zhì)而難以捕捉多樣化潛在未來(lái)的局限性。相反,圖3b中的完全隨機(jī)方法由于其固有的不確定性,在時(shí)間步之間的信息保留方面提出了挑戰(zhàn)。RSSM的創(chuàng)新在于其戰(zhàn)略性地將狀態(tài)分解為圖3c中的隨機(jī)和確定性組件,有效地利用確定元素的預(yù)測(cè)穩(wěn)定性和隨機(jī)元素的適應(yīng)潛力。這種混合結(jié)構(gòu)確保了強(qiáng)大的學(xué)習(xí)和預(yù)測(cè)能力,既能適應(yīng)現(xiàn)實(shí)世界動(dòng)態(tài)的不確定性,又能保持信息連續(xù)性。通過(guò)結(jié)合RNN的優(yōu)勢(shì)和狀態(tài)空間模型(SSM)的靈活性,RSSM為世界模型建立了一個(gè)全面的框架,增強(qiáng)了其在精度和適應(yīng)性之間的平衡。

    聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA):
    在預(yù)測(cè)建模中標(biāo)志著范式轉(zhuǎn)變,專注于表示空間而非直接、詳細(xì)的預(yù)測(cè)。通過(guò)雙編碼器將輸入(x)和目標(biāo)(y)抽象為表示(sx和sy),并利用潛在變量(z)進(jìn)行預(yù)測(cè),JEPA在效率和準(zhǔn)確性上實(shí)現(xiàn)了顯著飛躍。該模型在過(guò)濾噪音和無(wú)關(guān)信息方面表現(xiàn)出色,專注于預(yù)測(cè)任務(wù)的本質(zhì)。戰(zhàn)略性地使用潛在變量(z)管理不確定性,進(jìn)一步提高了模型的專注力,使其能夠以更高的精度預(yù)測(cè)抽象結(jié)果。通過(guò)優(yōu)先考慮相關(guān)特征并接受預(yù)測(cè)任務(wù)的內(nèi)在不確定性,JEPA不僅簡(jiǎn)化了預(yù)測(cè)過(guò)程,還確保了結(jié)果既相關(guān)又可靠,為復(fù)雜環(huán)境中的世界模型的下一步發(fā)展鋪平了道路。
    這些策略共同增強(qiáng)了世界模型在高維和動(dòng)態(tài)場(chǎng)景中的適應(yīng)性和精度,使其能夠更好地反映真實(shí)世界的復(fù)雜性和不可預(yù)測(cè)性。這種多樣化的策略融合通過(guò)先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)和創(chuàng)新的潛在變量模型為世界模型提供了強(qiáng)大的基礎(chǔ),提升了其在模擬和決策中的表現(xiàn)力。

    世界模型在不同研究中的應(yīng)用自動(dòng)駕駛:
    在自動(dòng)駕駛領(lǐng)域,世界模型通過(guò)模擬車(chē)輛在各種交通環(huán)境中的行為和互動(dòng)來(lái)增強(qiáng)決策和規(guī)劃能力。它們能夠預(yù)測(cè)其他車(chē)輛、行人和動(dòng)態(tài)環(huán)境變化,從而幫助自主系統(tǒng)做出更安全、更高效的駕駛決策。例如,在無(wú)人駕駛汽車(chē)項(xiàng)目中,世界模型可以預(yù)測(cè)交通流量、路況變化以及潛在的風(fēng)險(xiǎn)因素,使車(chē)輛能夠提前做出反應(yīng),避免事故和優(yōu)化行駛路徑。
    機(jī)器人控制:
    在機(jī)器人控制中,世界模型通過(guò)模擬機(jī)器人在不同任務(wù)和環(huán)境中的行為,增強(qiáng)其自主性和適應(yīng)能力。通過(guò)感知和記憶模塊,機(jī)器人能夠?qū)W習(xí)和記住復(fù)雜的任務(wù)流程,并通過(guò)預(yù)測(cè)模塊預(yù)見(jiàn)潛在的任務(wù)挑戰(zhàn),從而調(diào)整其行動(dòng)策略。例如,在倉(cāng)庫(kù)管理中,機(jī)器人可以通過(guò)世界模型優(yōu)化貨物搬運(yùn)路徑,提高工作效率和準(zhǔn)確性。
    游戲AI:
    在游戲AI開(kāi)發(fā)中,世界模型通過(guò)模擬復(fù)雜的游戲環(huán)境和角色行為,提升了游戲的智能和互動(dòng)性。通過(guò)感知和預(yù)測(cè)模塊,游戲AI能夠?qū)崟r(shí)分析玩家的行為和決策,并相應(yīng)調(diào)整游戲策略,提供更具挑戰(zhàn)性和沉浸感的游戲體驗(yàn)。例如,在策略游戲中,世界模型可以預(yù)測(cè)玩家的下一步行動(dòng),并相應(yīng)調(diào)整游戲難度和資源配置,提升游戲的娛樂(lè)性和可玩性。
    醫(yī)療診斷:
    在醫(yī)療診斷領(lǐng)域,世界模型通過(guò)模擬患者的病情變化和治療效果,輔助醫(yī)生做出更準(zhǔn)確的診斷和治療決策。通過(guò)感知和記憶模塊,模型能夠記錄和分析大量患者數(shù)據(jù),識(shí)別潛在的疾病模式和風(fēng)險(xiǎn)因素,并通過(guò)預(yù)測(cè)模塊預(yù)見(jiàn)疾病的發(fā)展趨勢(shì),從而優(yōu)化治療方案。例如,在癌癥治療中,世界模型可以模擬不同治療方法的效果,幫助醫(yī)生選擇最有效的治療方案,提高患者的生存率和生活質(zhì)量。


    世界模型的未來(lái)方向和挑戰(zhàn)盡管世界模型在多個(gè)領(lǐng)域表現(xiàn)出巨大的潛力,但其發(fā)展和應(yīng)用仍面臨一系列挑戰(zhàn)和未來(lái)方向:
    數(shù)據(jù)的多樣性和質(zhì)量:
    世界模型依賴大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。然而,獲取和處理這些數(shù)據(jù)往往需要耗費(fèi)大量時(shí)間和資源。未來(lái)的發(fā)展需要在數(shù)據(jù)收集、標(biāo)注和處理方面取得突破,確保模型能夠從多樣化和高質(zhì)量的數(shù)據(jù)中學(xué)習(xí),提升其預(yù)測(cè)和決策能力。
    模型的可解釋性:
    世界模型的復(fù)雜性使其決策過(guò)程難以解釋和理解。這在某些應(yīng)用場(chǎng)景(如醫(yī)療診斷和自動(dòng)駕駛)中可能帶來(lái)潛在風(fēng)險(xiǎn)。未來(lái)的研究需要致力于提高模型的可解釋性,開(kāi)發(fā)透明和可理解的決策機(jī)制,使用戶能夠信任和理解模型的行為。
    計(jì)算資源的需求:
    訓(xùn)練和運(yùn)行世界模型需要大量的計(jì)算資源,特別是在處理高維數(shù)據(jù)和復(fù)雜場(chǎng)景時(shí)。未來(lái)的發(fā)展需要在硬件和算法方面取得進(jìn)展,優(yōu)化計(jì)算效率和資源利用,使世界模型能夠在有限的計(jì)算資源下高效運(yùn)行。
    跨領(lǐng)域的應(yīng)用:
    世界模型的潛力不僅限于當(dāng)前的應(yīng)用領(lǐng)域。未來(lái)的研究應(yīng)探索其在更多領(lǐng)域中的應(yīng)用,如教育、金融和環(huán)境保護(hù)等,發(fā)揮其在復(fù)雜決策和預(yù)測(cè)中的優(yōu)勢(shì),為更多行業(yè)帶來(lái)創(chuàng)新和變革。
    世界模型在自動(dòng)駕駛中的應(yīng)用作為世界模型應(yīng)用的新興前沿,自動(dòng)駕駛領(lǐng)域在場(chǎng)景生成和規(guī)劃與控制機(jī)制方面展現(xiàn)了獨(dú)特的挑戰(zhàn)和機(jī)遇,這些領(lǐng)域正是探索和創(chuàng)新的沃土。盡管興趣日益增加,世界模型在自動(dòng)駕駛中的整合主要集中在場(chǎng)景生成和規(guī)劃與控制機(jī)制。

    A. 駕駛場(chǎng)景生成在自動(dòng)駕駛數(shù)據(jù)獲取方面面臨著重大挑戰(zhàn),包括高昂的數(shù)據(jù)收集和標(biāo)注成本、法律限制以及安全考量。世界模型通過(guò)自監(jiān)督學(xué)習(xí)范式,提供了一種有前途的解決方案,可以從大量未標(biāo)記數(shù)據(jù)中提取有價(jià)值的見(jiàn)解,從而以成本效益提升模型性能。世界模型在駕駛場(chǎng)景生成中的應(yīng)用尤為值得注意,因?yàn)樗軌騽?chuàng)建多樣化和逼真的駕駛環(huán)境。這種能力顯著豐富了訓(xùn)練數(shù)據(jù)集,使自主系統(tǒng)具備在稀有和復(fù)雜駕駛場(chǎng)景中導(dǎo)航的穩(wěn)健性。
    GAIA-1是一個(gè)新穎的自主生成AI模型,能夠使用視頻、文本和動(dòng)作輸入生成逼真的駕駛視頻。GAIA-1在英國(guó)城市的實(shí)際駕駛數(shù)據(jù)上進(jìn)行了廣泛訓(xùn)練,學(xué)習(xí)并理解了一些真實(shí)世界的規(guī)則和關(guān)鍵概念,包括不同類型的車(chē)輛、行人、建筑物和基礎(chǔ)設(shè)施。它可以基于幾秒鐘的視頻輸入預(yù)測(cè)和生成后續(xù)的駕駛場(chǎng)景。值得注意的是,生成的未來(lái)駕駛場(chǎng)景并不緊密依賴于提示視頻,而是基于GAIA-1對(duì)世界規(guī)則的理解。GAIA-1核心采用自回歸變壓器網(wǎng)絡(luò),基于輸入圖像、文本和動(dòng)作令牌預(yù)測(cè)即將發(fā)生的圖像令牌,然后將這些預(yù)測(cè)解碼回像素空間。GAIA-1可以預(yù)測(cè)多個(gè)潛在的未來(lái),并基于提示生成多樣的視頻或特定的駕駛場(chǎng)景(例如改變天氣、場(chǎng)景、交通參與者、車(chē)輛動(dòng)作),甚至包括其訓(xùn)練集中不存在的動(dòng)作和場(chǎng)景(例如強(qiáng)行進(jìn)入人行道)。這表明其能夠理解和推斷訓(xùn)練集中未出現(xiàn)的駕駛概念,也證明了其反事實(shí)推理能力。在現(xiàn)實(shí)世界中,這種駕駛行為由于其風(fēng)險(xiǎn)性難以獲取數(shù)據(jù)。駕駛場(chǎng)景生成允許模擬測(cè)試,豐富數(shù)據(jù)構(gòu)成,增強(qiáng)系統(tǒng)在復(fù)雜場(chǎng)景中的能力,并更好地評(píng)估現(xiàn)有的駕駛模型。此外,GAIA-1生成連貫的動(dòng)作,有效捕捉3D幾何結(jié)構(gòu)的透視影響,展示了其對(duì)上下文信息和物理規(guī)則的理解。結(jié)合其反事實(shí)推理能力,可以說(shuō)GAIA-1在自動(dòng)駕駛世界模型中達(dá)到了高水平,無(wú)論在抽象概念的理解還是因果推理方面。
    DriveDreamer也專注于駕駛場(chǎng)景生成,不同于GAIA-1,它在nuScenes數(shù)據(jù)集上進(jìn)行了訓(xùn)練。其模型輸入包括更多元素,如高清地圖和3D框,允許更精確地控制駕駛場(chǎng)景生成和更深入的理解,從而提高視頻生成質(zhì)量。此外,DriveDreamer可以生成未來(lái)駕駛動(dòng)作及相應(yīng)的預(yù)測(cè)場(chǎng)景,幫助決策。
    ADriver-I使用當(dāng)前的視頻幀和歷史的視覺(jué)-動(dòng)作對(duì)作為多模態(tài)大型語(yǔ)言模型(MLLM和視頻潛在擴(kuò)散模型(VDM)的輸入。MLLM以自回歸方式輸出控制信號(hào),作為VDM預(yù)測(cè)后續(xù)視頻輸出的提示。通過(guò)連續(xù)的預(yù)測(cè)周期,ADriver-I在預(yù)測(cè)世界中實(shí)現(xiàn)了無(wú)限駕駛。在ADriver-I中,世界模型與MLLM的結(jié)合顯著提高了預(yù)測(cè)和決策的可解釋性,也表明了將世界模型作為基礎(chǔ)模型與其他模型結(jié)合的可行性。
    借鑒大型語(yǔ)言模型的成功,WorldDreamer將世界建模視為無(wú)監(jiān)督的視覺(jué)序列建模挑戰(zhàn)。它利用STPT集中注意力于時(shí)空窗口內(nèi)的局部補(bǔ)丁。這種聚焦促進(jìn)了視覺(jué)信號(hào)的動(dòng)態(tài)學(xué)習(xí),加速了訓(xùn)練過(guò)程的收斂。盡管WorldDreamer是通用的視頻生成模型,但它在生成自動(dòng)駕駛視頻方面表現(xiàn)出色。除了視覺(jué)信息,駕駛場(chǎng)景還包括大量重要的物理數(shù)據(jù)。MUVO利用世界模型框架進(jìn)行駕駛場(chǎng)景的預(yù)測(cè)和生成,結(jié)合了激光雷達(dá)點(diǎn)云和視覺(jué)輸入來(lái)預(yù)測(cè)視頻、點(diǎn)云和未來(lái)駕駛場(chǎng)景的3D占用網(wǎng)格。這種綜合方法顯著提高了預(yù)測(cè)和生成結(jié)果的質(zhì)量。尤其是3D占用網(wǎng)格的結(jié)果可以直接應(yīng)用于下游任務(wù)。更進(jìn)一步,OccWorld和Think2Drive直接利用3D占用信息作為系統(tǒng)輸入來(lái)預(yù)測(cè)周?chē)h(huán)境的演變并規(guī)劃自動(dòng)駕駛車(chē)輛的動(dòng)作。顯然,隨著研究的進(jìn)展,自動(dòng)駕駛領(lǐng)域的場(chǎng)景生成世界模型研究逐漸朝著多模態(tài)方法發(fā)展。世界模型在處理多模態(tài)信息方面展示了多功能性。
    B. 規(guī)劃與控制除了場(chǎng)景生成,世界模型在駕駛情境中的學(xué)習(xí)、潛在未來(lái)的評(píng)估以及規(guī)劃與控制策略的改進(jìn)中也起著關(guān)鍵作用。例如,基于模型的模仿學(xué)習(xí)(MILE)采用基于模型的模仿學(xué)習(xí)方法,從離線數(shù)據(jù)集中聯(lián)合學(xué)習(xí)動(dòng)態(tài)模型和駕駛行為。MILE使用“廣義推理算法”進(jìn)行理性和可視化的未來(lái)駕駛環(huán)境的想象和預(yù)測(cè),通過(guò)想象來(lái)彌補(bǔ)感知信息的缺失。這種能力使得未來(lái)行動(dòng)的規(guī)劃成為可能,允許自動(dòng)駕駛車(chē)輛在沒(méi)有高清地圖的情況下操作。在CARLA模擬器中的不熟悉測(cè)試場(chǎng)景中,MILE顯著超越了最先進(jìn)的模型,將駕駛評(píng)分從46提高到61(相比專家數(shù)據(jù)評(píng)分為88)。MILE的特點(diǎn)是長(zhǎng)期的時(shí)間跨度和高度多樣化的未來(lái)預(yù)測(cè)。通過(guò)對(duì)預(yù)測(cè)的未來(lái)狀態(tài)進(jìn)行解碼,MILE在各種場(chǎng)景中展示了穩(wěn)定的駕駛能力。
    SEM2在RSSM的基礎(chǔ)上,介紹了語(yǔ)義掩碼世界模型,以提高端到端自動(dòng)駕駛的采樣效率和魯棒性。作者認(rèn)為,世界模型的潛在狀態(tài)包含過(guò)多與任務(wù)無(wú)關(guān)的信息,影響了采樣效率和系統(tǒng)的魯棒性。此外,由于訓(xùn)練數(shù)據(jù)的不平衡,世界模型難以處理意外情況。為解決這些問(wèn)題,引入了一個(gè)簽名過(guò)濾器來(lái)提取關(guān)鍵任務(wù)特征,使用過(guò)濾后的特征重建語(yǔ)義掩碼。對(duì)于數(shù)據(jù)不平衡,使用采樣器平衡數(shù)據(jù)分布。在每批訓(xùn)練中,均勻地添加來(lái)自各種場(chǎng)景的樣本,以實(shí)現(xiàn)訓(xùn)練樣本的均勻和平衡分布,有利于泛化和解決極端情況。在CARLA中訓(xùn)練和測(cè)試后,SEM2的性能相比DreamerV2顯著提升。
    考慮到大多數(shù)自動(dòng)駕駛車(chē)輛通常有多個(gè)攝像頭,多視角建模也是世界模型的關(guān)鍵方面。Drive-WM是第一個(gè)設(shè)計(jì)用于增強(qiáng)端到端自動(dòng)駕駛規(guī)劃安全性的多視角世界模型。Drive-WM通過(guò)多視角和時(shí)間建模,共同生成多個(gè)視角的幀,然后從相鄰視角預(yù)測(cè)中間視角,顯著提高了多個(gè)視角之間的一致性。此外,Drive-WM引入了一個(gè)簡(jiǎn)單統(tǒng)一的條件接口,靈活應(yīng)用圖像、動(dòng)作、文本和其他條件,簡(jiǎn)化了條件生成過(guò)程。在六個(gè)視角的nuScenes數(shù)據(jù)集上訓(xùn)練和驗(yàn)證,Drive-WM通過(guò)采樣預(yù)測(cè)的候選軌跡并使用基于圖像的獎(jiǎng)勵(lì)函數(shù)選擇最佳軌跡。此外,與GAIA-1一致,Drive-WM在非可行駛區(qū)域的導(dǎo)航能力展示了世界模型在處理域外情況方面的理解和潛力。此外,借鑒Alberto Elfes的開(kāi)創(chuàng)性工作,UniWorld引入了一種創(chuàng)新方法,通過(guò)使用多幀點(diǎn)云融合作為生成4D占用標(biāo)簽的真值。該方法考慮了來(lái)自多攝像機(jī)系統(tǒng)的圖像中的時(shí)空相關(guān)性。通過(guò)利用未標(biāo)記的圖像-激光雷達(dá)對(duì),UniWorld進(jìn)行了世界模型的預(yù)訓(xùn)練,顯著增強(qiáng)了對(duì)環(huán)境動(dòng)態(tài)的理解。在nuScenes數(shù)據(jù)集上測(cè)試時(shí),UniWorld在運(yùn)動(dòng)預(yù)測(cè)和語(yǔ)義場(chǎng)景完成等任務(wù)的IoU方面相比單目預(yù)訓(xùn)練方法表現(xiàn)出顯著改進(jìn)。
    TrafficBots也是一個(gè)端到端的自動(dòng)駕駛模型,更強(qiáng)調(diào)場(chǎng)景中個(gè)體代理的動(dòng)作預(yù)測(cè)。以每個(gè)代理的目標(biāo)地作為條件,TrafficBots采用條件變分自編碼器(CVAE)學(xué)習(xí)每個(gè)代理的獨(dú)特個(gè)性,從而促進(jìn)動(dòng)作預(yù)測(cè)從鳥(niǎo)瞰圖(BEV)的角度進(jìn)行。相比替代方法,TrafficBots具有更快的操作速度,并且可以擴(kuò)展以容納更多代理。盡管其性能可能尚未達(dá)到最先進(jìn)的開(kāi)放循環(huán)策略,但TrafficBots展示了閉環(huán)
    測(cè)試中的顯著潛力,特別是在駕駛場(chǎng)景復(fù)雜且包括其他智能體時(shí)。
    結(jié)合這些應(yīng)用案例,可以看出,世界模型在自動(dòng)駕駛領(lǐng)域正處于快速發(fā)展階段。通過(guò)整合多模態(tài)信息和增強(qiáng)模型的泛化能力,世界模型在豐富自動(dòng)駕駛系統(tǒng)的訓(xùn)練數(shù)據(jù)、改進(jìn)決策和規(guī)劃、提高系統(tǒng)魯棒性等方面展現(xiàn)出廣闊的應(yīng)用前景。然而,仍有許多挑戰(zhàn)需要克服,包括處理復(fù)雜場(chǎng)景中的意外情況、多智能體的協(xié)調(diào)等。未來(lái)的研究和應(yīng)用將進(jìn)一步推動(dòng)世界模型在自動(dòng)駕駛領(lǐng)域的發(fā)展。

    挑戰(zhàn)與未來(lái)展望A. 技術(shù)與計(jì)算挑戰(zhàn)1. 從模擬到現(xiàn)實(shí)世界的泛化:
    模擬訓(xùn)練環(huán)境與現(xiàn)實(shí)世界條件的多樣性之間的差異,構(gòu)成了自動(dòng)駕駛技術(shù)發(fā)展的關(guān)鍵瓶頸。盡管當(dāng)前的模擬平臺(tái)已經(jīng)相當(dāng)先進(jìn),但它們?nèi)詿o(wú)法完美再現(xiàn)現(xiàn)實(shí)世界場(chǎng)景的不可預(yù)測(cè)性和變異性。
    2. 長(zhǎng)期可擴(kuò)展記憶集成:
    在賦予世界模型以長(zhǎng)期、可擴(kuò)展記憶以反映人類認(rèn)知過(guò)程的復(fù)雜性方面,依然存在巨大的挑戰(zhàn)。當(dāng)前的模型面臨諸如梯度消失和災(zāi)難性遺忘等問(wèn)題,這嚴(yán)重限制了它們的長(zhǎng)期記憶能力。
    3. 理論與硬件的突破:
    世界模型在生成任務(wù)中表現(xiàn)出色,但在純粹的預(yù)測(cè)任務(wù)(如運(yùn)動(dòng)預(yù)測(cè))方面仍顯不足。這部分是因?yàn)檫@些模型尚未完美地模擬現(xiàn)實(shí)世界的演變,包括確定性與隨機(jī)性之間的平衡。
    B. 倫理與安全挑戰(zhàn)1. 決策責(zé)任:
    確保車(chē)輛自主決策框架中的責(zé)任成為首要的倫理問(wèn)題,迫切需要開(kāi)發(fā)具有前所未有透明度的系統(tǒng)。
    2. 隱私與數(shù)據(jù)完整性:
    自動(dòng)駕駛技術(shù)依賴大量數(shù)據(jù)進(jìn)行操作和持續(xù)改進(jìn),這帶來(lái)了重大的隱私和數(shù)據(jù)安全問(wèn)題。對(duì)于開(kāi)發(fā)自動(dòng)駕駛系統(tǒng)的公司而言,收集到的車(chē)輛相關(guān)數(shù)據(jù),包括乘客信息等,都需要得到妥善保護(hù)。
    3. 責(zé)任和標(biāo)準(zhǔn):
    隨著世界模型在自動(dòng)駕駛系統(tǒng)中支持或接管駕駛?cè)蝿?wù),人類的責(zé)任不是減少或消除,而是重新分配給參與創(chuàng)建、部署和使用這些系統(tǒng)的個(gè)人和組織。這種轉(zhuǎn)變要求參與者提出新的需求,呼吁新的研究和政策來(lái)管理這一轉(zhuǎn)變。
    C. 未來(lái)展望1. 橋接人類直覺(jué)與AI精度:
    一個(gè)突破性的前景是世界模型向促進(jìn)自動(dòng)駕駛汽車(chē)內(nèi)認(rèn)知協(xié)同駕駛框架的發(fā)展。與傳統(tǒng)的完全依賴預(yù)定義算法和傳感器輸入進(jìn)行決策的自動(dòng)駕駛系統(tǒng)不同,認(rèn)知協(xié)同駕駛旨在融合人類直覺(jué)與AI的精確度。
    2. 與城市生態(tài)系統(tǒng)的協(xié)調(diào):
    另一個(gè)愿景是世界模型在將自動(dòng)駕駛汽車(chē)轉(zhuǎn)變?yōu)樯鷳B(tài)工程代理方面的作用,通過(guò)適應(yīng)性、響應(yīng)性的行為來(lái)與城市生態(tài)系統(tǒng)和諧共處,促進(jìn)環(huán)境可持續(xù)性。
    總結(jié):世界模型在自動(dòng)駕駛技術(shù)中的應(yīng)用具有革命性的潛力,它們通過(guò)提高車(chē)輛的預(yù)測(cè)、模擬和決策能力,對(duì)推動(dòng)汽車(chē)自主性的提升至關(guān)重要。盡管目前已經(jīng)有了顯著的發(fā)展,但要實(shí)現(xiàn)這些模型在實(shí)際場(chǎng)景中的應(yīng)用,我們?nèi)匀幻媾R著一些挑戰(zhàn),包括如何整合長(zhǎng)期記憶、將模型從模擬環(huán)境泛化到現(xiàn)實(shí)世界,以及如何處理與自動(dòng)駕駛相關(guān)的倫理問(wèn)題。解決這些問(wèn)題需要跨學(xué)科的合作,包括人工智能的最新研究、建立倫理框架和開(kāi)發(fā)創(chuàng)新的計(jì)算技術(shù)。
    展望未來(lái),隨著世界模型的不斷進(jìn)步,我們預(yù)期它們不僅會(huì)推動(dòng)自動(dòng)駕駛技術(shù)的發(fā)展,還將改變我們與自動(dòng)化系統(tǒng)的互動(dòng)方式。這進(jìn)一步強(qiáng)調(diào)了持續(xù)的跨領(lǐng)域研究和合作的重要性,以確保這些技術(shù)的安全、有效和道德發(fā)展。
    引用CVPR2024文章:
    World Models for Autonomous Driving:
    An Initial Survey
    最后別忘了,幫忙點(diǎn)“在看”。  
    您的點(diǎn)贊,在看,是我創(chuàng)作的動(dòng)力。

    AiFighing是全網(wǎng)第一且唯一分享自動(dòng)駕駛實(shí)戰(zhàn),以代碼、項(xiàng)目的形式講解自動(dòng)駕駛感知方向的關(guān)鍵技術(shù),從算法訓(xùn)練到模型部署。
  • 本帖子中包含更多資源

    您需要 登錄 才可以下載或查看,沒(méi)有賬號(hào)?立即注冊(cè)

    x
    回復(fù)

    使用道具

    發(fā)表回復(fù)

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表