端到端自動(dòng)駕駛技術(shù)需要高算力資源、大量深度學(xué)習(xí)研發(fā)人員投入,在全球范圍內(nèi)的主要玩家如下:
1、主機(jī)廠
1.1特斯拉
特斯拉FSDv12 的優(yōu)秀表現(xiàn),是端到端自動(dòng)駕駛這一技術(shù)路線快速形成大范圍共識(shí)的最重要的推動(dòng)力;而在此之前,從來(lái)沒(méi)有一個(gè)自動(dòng)駕駛產(chǎn)品可以讓從業(yè)者和用戶如此便捷地感受到技術(shù)帶來(lái)的體驗(yàn)提升。
2024 年3 月,特斯拉開(kāi)始在北美地區(qū)大范圍推送FSD v12,輿論對(duì)其性能的正面評(píng)價(jià)占據(jù)了主流。許多用戶表示,特斯拉FSD v12 在施工路段、無(wú)保護(hù)左轉(zhuǎn)、擁擠的環(huán)島以及為后方車輛挪動(dòng)空間時(shí)表現(xiàn)優(yōu)異。
數(shù)據(jù)來(lái)自Tesla FSD Tracker
由第三方網(wǎng)站 FSD Tracker 統(tǒng)計(jì)的特斯拉車輛接管里程數(shù)據(jù)也表明了FSD v12 的巨大性能提升。在此前很長(zhǎng)一段時(shí)間,F(xiàn)SD 的版本迭代處于瓶頸期,自2022 年初FSD v10 更新以來(lái),其接管里程數(shù)據(jù)保持在穩(wěn)態(tài)波動(dòng),行業(yè)普遍認(rèn)為這是傳統(tǒng)架構(gòu)的工程優(yōu)化陷入瓶頸的表現(xiàn);但FSD v12 更新后,較之此前版本,用戶完全無(wú)接管的行程次數(shù)占比從47% 提升到了72%,平均接管里程(Miles Per Intervention, MPI)從116 英里提高到了333 英里,性能的大幅提升代表著端到端技術(shù)突破了原有的技術(shù)瓶頸,推動(dòng)自動(dòng)駕駛系統(tǒng)的能力再上臺(tái)階。作為自動(dòng)駕駛行業(yè)最重要的標(biāo)桿企業(yè)之一,特斯拉的技術(shù)路線一直備受關(guān)注。從Elon Musk 在2023 年5 月首次公開(kāi)提出“ 特斯拉FSD v12 是一個(gè)端到端AI”,到2024 年3 月特斯拉開(kāi)始大范圍推送v12,特斯拉端到端技術(shù)不斷演進(jìn)和成熟的過(guò)程,也是中國(guó)自動(dòng)駕駛行業(yè)逐漸凝聚共識(shí)的過(guò)程。很多業(yè)內(nèi)專家表示,公司下決心投入端到端自動(dòng)駕駛,與特斯拉的進(jìn)展密不可分。
1.2 理想
2024年7月5日,理想汽車發(fā)布了行業(yè)首個(gè)基于端到端模型、VLM 視覺(jué)語(yǔ)言模型和世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu)。
1.3 小鵬
小鵬汽車的端到端架構(gòu)是兩段式架構(gòu)。小鵬之前智駕系統(tǒng)的規(guī)則是十萬(wàn)(行代碼)級(jí)規(guī)模,最新發(fā)布的端到端大模型能夠?qū)崿F(xiàn)10億行代碼才能達(dá)到的性能天花板,甚至更強(qiáng)。同時(shí)XNGP的端到端系統(tǒng)內(nèi),仍有部分的規(guī)則代碼作為安全兜底。
此次小鵬量產(chǎn)上車的端到端大模型包括:感知神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語(yǔ)言模型XBrain。
從結(jié)構(gòu)來(lái)看,小鵬的端到端架構(gòu)仍分為感知、規(guī)控兩大功能模塊,其中最大的變化應(yīng)該在于將過(guò)去基本完全由規(guī)則組成的規(guī)控模塊,切換為神經(jīng)網(wǎng)絡(luò)為主。其中XNet:側(cè)重于感知和語(yǔ)義,實(shí)現(xiàn)了動(dòng)、靜態(tài)BEV網(wǎng)絡(luò)和占用網(wǎng)絡(luò)的三網(wǎng)合一,其中占用網(wǎng)絡(luò)的空間網(wǎng)格超200萬(wàn)個(gè)。小鵬官方表示,其網(wǎng)格精度為業(yè)內(nèi)最高精度的2倍以上。三網(wǎng)合一后,XNet的感知范圍提升2倍,達(dá)到1.8個(gè)足球場(chǎng)大小,對(duì)懸掛路牌、井蓋、掉落紙箱等非標(biāo)準(zhǔn)障礙物識(shí)別能力提升至50+。XPlanner:通過(guò)模型取代代碼后,規(guī)控表現(xiàn)將更加擬人,前后頓挫減少50%、違?ㄋ罍p少40%、安全接管減少60%;XBrain:XBrain 側(cè)重于整個(gè)大場(chǎng)景的認(rèn)知,通過(guò)大語(yǔ)言模型所具備的常識(shí)能力,提升感知和規(guī)控的推理和泛化能力。可讀懂任何中英文文字,掌握各種令行禁止、快慢緩急的行為指令。
對(duì)于神經(jīng)網(wǎng)絡(luò)的不可解釋性問(wèn)題,小鵬汽車自動(dòng)駕駛中心負(fù)責(zé)人李力耘表示,在端到端的架構(gòu)下,三個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練標(biāo)注,形成有一個(gè)有機(jī)整體。
2、科技公司
2.1Wayve
英國(guó)自動(dòng)駕駛初創(chuàng)公司W(wǎng)ayve在當(dāng)?shù)貢r(shí)間2024年5月7日表示,已完成10.5億美元的融資。其中軟銀集團(tuán)(SoftBank Group)、英偉達(dá)(NVIDIA)和微軟(Microsoft)參與了Wayve的C輪融資。
Wayve利用多模態(tài)大模型生成數(shù)據(jù)賦能端到端。Wayve的端到端方案,引入了多模態(tài)大模型GAIA-1(“自主生成AI”),一種生成世界模型。它利用視頻、文本和動(dòng)作輸入來(lái)生成逼真的駕駛場(chǎng)景,同時(shí)提供對(duì)車輛行為和場(chǎng)景特征的顆粒度控制。具體而言,將世界建模視為一個(gè)無(wú)監(jiān)督序列建模問(wèn)題,通過(guò)將輸入映射到離散標(biāo)記,并預(yù)測(cè)序列中的下一個(gè)標(biāo)記。模型中出現(xiàn)的特性包括學(xué)習(xí)高級(jí)結(jié)構(gòu)和場(chǎng)景動(dòng)態(tài)、上下文意識(shí)、泛化和對(duì)幾何的理解。 GAIA-1的學(xué)習(xí)表征能力捕獲了對(duì)未來(lái)事件的預(yù)測(cè),結(jié)合其生成真實(shí)樣本的能力,增強(qiáng)和加速了自動(dòng)駕駛技術(shù)的訓(xùn)練。GAIA-1允許視頻、文本和動(dòng)作作為提示來(lái)生成多樣化和逼真的駕駛場(chǎng)景。Wayve通過(guò)在真實(shí)世界的英國(guó)城市駕駛數(shù)據(jù)的大型語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練GAIA-1,其學(xué)會(huì)理解和理清重要的概念,如靜態(tài)和動(dòng)態(tài)元素,包括汽車、公共汽車、行人、騎自行車的人、道路布局、建筑物,甚至交通燈。此外,它還通過(guò)動(dòng)作和語(yǔ)言條件反射提供了對(duì)自我車輛行為和其他場(chǎng)景特征的細(xì)粒度控制。下圖是GAIA-1多模態(tài)視頻生成。
Wayve的訓(xùn)練數(shù)據(jù)集包含 2019-2023年間在英國(guó)倫敦收集的4,700小時(shí)、25Hz的專有駕駛數(shù)據(jù)。這對(duì)應(yīng)于大約4.2億張獨(dú)特圖像,這是一個(gè)海量的圖片數(shù)據(jù),但對(duì)視頻數(shù)據(jù)而言還是微不足道。但Wayve的智駕方案核心在于它可以自己生成海量的近似人工標(biāo)注的視頻數(shù)據(jù)且成本極低,這些數(shù)據(jù)可以模擬各種近乎真實(shí)的場(chǎng)景,然后用這些數(shù)據(jù)進(jìn)行端到端訓(xùn)練。
雖然Tesla的影子模式也可以獲得海量的低成本近似于人工標(biāo)注的視頻數(shù)據(jù),但實(shí)際上并非如此,馬斯克在最近的訪談也稱所謂影子模式拿到的圖像(不是視頻)有用的不到萬(wàn)分之一。
2.2 華為
2024 年4 月24 日,華為智能汽車解決方案發(fā)布會(huì)上,華為發(fā)布了以智能駕駛為核心的全新智能汽車解決方案品牌—— 乾崑,并發(fā)布了并發(fā)布了ADS 3.0。乾崑ADS 3.0 的技術(shù)架構(gòu),感知部分采用GOD(General Object Detection,通用障礙物識(shí)別)的大感知網(wǎng)絡(luò),決策規(guī)劃部分采用PDP(Prediction-Decision-Planning, 預(yù)測(cè)決策規(guī)控)網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)決策和規(guī)劃一張網(wǎng)。華為乾崑ADS3.0端到端是基于少量人工規(guī)則+端到端模型,并逐漸減少人工規(guī)則的數(shù)量。
乾崑ADS3.0主要包括GOD和PDP。華為的ADS是從感知BEV(鳥(niǎo)瞰圖)網(wǎng)絡(luò)開(kāi)始的,可識(shí)別白名單障礙物;2023年4月發(fā)布最新的ADS3.0,引入GOD(通用障礙物檢測(cè))和PCR(道路拓?fù)渫评恚┚W(wǎng)絡(luò),現(xiàn)在開(kāi)始進(jìn)入場(chǎng)景理解階段,構(gòu)成了GOD大網(wǎng)。
GOD(通用障礙物識(shí)別)大網(wǎng):乾崑ADS3.0基于GOD大網(wǎng),實(shí)現(xiàn)了從簡(jiǎn)單的“識(shí)別障礙物”到深度的“理解駕駛場(chǎng)景”的跨越式進(jìn)步。這不僅提升了智能駕駛的安全性,還改善了駕乘體驗(yàn)。
PDP(預(yù)測(cè)決策規(guī)控)網(wǎng)絡(luò):乾崑ADS3.0的全新架構(gòu)采用PDP網(wǎng)絡(luò),實(shí)現(xiàn)了預(yù)決策和規(guī)劃一張網(wǎng)。這使得決策和規(guī)劃更加類人化,行駛軌跡更接近人類駕駛,通行效率更高。復(fù)雜路口通過(guò)率超過(guò)96%。
2.3百度
2024年5月15日,百度Apollo發(fā)布了支持L4級(jí)自動(dòng)駕駛的大模型ApolloADFM(AutonomousDrivingFoundationModel)。百度的端到端架構(gòu)屬于兩段式端到端,感知和決策規(guī)劃有兩段網(wǎng)絡(luò),后續(xù)通過(guò)隱形傳遞和聯(lián)合訓(xùn)練實(shí)現(xiàn)端到端無(wú)人駕駛。
在感知端,通過(guò)攝像頭得到視覺(jué)圖像數(shù)據(jù),并通過(guò)激光雷達(dá)和4D毫米波雷達(dá)得到主動(dòng)光傳感器數(shù)據(jù)。之后利用感知網(wǎng)絡(luò)對(duì)視覺(jué)和主動(dòng)光特征進(jìn)行識(shí)別,融合BEV特征判斷道路特征、障礙物等。再通過(guò)顯式三維向量空間(使用三維坐標(biāo)系來(lái)精確地表示物體的位置和方向)和隱式BEV特征(在BEV視角下,不直接給出三維空間中的所有信息,而是通過(guò)一些間接的方式,如特征編碼或者深度學(xué)習(xí)模型來(lái)隱式地表示和推斷這些信息),以聯(lián)合訓(xùn)練的方式實(shí)現(xiàn)端到端無(wú)人駕駛。
2.3 地平線
地平線早在2016 年便率先提出了自動(dòng)駕駛端到端的演進(jìn)理念,并持續(xù)取得技術(shù)創(chuàng)新與突破:在2022 年提出行業(yè)領(lǐng)先的自動(dòng)駕駛感知端到端算法Sparse4D; 同時(shí),地平線積累了基于交互博弈的端到端深度學(xué)習(xí)算法,大幅提升智駕系統(tǒng)在復(fù)雜交通環(huán)境中的通過(guò)率、安全性和舒適度。在硬件技術(shù)上,地平線專為大參數(shù)Transformer 而生的新一代智能計(jì)算架構(gòu)BPU 納什,能夠以高度的軟硬協(xié)同打造業(yè)界領(lǐng)先的計(jì)算效率,為自動(dòng)駕駛端到端和交互博弈提供智能計(jì)算最優(yōu)解。
2.4英偉達(dá)
作為AI 生態(tài)賦能者,英偉達(dá)可以提供從芯片、工具鏈到智駕解決方案的全棧產(chǎn)品,將AI 領(lǐng)域最前端的技術(shù)賦能至智駕。2023 年夏季,吳新宙加盟英偉達(dá)成為汽車業(yè)務(wù)負(fù)責(zé)人。此后,英偉達(dá)加大對(duì)智駕業(yè)務(wù)的投入,強(qiáng)化英偉達(dá)對(duì)于自身全棧軟硬件方案提供商的定義。
2024 北京車展前夕, 吳新宙展示了英偉達(dá)自動(dòng)駕駛業(yè)務(wù)從L2 到L3 的發(fā)展規(guī)劃,其中提到規(guī)劃的第二步為“ 在L2++ 系統(tǒng)上達(dá)成新突破,LLM(LargeLanguage Model,大語(yǔ)言模型)和VLM(Visual Language Model,視覺(jué)語(yǔ)言模型)大模型上車,實(shí)現(xiàn)端到端的自動(dòng)駕駛”。吳新宙認(rèn)為,端到端是自動(dòng)駕駛的最終一步,接下來(lái)幾年端到端模型和原有模型會(huì)在自動(dòng)駕駛中相輔相成,端到端模型提供更擬人且靈活的處理,而原來(lái)的模型和方法則可以保證安全性。
2.5商湯
2024年4月25日,商湯絕影在北京車展發(fā)布面向量產(chǎn)的端到端自動(dòng)駕駛解決方案UniAD(Unified Autonomous Driving)。商湯的端到端架構(gòu)實(shí)現(xiàn)了感知到規(guī)劃,而國(guó)內(nèi)其他很多廠商說(shuō)的是感知到融合。
搭載UniAD端到端自動(dòng)駕駛解決方案的車輛僅憑攝像頭的視覺(jué)感知,無(wú)需高精地圖,通過(guò)數(shù)據(jù)學(xué)習(xí)和驅(qū)動(dòng)就可以像人一樣觀察并理解外部環(huán)境,然后基于足夠豐富的感知信息,UniAD能夠自己思考并作出決策,例如進(jìn)行無(wú)保護(hù)左轉(zhuǎn)、快速通行人車混行的紅綠燈路口、完成包括大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作。
UniAD的核心是將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型,實(shí)現(xiàn)感知決策一體化,不需要對(duì)感知數(shù)據(jù)進(jìn)行抽象和逐級(jí)傳遞,,將原始信息直接輸入到端到端模型中,然后以自車軌跡規(guī)劃為準(zhǔn)進(jìn)行指令輸出,實(shí)現(xiàn)端到端自動(dòng)駕駛。UniAD的具體優(yōu)點(diǎn)如下:
首先,傳統(tǒng)智駕方案和“兩段式”端到端方案都是依靠人為定義的規(guī)則在傳遞顯性信息,存在信息誤差和丟失,難以完整準(zhǔn)確還原外部場(chǎng)景,而一體化端到端自動(dòng)駕駛大模型最明顯的優(yōu)勢(shì)就在于信息的無(wú)損傳遞,端到端模型基于原始信息進(jìn)行學(xué)習(xí)、思考和推理,最終能像人一樣綜合理解復(fù)雜的交通環(huán)境,并且能夠不斷成長(zhǎng),有著更高的能力上限。
其次,依賴數(shù)據(jù)驅(qū)動(dòng)的端到端方案能夠?qū)⑵鋵W(xué)到的駕駛能力和技巧遷移泛化到其他場(chǎng)景當(dāng)中,具備更快的迭代效率,幫助車企更快速實(shí)現(xiàn)全國(guó)都能開(kāi)的目標(biāo),無(wú)論是城區(qū)還是鄉(xiāng)村道路。
最后,端到端自動(dòng)駕駛大模型是像人一樣感知和理解外部環(huán)境,純視覺(jué)和無(wú)高精地圖就是UniAD與生俱來(lái)的天賦,它只需要導(dǎo)航信息就可以把車駕駛到目的地,天然就能幫助車企降低軟硬件成本。
Tesla的FSDV12等一體化端到端方案是基于一個(gè)不可解耦的模型打造,UniAD是將多個(gè)模塊整合到一個(gè)端到端模型架構(gòu)之下,仍可以對(duì)各個(gè)模塊進(jìn)行分別的監(jiān)測(cè)和優(yōu)化,相較于純黑盒的端到端技術(shù),UniAD方案具有更強(qiáng)的可解釋性、安全性與持續(xù)迭代性。
2.6 鑒智機(jī)器人
在2024 北京車展期間,鑒智機(jī)器人聯(lián)合創(chuàng)始人、CTO 都大龍表示,鑒智機(jī)器人原創(chuàng)的自動(dòng)駕駛端到端模型GraphAD 已經(jīng)可量產(chǎn)部署,并正與頭部車企進(jìn)行聯(lián)合開(kāi)發(fā)。在主流端到端開(kāi)環(huán)規(guī)劃評(píng)測(cè)上,GraphAD 在各項(xiàng)任務(wù)上均達(dá)到領(lǐng)域最佳性能,規(guī)劃任務(wù)上擬合誤差和避障指標(biāo)更是遠(yuǎn)超此前的最佳方案。
談及端到端自動(dòng)駕駛,都大龍說(shuō):“ 之所以將端到端范式稱為GraphAD,是因?yàn)殍b智使用了圖形結(jié)構(gòu)來(lái)顯示建模目標(biāo),包括動(dòng)態(tài)和靜態(tài)障礙物之間的關(guān)系—— 這使得端到端模型訓(xùn)練起來(lái)更容易也進(jìn)一步減少對(duì)數(shù)據(jù)量的需求! 都大龍指出,如果只使用積累下來(lái)的專用數(shù)據(jù),是無(wú)法做到快速上車的,而鑒智目前在做的,是將端到端與世界模型相結(jié)合。構(gòu)建生成式的仿真模型,使得Agent 不斷與仿真模型交互,以此將世界的規(guī)律和人類的知識(shí)遷移到Agent 里! 我們將真實(shí)世界的信息模擬壓縮成一個(gè)生成式模型,同時(shí)要不斷對(duì)其進(jìn)行幾個(gè)層面的優(yōu)化:真實(shí)度、可控度以及可交互度。其中,交互要無(wú)限逼近現(xiàn)實(shí)感。”
3、開(kāi)源實(shí)驗(yàn)室
3.1 上海人工智能實(shí)驗(yàn)室
上海人工智能實(shí)驗(yàn)室近年來(lái)為自動(dòng)駕駛技術(shù)的發(fā)展做出了很大的貢獻(xiàn)。
2022 年,上海人工智能實(shí)驗(yàn)室開(kāi)源了 BEVFormer 架構(gòu),時(shí)至今日依然是自動(dòng)駕駛行業(yè)內(nèi)最通用的視覺(jué)感知算法架構(gòu)。2023 年6 月,上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合提出的端到端自動(dòng)駕駛算法 UniAD,獲得 CVPR 2023最佳論文,是近十年來(lái)計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議中第一篇以中國(guó)學(xué)術(shù)機(jī)構(gòu)作為第一單位的最佳論文。受到 BEVFormer 和 UniAD 的啟發(fā),自動(dòng)駕駛行業(yè)在BEV 感知、端到端自動(dòng)駕駛方面的研究大大加速。
近半年來(lái),上海人工智能實(shí)驗(yàn)室還推出利用大語(yǔ)言模型進(jìn)行閉環(huán)端到端自動(dòng)駕駛的工作LMDrive、自動(dòng)駕駛視頻生成模型GenAD 等,上海人工智能實(shí)驗(yàn)室從多個(gè)技術(shù)維度對(duì)自動(dòng)駕駛技術(shù)進(jìn)行探索,從而多方位提升其智能性。
同時(shí),上海人工智能實(shí)驗(yàn)室還主導(dǎo)了DriveLM(語(yǔ)言+ 自動(dòng)駕駛數(shù)據(jù)集)、GenAD(駕駛視頻數(shù)據(jù)集)、OpenLane(車道線數(shù)據(jù)集)、OpenScene(3D 占用空間預(yù)測(cè)數(shù)據(jù)集)多個(gè)自動(dòng)駕駛開(kāi)源數(shù)據(jù)集建設(shè),主辦了 CVPR 2023 自動(dòng)駕駛挑戰(zhàn)賽、CVPR 2024 自動(dòng)駕駛挑戰(zhàn)賽,對(duì)自動(dòng)駕駛研究生態(tài)的發(fā)展起到重要推動(dòng)作用。
3.2 清華大學(xué)MARS Lab
清華大學(xué)MARS Lab 由前Waymo 科學(xué)家趙行成立和主導(dǎo)。2021 年初, MARS Lab 提出了視覺(jué)為中心的自動(dòng)駕駛框架VCAD,發(fā)表了一系列BEV 和端到端自動(dòng)駕駛的基石研究論文和工作:首個(gè)基于Transformer 的視覺(jué)BEV 檢測(cè)模型DETR3D、首個(gè)視覺(jué)BEV 3D 物體跟蹤模型MUTR3D、首個(gè)基于Transformer的多傳感器前融合3D 物體檢測(cè)模型FUTR3D、首個(gè)端到端軌跡預(yù)測(cè)模型ViP3D、首個(gè)3D 占用網(wǎng)絡(luò)的評(píng)測(cè)基準(zhǔn)數(shù)據(jù)集Occ3D 等。
MARS Lab 也是最早發(fā)表“ 無(wú)圖” 自動(dòng)駕駛方案的團(tuán)隊(duì):2021 年初,發(fā)布首個(gè)在線高精度地圖模型HDMapNet;2022 年初,發(fā)布首個(gè)矢量高精度地圖模型VectorMapNet;2023 年初,開(kāi)創(chuàng)性地提出了基于眾包的先驗(yàn)神經(jīng)網(wǎng)絡(luò)的地圖模型,
實(shí)現(xiàn)了自動(dòng)駕駛地圖的記憶、更新、感知一體化。該系列工作為行業(yè)指明了技術(shù)落地方向,其中合作企業(yè)理想汽車將相關(guān)技術(shù)在其新能源車產(chǎn)品中進(jìn)行了廣泛應(yīng)用落地。
近期,MARS Lab 提出了自動(dòng)駕駛快慢雙系統(tǒng)DriveVLM-Dual,一套基于大模型的可落地的自動(dòng)駕駛方案。DriveVLM-Dual 將大模型和傳統(tǒng)自動(dòng)駕駛方案有機(jī)結(jié)合,大幅提升了大模型的空間理解能力,并且規(guī)避了大模型的推理速度問(wèn)題。 |