中國頭部智駕廠商小鵬汽車的掌門人何小鵬曾經發表過一個觀點,端到端只能實現L3,端到端+大模型才能實現L4。這是嚴謹的技術研判,還是拍腦袋的一家之言?
01
偷換概念,固然有利于產品的宣傳,卻有可能把大家的認知搞得一團糟。端到端成了自動駕駛行業最火的營銷熱詞,沒有之一。
大模型破圈效應更大,GPT的逆天實力東一句、西一句地多次灌到普通消費者的耳朵里。
端到端大模型的概念被少數車企和智駕方案商宣傳了好長一段時間,在從業者群里逐漸變得耳熟能詳。
不過,當前的自動駕駛系統能力確定無疑地處于L2++階段,既然端到端+大模型才能實現L4,“端到端大模型”這個概念便有偷梁換柱之嫌。
實際上,端到端和大模型確實是兩個不同的概念。
談概念,就要一竿子扎到底,回到技術的原點去看一看。
與端到端相對的是規則+算法的分模塊方案。
與傳統的分模塊方案相比,端的端方案有兩個最根本的不同點,一則是傳統的分模塊自動駕駛系統劃分為感知-決策-執行三個模塊,每個模塊之間都有非常明顯的界限。
二則是傳統方案是規則加算法,端到端方案是全面AI化、模型化。
與生成式AI大模型相對的是基于判別式AI的小模型。
這兩者的區別在于判別式AI屬于判定模型,它的基本原理是從大量的訓練數據集中學習并總結出決策邊界,從而預測數據的標簽。
比如說,在BEV的視角下,行人、二輪車、三輪車、乘用車、大卡車、錐桶……每一個事物的種類都分得明明白白。
生成式模型則是估計各種類型的數據分布,比較不同類型下生成數據的概率,它的側重點在于生成新的數據。
比如,正慢慢變得火熱并有望在2025年成為自動駕駛行業最火營銷熱詞的世界模型,它的主要作用就是生成在不同的駕駛策略下的攝像頭視角。
再進一步總結一下,端到端是系統結構形式從規則向AI的轉換,大模型是AI從判別式AI向生成式AI的轉變,很明顯是兩種不同的概念。
02
沒有調查就沒有發言權。
一家車企或智駕方案供應商要在傳統端到端方案之外開辟第二戰線,上馬生成式AI大模型這種特別消耗人力、物力、金錢、時間的新技術,肯定經過了非常仔細縝密的調研。
傳統端到端之所以要+大模型,必定是因為大模型能夠解決現有方案無法解決的痛點。
畢竟,大部分公司都在虧錢,不至于像西紅柿首富那么豪橫,非要把錢花在刀把上。
在2023年的CVPR會議上,小鵬汽車自動駕駛高管分享過在廣袤的中國大地上做自動駕駛需要克服的三方面挑戰:層出不窮、無視交通規則的交通參與者,復雜難解、特別考驗空間幾何能力的道路拓撲,任性且魔性、神鬼莫辨的交通標識。
這三個方面的挑戰或痛點,端到端方案來了也只能望洋生嘆。
傳統的端到端方案固然可以消除冗余,通過對計算資源的集約化使用增加車端神經網絡的參數量。
但是,即便是參數翻倍,也解決不了上面三個挑戰。
車端模型都是由云端模型壓縮而來,參數量有著幾十倍的差距,云端模型好使的話,蘿卜快跑也不用配備云端駕駛員了。
因為,參數翻倍是無法實現從感知能力到認知能力的升維。
比如對于第一項挑戰-人車混雜的城區交通場景中的動態物體,比識別物體種類更加重要的是,能否建立足夠的通用認知能力,并通過對長時序信息和當前交通環境下復雜語義信息的捕捉理解交通參與者的意圖。
至于包含各種顏色、圖案、數字、文字信息且形狀各異的交通標識,就更加讓人抓狂了,沒有大語言模型的通用理解能力,小模型注定在各種長尾面前無能為力。
所以,無論是對交通參與者的意圖理解,還是對繁雜多變的交通標識的語義理解,都需要仰仗生成式AI大模型超強的理解能力,才有可能解決這些感知長尾和決策長尾。
03
魯迅先生說,這世上本沒有路,走的人多了,也就有了路。在端到端大模型這條路上,已經有了越來越多的選手。
蔚來、小鵬、理想們紛紛將生成式AI大模型搬進車端自動駕駛系統里。
龍生九子,各有不同,正如各家的端到端模型架構各有千秋一樣,蔚小理在自動駕駛大模型上做出了各自的技術選擇。
或許是因為有4顆Orin X芯片在手,算力比較從容,又或許特斯拉選擇了世界模型這條路線,在自動駕駛大模型上,蔚來汽車的世界模型成了蔚小理三家方案中最為硬核的存在。
它的基本原理是根據車端傳感器采集的當前視頻數據、本車狀態和對其它交通參與者意圖的判斷,推演左轉、直行、右轉后的場景,根據安全、舒適、效率最大化、社會影響最小化的策略,選擇一條最佳的行駛軌跡。
小鵬的大語言模型體現在其端到端方案中的XBrain模塊上面,對應去年在CVPR會議上痛陳的那幾個挑戰,它可以用于對動態物體的意圖判斷、對路牌文字、待轉區交通標識的識別。
7月初,理想汽車召開智能駕駛發布會,宣布推送分段式端到端無圖NOA,并發布了“本土首個”一體式端到端方案,并且“行業首創”端到端+視覺語言模型的雙系統方案。
這里的視覺語言模型就是疊加了視覺模態的大語言模型。值得一提的是,在國內車圈,發布絕不等同于推送。
從理想汽車展示的視覺語言模型的能力來看,其作用和小鵬汽車的XBrain有異曲同工之妙。
在這三家的方案中,蔚來汽車含金量最高。世界模型涉及到對時空的理解和對物理規律的理解,本質上是三維空間智能,空間智能正是AI教母李飛飛的創業方向。
小鵬和理想汽車方案的本質依然是一維文本智能,和世界模型背后的空間智能不可同日而語。
李想6月份高調公布了理想汽車在智能駕駛上的目標-一年內實現L3,三年內實現L4。
做一下閱讀理解,李想認為,端到端可以實現L3,端到端+視覺語言模型可以實現L4,和何小鵬的觀點可謂不謀而合!