“防御性駕駛是我們訓(xùn)練中的核心目標(biāo),我一直強(qiáng)調(diào):必須讓AI學(xué)會害怕,這才是對安全真正的重視。”8月26日,在元戎啟行VLA模型上市發(fā)布會上,元戎啟行創(chuàng)始人、CEO周光強(qiáng)調(diào),VLA的核心能力是思維鏈和長時(shí)序推理,而這能讓系統(tǒng)較好地實(shí)現(xiàn)“防御性駕駛”。
這是元戎啟行成立六年以來首次舉辦的發(fā)布會。在這場發(fā)布會上,元戎啟行強(qiáng)調(diào)了其所具備的兩項(xiàng)能力。一是VLA技術(shù)的防御性駕駛能力,以及其所代表的技術(shù)先進(jìn)性;二是商業(yè)化能力,以及其所代表的量產(chǎn)新階段。
其中,元戎啟行對“防御性駕駛”標(biāo)簽的強(qiáng)調(diào),不禁讓人想起今年8月,小鵬汽車在介紹全場景VLA功能時(shí),提及多個(gè)“防御性駕駛”功能。7月,理想汽車發(fā)布VLA司機(jī)大模型,指出其能夠通過防御性駕駛帶來更加安全的輔助駕駛體驗(yàn)。更早之前的6月,周光在“2025未來汽車先行者大會”上就透露,元戎啟行的VLA模型主打“防御性駕駛”。
此前,在智駕行業(yè)中,不少觀點(diǎn)視加塞等帶有進(jìn)攻性的駕駛動作為“靈活”的象征。基于此,“防御性駕駛”的標(biāo)簽較為獨(dú)特。對一家鋒芒畢露的年輕智駕公司而言,這似乎顯得不夠有“攻擊力”。
但從技術(shù)邏輯上來看,防御性駕駛這一“VLA三劍客”不約而同的“標(biāo)語”,正在開啟智駕技術(shù)的下一輪競速。周光表示,VLA模型的下限已經(jīng)超過第一代端到端方案的上限。從市場層面來看,2025年以來,浮躁的智駕宣傳受到管控,消費(fèi)端對智駕安全性的需求明顯提升。
而在詳細(xì)介紹VLA模型之前,周光先介紹了元戎啟行的商業(yè)化進(jìn)度,這充分表明了其對商業(yè)化的重視。
“目前我們的量產(chǎn)車輛已接近10萬臺,這個(gè)數(shù)字在行業(yè)內(nèi)屬于第一梯隊(duì)。”周光表示,截至目前,公司已獲得超過10款車型的定點(diǎn)合作,預(yù)計(jì)第四季度交付量還將進(jìn)一步提升。基于搭載VLA模型的DeepRoute IO 2.0平臺,元戎啟行已達(dá)成5個(gè)定點(diǎn)合作項(xiàng)目,首批量產(chǎn)車即將進(jìn)入市場。
他還透露,目前15萬元以上的車型都可以適配VLA模型,10萬元級別的車型通過優(yōu)化也有機(jī)會搭載。
伴隨著元戎啟行在技術(shù)、商業(yè)化層面雙雙突破瓶頸,這家多被外界冠以“技術(shù)極客”標(biāo)簽的年輕公司摩拳擦掌。防御性駕駛的能力,正在成為VLA最好的“進(jìn)攻”標(biāo)志。市場對VLA的認(rèn)可度,又將決定元戎啟行們能否在殘酷競爭中占得先機(jī)。
01 以“守”為“攻” 打破第一代端到端瓶頸
元戎啟行是最早在國內(nèi)智駕領(lǐng)域提出VLA架構(gòu)的企業(yè)之一。此前,其曾數(shù)次實(shí)現(xiàn)對先進(jìn)技術(shù)的預(yù)判。在2023年初,其實(shí)現(xiàn)了無圖方案。2024年,其率先實(shí)現(xiàn)了端到端輔助駕駛的量產(chǎn)。兩次技術(shù)路線押寶的成功,為其積累了一定技術(shù)聲量。
不過,前兩次的技術(shù)變革帶來的效果變化,實(shí)際上是讓系統(tǒng)更靈活、更“激進(jìn)”。比如,無圖之后,沒有高精地圖覆蓋的區(qū)域,也能實(shí)現(xiàn)智能駕駛;端到端上車之后,在復(fù)雜場景下,車輛表現(xiàn)得更靈活、擬人,不會呈現(xiàn)死板的“規(guī)則感”。
這也與部分消費(fèi)者的觀感相符。在社交媒體的用戶反饋上,像“老司機(jī)”一樣的“加塞”“快速變道”等大膽決策,以及其所代表的“進(jìn)攻性”駕駛風(fēng)格往往被視作“靈活性”的表現(xiàn)。
但這一次,元戎啟行為何選擇了看似效果更“保守”的防御性駕駛,來作為更先進(jìn)的VLA模型的標(biāo)簽?
其實(shí),死板、不靈活是外界對“防御性駕駛”的誤區(qū),實(shí)際上其在道路上攻守兼?zhèn)洹?/strong>在行車過程中,“防御性駕駛”也是比“進(jìn)攻性駕駛”更難的駕駛風(fēng)格,需要更多預(yù)判,甚至預(yù)判別人的預(yù)判,從而保障安全,不出意外。
據(jù)周光介紹,面對空間遮擋,當(dāng)前BEV或CNN端到端的邏輯是看不見等于不存在,但VLA模型卻會在有盲區(qū)的情況下,推斷可能有外賣小哥出現(xiàn),并采取防御性策略。在右轉(zhuǎn)或山路行駛時(shí),系統(tǒng)會像人類一樣減速、鳴笛,提示他人注意。
類比到體育賽事中,有種說法是 “防守贏得比賽,進(jìn)攻贏得觀眾” 。觀眾追求感官沖擊,進(jìn)攻的主動突破、頻繁射門等受到追捧。但進(jìn)攻的同時(shí)兼顧防守,實(shí)時(shí)推理對方行動規(guī)劃,合理分配注意力,其實(shí)更能決定比賽結(jié)果的“下限” 。不過,其價(jià)值卻因被動、隱性而需結(jié)合局勢才能被感知。
“預(yù)判”需要思考邏輯,需要推理決策。從技術(shù)角度來看,這為智駕系統(tǒng)帶來了較大挑戰(zhàn)。在周光看來,VLA是讓系統(tǒng)具備推理能力的一個(gè)“解”。
VLA的種子,在2024年6月被埋下。彼時(shí),周光乘坐測試車經(jīng)過公司附近的一處紅綠燈,一個(gè)交通牌提示"車輛左轉(zhuǎn)不受燈控",測試車依舊停下等待紅燈變綠。他開始意識到:人類司機(jī)能瞬間理解這類特殊場景,但即便是當(dāng)時(shí)最接近人類駕駛能力的端到端模型,也因無法理解文字路牌未能通過。9月,VLA模型就被提升為公司級研發(fā)項(xiàng)目。
VLA的全稱是Vision Lnguage Action Model,即視覺-語言-動作模型。周光介紹,從技術(shù)層面來說,VLA模型可以稱為“基于GPT(基于Transformer的架構(gòu))的端到端模型”,這與傳統(tǒng)的CNN(卷積神經(jīng)網(wǎng)絡(luò))端到端模型有本質(zhì)區(qū)別。
從效果上來看,相對CNN,GPT的主要優(yōu)勢是擁有更強(qiáng)的語義和邏輯推理能力,這對智駕的推理決策至關(guān)重要。用一個(gè)更易理解的比喻,人類在面對問題(比如“VLA模型是不是劃時(shí)代的技術(shù)?”)時(shí),絕大多數(shù)情況都需要用語言來形成思考邏輯,而很難用圖片來思考問題的答案。

“VLA模型融合了語言模型,具備強(qiáng)大的思維鏈能力,能擺脫傳統(tǒng)端到端模型的黑盒難題,并將信息串聯(lián)、分析,從而推理出因果關(guān)系。此外,它天然集成海量知識庫,泛化能力更強(qiáng),能夠更好地適應(yīng)復(fù)雜多變的真實(shí)道路環(huán)境。”周光表示,長遠(yuǎn)來看,語言和推理能力是實(shí)現(xiàn)完全無人化自動駕駛的核心。
具體來看,元戎啟行的VLA模型具備了四大基礎(chǔ)功能:其一是空間語義理解,能還原復(fù)雜環(huán)境,尤其針對盲區(qū)場景;其二是異形障礙物識別,識別各類車輛和物體;其三是文字類引導(dǎo)牌識別,有效理解臨時(shí)標(biāo)志、道路文字,減少誤判與違章;其四是記憶語音控車,支持“快一點(diǎn)/慢一點(diǎn)”等基礎(chǔ)指令,還能記憶用戶偏好。
搜狐汽車在體驗(yàn)元戎啟行VLA模型的過程中發(fā)現(xiàn),在經(jīng)過橋洞、丁字路口等存在盲區(qū)的場景時(shí),該系統(tǒng)基本都能夠?qū)崿F(xiàn)提前減速或停車觀望,謹(jǐn)慎、絲滑地做出行駛決策。與此同時(shí),其識別達(dá)到的道路文字、部分思維鏈也能以文字的形式呈現(xiàn)在車機(jī)屏幕上。
“目前,VLA模型的下限已經(jīng)超過(第一代)端到端方案的上限。”周光表示,第一代端到端系統(tǒng)正逐漸觸及性能瓶頸。當(dāng)前以CNN為載體的模型,無論用多少數(shù)據(jù)或額外訓(xùn)練手段,其提升空間已非常有限。
綜合來看,VLA最突出的優(yōu)勢,表現(xiàn)在優(yōu)秀的推理、預(yù)判能力,而推理思維鏈最直接的體現(xiàn),又在于“防御性駕駛”能力上。對元戎啟行VLA模型而言,“防御性”的駕駛,實(shí)際上是一次進(jìn)階的技術(shù)進(jìn)攻。
02 技術(shù)與商業(yè)平衡
除了技術(shù)先進(jìn)性,發(fā)布會上,元戎啟行還主動展現(xiàn)出了此前很少表現(xiàn)在大眾眼前的務(wù)實(shí)。最顯著的特征就是,其在VLA模型上展現(xiàn)出了強(qiáng)大的兼容性。

第一個(gè)兼容是對不同感知硬件方案的兼容。與一些業(yè)內(nèi)旗幟鮮明地支持純視覺或融合感知方案的公司不同,其搭載VLA模型的DeepRoute IO 2.0平臺同時(shí)支持激光雷達(dá)融合感知方案和純視覺方案。
“短期來看,激光雷達(dá)受限于技術(shù)發(fā)展和數(shù)據(jù)集的成熟度,仍有其價(jià)值;長期來看,大模型有望逐步解決現(xiàn)在依賴激光雷達(dá)的部分任務(wù)。”周光表示,激光雷達(dá)目前對通用障礙物識別仍有重要作用,但隨著大模型技術(shù)的發(fā)展,視覺會在感知中扮演越來越重要的角色。
第二個(gè)兼容是對車端多芯片平臺的兼容。VLA模型的研發(fā)和訓(xùn)練與車端芯片無關(guān),但在訓(xùn)練完成后會在車端部署適配。目前,海外大廠如英偉達(dá)、高通,國內(nèi)芯片公司如地平線、黑芝麻等芯片均在車企打造產(chǎn)品的選擇范圍內(nèi)。能夠兼容多芯片平臺,意味著能夠擁抱更廣闊的潛在用戶,同時(shí)也會增加工程部署的工作量
“芯片適配有一定要求,比如基礎(chǔ)算力、帶寬等。模型訓(xùn)練完成后會經(jīng)過蒸餾和量化,適配需要滿足基本條件。合作中車廠可以提出芯片需求,適配成本(時(shí)間、資金、數(shù)據(jù))都是可協(xié)商的。我們目前以某款芯片為起點(diǎn),未來會支持更多芯片,并不局限于一家。”周光說。
第三個(gè)兼容是價(jià)格上的兼容。感知硬件、芯片占據(jù)了很大一部分智駕系統(tǒng)部署的成本,能夠兼容不同的方案,就讓元戎啟行VLA模型有了更大的范圍空間。周光透露,目前15萬元以上的車型都可以適配VLA模型,10萬元級別的車型通過優(yōu)化也有機(jī)會搭載。
此前,元戎啟行量產(chǎn)車型如、、坦克500的價(jià)位,多數(shù)在30萬級以上,戰(zhàn)略合作伙伴smart也定位中高端。進(jìn)入15萬級甚至可能進(jìn)入10萬級的車型價(jià)格地帶,意味著元戎啟行VLA將進(jìn)入中國汽車市場的腹部,逐漸進(jìn)入走量、平攤成本并持續(xù)投入研發(fā)的良性循環(huán)。
不過,挑戰(zhàn)仍然存在。雖然目前,Momenta、卓馭等多家智駕廠商并未在技術(shù)先進(jìn)性上展現(xiàn)突出特點(diǎn),但相對而言在客戶數(shù)量、總體規(guī)模和交付量上有一定優(yōu)勢。并且,要在更低的價(jià)格地帶做好智駕,布局成本可能遭受較大考驗(yàn)。在汽車行業(yè)內(nèi)卷尚未徹底停歇、主機(jī)廠仍處于高度緊張競爭狀態(tài)的情況下,需要較大算力的VLA模型面臨一些成本挑戰(zhàn)。
而面對汽車產(chǎn)業(yè)鏈的整體困局,元戎啟行和周光抱有長期主義式的態(tài)度。
“行業(yè)整體面臨挑戰(zhàn),尤其隨規(guī)模擴(kuò)大,對產(chǎn)品體系要求更高。需始終保持敬畏之心。良性競爭有利于行業(yè)發(fā)展。”“宣傳需理性,避免過度承諾,尤其在安全方面。技術(shù)發(fā)展需時(shí)間,需正確引導(dǎo)用戶預(yù)期。監(jiān)管與行業(yè)自律也很重要。”從“防御性駕駛”到“理性宣傳”再到“良性競爭”,周光沒有像特斯拉創(chuàng)始人、CEO馬斯克一樣極端地推崇技術(shù),而是更多回歸了理性。
在技術(shù)進(jìn)攻與防御駕駛之間,在理性競爭與感性市場之間,元戎啟行邁入新階段,也正迎接市場的檢閱、友商的挑戰(zhàn)。