我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。
老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师:
做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是系统思考、大胆设计、小心求证;三是“一张纸制度”,也就是无论多么复杂的工作内容,要在一张纸上描述清楚;四是要坚决反对虎头蛇尾,反对繁文缛节,反对老好人主义。
不觉间来到夏初六月,横坐在电脑前,敲击点文字,对自己也算一个时间的记忆,多年后再次点击,也期待那时会像触发记忆的闸口,让现在的这点岁月传递至那时那刻。

端到端自动驾驶研究:通过强化学习与世界模型的协同作用向VLA范式演进
端到端自动驾驶的核心在于通过大规模、高质量的人类驾驶数据来模拟驾驶行为。从技术角度来看,虽然基于模仿学习的方法能够接近人类驾驶水平,但难以超越人类认知的局限。此外,高质量场景数据的稀缺以及驾驶数据集中数据质量参差不齐,使得端到端解决方案难以达到人类级别的能力。高可扩展性门槛进一步复杂化了进展,因为这些系统通常需要数百万个高质量驾驶片段进行训练。
2025年初,随着DeepSeek-R1模型在业界的热议,其创新的纯强化学习(RL)技术路径展现出了独特优势。该方法能够在少量高质量数据下实现冷启动,并采用多阶段强化学习训练机制,有效减少大规模模型训练对数据规模的依赖。这种对“扩展定律”的延伸使得模型能够持续扩展。强化学习的创新也可以转移到端到端自动驾驶中,通过更精确地增强环境感知、路径规划和决策能力,为构建更大、更强大的智能模型奠定基础。
至关重要的是,强化学习框架擅长在交互环境中自主生成推理链,使大型模型能够发展出思维链(CoT)能力。这显著提高了逻辑推理效率,甚至可能突破人类认知的约束。通过与世界模型生成的模拟环境交互,端到端自动驾驶模型能够更深入地理解现实世界的物理规则。这种强化学习驱动的技术路径为算法开发提供了新方法,有望打破传统模仿学习的局限。
1、端到端模型向VLA范式的转变
端到端模型通过神经网络将视觉输入直接映射到驾驶轨迹输出。然而,由于缺乏对物理世界动态的内在理解,这些模型在没有明确的语义理解或逻辑推理的情况下运行。它们无法解释口头指令、交通规则或文本信息。此外,其有限的3D空间感知限制了在长尾场景中的泛化能力。
视觉-语言-动作(VLA)范式通过将大型语言模型(LLM)集成到架构中,引入了关键改进。这将原有的单模态视觉-动作系统转变为结合视觉、语言和动作的多模态框架。LLM的加入为自动驾驶系统注入了类似人类的常识和逻辑推理能力,使其从数据驱动的“弱人工智能”转变为认知智能驱动的“通用系统”。
VLA输入:
来自摄像头、导航系统、地图和其他设备的信号。这些信号由两个编码器处理:
视觉编码器:对图像数据进行编码,提取道路环境的高级特征。
文本编码器:处理来自人机交互的文本信息,如语音指令或参数设置。
VLA输出:
轨迹解码器:将模型生成的信息转换为具体的轨迹信号,规划车辆未来10到30秒的驾驶计划,包括速度控制和路线详情。
文本解码器:同时生成决策的自然语言解释。例如,当检测到行人过马路时,系统不仅规划减速停车轨迹,还输出文本解释,如“检测到行人过马路;减速并停车。”这确保了决策的透明度。
VLA的核心突破:
世界模型构建:VLA从传感器数据中提取丰富的环境信息,利用语言模型解释人类指令,并生成可解释的决策过程。然后,它将多模态输入转换为可执行的驾驶指令。
思维链(CoT)推理:VLA在交互环境中自主生成推理链,实现超越人类认知极限的逻辑推理能力。在大型模型的支持下,VLA增强了超越传统端到端方法的视觉和空间理解能力。
预计到2030年,以VLA为中心的端到端解决方案将占据L3/L4自动驾驶市场50%以上的份额,重塑传统一级供应商的价值链。
2025年,理想汽车将端到端(E2E)和视觉语言模型(VLM)方法集成到先进的视觉-语言-动作(VLA)架构中。这一转变解决了之前双系统框架的关键限制:
限制1:双系统流水线通过3D编码器处理输入(摄像头、激光雷达、车辆姿态、导航),并通过动作解码器直接输出轨迹。然而,其基于判别式AI的E2E模型缺乏泛化能力和常识推理能力,在长尾场景中表现不佳。虽然简单,但在复杂的空间理解和语言交互方面存在不足。
限制2:系统2(语义助手)支持系统1(E2E),但存在技术缺陷。现有的VLM依赖于2D前摄像头数据,忽略了来自环视和后视摄像头的全方位输入。此外,系统2缺乏强大的3D空间理解能力——这是轨迹规划的核心要求。
在VLA架构下,V-空间智能负责3D数据处理和空间理解,配备3D词分割设备;L-语言智能使用MindGPT大型语言模型融合空间标记并处理语义信息;A-动作策略通过集体动作生成器集成决策,生成动作轨迹。MindVLA架构增强了空间信息的标记化(3D Tokenizer)、语言模型的场景理解(MindGPT)和集体动作生成能力(Collective Action Generator),使VLA能够在保持强大的空间语言推理能力的同时,在统一空间中实现视觉、语言和动作三种模式的特征集体建模和对齐,有望解决未来复杂场景中的智能决策需求。
2、VLA模型的训练过程与强化学习的应用
在大型语言模型(LLM)的后训练中,强化学习(RL)的应用日益普遍。例如,今年的杰出模型DeepSeek-R1就利用RL作为核心训练方法。通过设计适当的奖励机制,RL有效激活了基础模型的推理能力。这种在语言模型中已得到验证的技术优势,现已引起自动驾驶行业的已关注,多家制造商正将RL集成到其ADAS技术中。
VLA模型的训练分为两个阶段:“基础模型预训练”和“领域微调”。在预训练阶段,模型通过海量数据获得一般认知能力,如理解上下文、逻辑推理等。在智能驾驶领域的微调阶段,需要通过监督学习建立基本驾驶规则(如车道保持和障碍物识别),然后借助强化学习(RL)完成关键升级。强化学习借鉴了自然语言处理中的成功经验(如RLHF对齐人类偏好),通过“开环+闭环”机制优化驾驶场景中的决策:开环阶段使用历史接管数据校准安全逻辑,闭环阶段通过虚拟场景生成技术(如世界模型)模拟极端工况,使模型能够主动试错并迭代策略,突破传统端到端模型依赖大量标注数据的局限。
模仿学习(IL):
模仿学习中的场景克隆策略(BC)的核心是通过学习人类驾驶员等专家的驾驶轨迹来制定策略。在智能驾驶领域,这种方法主要依赖于分析大量驾驶数据来模仿人类驾驶行为。其优点是易于实现且计算效率高,但缺点也很明显——难以应对未见过的特殊场景或异常情况。
从训练机制的角度来看,场景克隆策略采用开环方式,依赖于分布律的驾驶演示数据。然而,真实驾驶是一个典型的闭环过程,每一步的细微偏差都可能随时间累积,形成复合误差并触发未知场景。因此,通过场景克隆训练的策略在陌生情况下往往表现不佳,其鲁棒性已引起业界已关注。
强化学习(RL)的原理:
强化学习模型通过奖励函数优化动作策略:
强化学习模型在模拟交通场景中持续交互,并依赖奖励机制调整和优化驾驶策略。这样,模型能够在复杂动态的交通环境中学习更合理的决策。然而,强化学习在实际应用中存在明显缺陷:一方面,训练效率不高,需要大量试错才能获得可用模型;另一方面,无法在真实道路环境中直接训练——毕竟真实驾驶场景无法承受频繁试错,成本太高。目前的模拟训练大多基于游戏引擎生成的传感器数据,而真实环境依赖于物体本身的信息而非传感器输入,导致模拟结果与实际场景存在差距。
另一个问题是人类行为对齐:强化学习的探索过程可能导致模型策略偏离人类驾驶习惯,行为不一致。为解决这一问题,在RL训练过程中常将模仿学习作为正则化项集成进来,融入人类驾驶数据以使策略与人类行为对齐。
理想汽车的MindVLA训练方法:
第一阶段:理想汽车VLA模型的训练过程分为四个阶段:VL视觉语言基础模型预训练、辅助驾驶后训练、辅助驾驶强化学习和驾驶员代理构建。其中,VL基础模型的预训练是整个训练系统的核心环节。在早期的双系统阶段,理想汽车使用了阿里通义千问的Qwen-VL视觉语言模型,但在开发最新的VL基础模型时,通过部分集成DeepSeek语言模型能力,理想汽车表示9个月的研究开发周期得到有效缩短,节省了数亿元的开发成本。
基于预训练的基础模型,理想汽车进一步优化技术,并通过模型蒸馏技术生成了一个拥有36亿参数的小型车载端专用模型,以满足车载计算平台的部署要求。
第二阶段和第三阶段:
在云端训练的VLA模型的最终目标是在车载平台上应用。由于车载计算能力与云端存在差异,云端模型需要通过模型压缩技术(如剪枝和量化)进行蒸馏和优化。理想汽车的具体方法是:在完成320亿参数VL基础模型的训练后,首先将其蒸馏成一个适应车载计算能力条件的40亿参数模型。在此基础上,进行强化学习训练,以确保模型既能满足车载计算平台的运行要求,又能保持足够的决策能力。
理想汽车VLA模型训练的第二和第三阶段——辅助驾驶后训练和强化学习可以看作是在智能驾驶领域对基础模型的微调。其中,后训练阶段采用传统端到端解决方案的开环模仿学习方法,而强化学习阶段则结合了开环和闭环模式,成为VLA模型训练的核心改进点。
具体来说:
开环强化学习:使用基于人类反馈的RLHF强化学习机制,主要目标是使驾驶策略适应人类驾驶习惯和安全标准。理想汽车使用积累的人类接管车辆数据进行训练,使模型能够明确区分“合理操作”和“危险行为”,并完成基本驾驶逻辑的校准。
闭环强化学习(RL):通过构建世界模型生成大量虚拟训练和模拟场景,对模型进行高强度迭代训练。这种方法打破了传统依赖真实路况数据的局限,大大降低了实际路测的时间和成本,实现了训练效率的提升。
这两个阶段通过“先对齐人类偏好,再通过虚拟场景进行深度优化”的方式,完成了从基础模型到专用驾驶模型的关键转变。
III. 世界模型与RL的协同应用
世界模型对于端到端自动驾驶的训练、评估和模拟至关重要。它们能够从传感器输入和车辆状态中生成逼真的合成视频,为策略评估和物理规则理解提供安全可控的虚拟环境。
RL训练机制:
世界模型的本质是基于神经网络的模型,能够建立环境状态、动作选择和反馈奖励之间的关联模型,并直接指导智能体的行为决策。在智能驾驶场景中,该模型能够根据实时环境状态生成最优动作策略。更重要的是,它能够构建接近真实动态的虚拟交互环境,为强化学习提供闭环训练平台——系统在模拟环境中持续接收奖励反馈,并不断优化策略。
通过这一机制,端到端模型的两个核心能力有望得到显著提升:一是感知能力,即对车辆、行人、障碍物等环境元素的识别准确度和理解能力;二是预测能力,即对其他交通参与者行为意图的预测准确度。这种从感知到决策的全链条优化是世界模型赋能智能驾驶的核心价值。
华为最近发布的“乾坤智能驾驶ADS 4”也应用了世界模型技术。在其“世界引擎+世界行为模型(WEWA)”技术架构中,云端“世界引擎”负责生成各种极其罕见的驾驶场景,并将这些场景转化为智能驾驶系统的“训练题”,就像模拟测试的“出题考官”。车载端的“世界行为模型”具有全模态感知和多MoE专家决策能力,充当“实践导师”,使智能驾驶系统能够在模拟环境中积累处理复杂场景的经验,实现从理论到实践的跨越。
小鹏汽车最近发布的云端世界基础模型以大型语言模型为核心架构,通过海量高质量多模态驾驶数据完成训练,具备视觉语义理解、逻辑链推理和驾驶动作生成能力。目前,该团队正专注于开发一个拥有720亿参数规模的超大型世界基础模型。云端模型构建了从基础模型预训练、强化学习后训练、模型蒸馏、车载模型预训练到车载部署的全过程技术链路。整个系统采用强化学习与模型蒸馏相结合的技术路线,能够高效生产出体积小、智能水平高的端侧部署模型。
理想汽车的世界模型应用:
在智能驾驶领域,强化学习(RL)面临因环境真实性不足而导致的训练偏差问题。MindVLA依赖于其自主研发的云端统一世界模型,该模型集成了重建和生成技术。其中,重建模型具备还原3D场景的能力,而生成模型能够实现新视角补全和未见视角预测。通过结合这两条技术路径,MindVLA构建了一个接近真实世界且符合物理世界规律的模拟环境,为解决训练偏差问题提供了有效方案。
世界模型涵盖了各种交通参与者和环境元素,构建了一个虚拟真实的交通世界。它采用自监督学习框架,基于多视角RGB图像实现动态3D场景重建,生成包含多尺度几何特征和语义信息的场景表示。场景以3D高斯点云的形式建模,每个高斯点集成了位置、颜色、透明度和协方差矩阵等参数,能够高效渲染复杂交通环境中的光影和空间结构。
依托世界模型的强大模拟能力,MindVLA能够在云端虚拟3D环境中进行数百万公里的驾驶模拟,替代部分实车路测,以低成本准确验证现实世界中的问题,显著提高了效率,并有效应对了模型黑箱带来的诸多挑战。通过在世界模型中进行海量模拟测试和优化,VLA能够不断提升自身的决策和行为能力,真正实现“从错误中学习”,确保在实际驾驶中的安全性和可靠性。

搁笔分享完毕!
愿你我相信时间的力量
做一个长期主义者
© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END


















暂无评论内容