斑马智行行业真首发座舱端侧大模型
在今年的阿里巴巴云栖大会上,斑马(参数|询价)智行(参数|询价)推出了行业首个全模态座舱端侧大模型。
相较于行业主流的云端大模型+端侧小模型的解决方案,端侧大模型解决方案有哪些不一样的特点呢?
01
有热点要蹭,没有热点创造热点也要蹭是汽车行业宣发人员的基本功。
最近,伴随着以人形机器人为代表的具身智能的日益火热,已经开始有人将智能电动汽车称为最大的具身智能体了。

汽车和具身智能乍一听隔得有点远,但其实也不算强蹭热点。
因为,从核心的概念上看,具身智能指的是具备“感知-决策-执行”闭环,能跟物理环境实时交互的物理实体。
对应到智能电动汽车上,自动驾驶系统可以通过摄像头、激光雷达等传感器感知车辆周围环境。
通过大算力的计算平台给出安全、舒适、拟人、高效的决策,再通过线控化的驱动、制动、转向系统控制车辆的行驶动作,妥妥的一个具备感知、思考和行动能力的智能物理实体。

除了始终占据舆论C位的自动驾驶,在智能电动汽车里,另外一个同样具备感知-决策-行动能力的具身智能体是智能座舱。
在过去几年的时间里,各路专家多次宣传汽车正在从单纯的出行工具向自主移动的第三空间演变,“自主移动”对应的是自动驾驶,“第三空间”对应的恰是智能座舱。

端到端大模型的出现、天然具备端到端感知-决策-行动闭环的VLA和世界模型让自动驾驶系统化身为负责出行任务的具身智能体。
同样,斑马智行的Auto Omni全模态端侧大模型也使得智能座舱初步具有了具身智能的雏形。
端侧大模型意味着座舱第一次同时在本地具备了大脑+小脑能力,在主流的云端大模型+车端小模型模式下,智能座舱只是一个依赖云端的割裂式指令执行器。
在端侧大模型的模式下,智能座舱则化身成为可端到端地提供本地化服务的出行智能伙伴。

从指令执行到智能伙伴,座舱第一次跻身了具身智能的大家庭!
02
车企们时时刻刻把“用户体验优先”挂在嘴边,鉴于人机交互直接关系到用户能否顺畅、自然、高效地获取服务并与车辆沟通。
于是,最能决定用户体验的人车交互几乎成了智能座舱功能的全部。在过去的十几年里,人车交互经历了按键-带触控的二维图形界面-语音2D交互-三维空间自然交互的演变。
伴随着多模态大模型技术的进步,人和汽车之间的交互快速从二维平面和单模态输入走向三维空间和全模态自然交互。

古早的按键和图形用户界面被动跟随用户结构化的指令,小模型时代的语音助手可以理解非结构化的自然语言,但只能被动理解用户的意图、执行用户的指令。
进入多模态大模型时代之后,基于单一模态的独立感知走向了基于多种模态的融合感知,在更多模态和维度下,座舱能够更自然地理解用户的意图和上下文。
而且,在可主动感知用户情绪和状态的多种传感器的帮助下,智能座舱开始具备主动感知的能力,驱使着智能座舱由被动智能转向主动智能。

不过,在行业主流的云端大模型+车端小模型模式下,云端大模型和车端小模型之间需要以结构化的信息接口传递人、车、环境的信息,不仅存在信息压缩和损失。
而且,由于隐私、流量的原因,不能或很难将全部的车内外环境、车辆状态、面部表情、手势动作、对话内容发送到云端,信息的压缩、模态的缺失意味着充当大脑的云端大模型无法实现语音、视觉等模式的原生深度融合,最终导致无法实现对用户意图的精准理解和主动服务。
斑马智行的Auto Omni可以端到端地同时处理文本、图像、声音、视频等多种信息,从而以无缝的多模态融合实现了精准的意图理解和深度的场景化主动服务。
03
在目前的AI领域,具身智能和Agent成了两个最为火热的发展方向。具身智能负责解决物理世界的问题,Agent负责解决数字世界的问题。

Agent的核心目的是替代在移动互联时代发展起来的APP。
使用APP时,需要用户事先学习了解APP的使用规则,主动查找、打开、操作,到了安全相关的汽车场景下,车载APP只能被动响应、一步一步地等待用户指令的一系列劣势被进一步放大了。
于是,在智能体Agent近一年来爆火的情况下,AI Agent自然而然地成了智能座舱的下一个发展方向。

在APP时代,需要用户主动发现、下载并打开不同的APP,在各为信息孤岛、将数据和服务封装在内的多个APP之间手动操作才能兑现某种服务。
而在Agent时代,用户只需通过自然语言提出目标,之后便会有一个被称为超级AI助手的主Agent去协调背后多个垂直、专业的服务Agent来自动完成任务。

想象一下,用户说出订一杯咖啡、点一个披萨的需求后,座舱Agent自主规划任务的步骤,自动串接拉通多个垂类Agent,像人类助理那样完成点餐任务。
不仅能实现效率的急速提升,还可以在出行场景下解放用户的双手和大脑,从而保证行车的安全。

不过,APP的Agent化固然是未来的重要趋势,但目前整个行业仍处于早期探索和攻坚阶段。
没有金刚钻儿,就不要揽瓷器活,虽然有一些新势力车企豪言做出了座舱Agent。
但是,显然只有已经建立了深入渗透的开放生态、并与广泛的第三方服务商达成了合作的企业才能真正克服跨应用服务调用的各种挑战。
国内这样的角色只有作为AI软件生态服务商和联合运营商的阿里巴巴、腾讯两家。斑马智行背靠阿里巴巴,自然有这个底气宣传行业首发。
斑马智行Auto Omni同时瞄准具身智能和Agent两个方向,以多模态能力实现对用户复杂意图的深刻理解,通过Agent调用一系列原子能力或元服务自动执行。
可以肯定,自26年起,没有端侧多模态+Agent能力,就不能算合格的智能座舱大模型了。











