科普时报记者胡利娟
3月27日,中关村论坛“全球对话”活动现场,由北京中关村学院与中关村人工智能研究院孵化的首家具身智能企业深度机智,发布了首个以人类学习范式构建的PhysBrain1.0具身通用智能基座模型。
PhysBrain1.0以基座模型为核心,融合TwinBrainVLA原创双脑架构与LangForce训练策略,通过海量人类第一视角视频,构建物理常识训练语料库,成功突破具身智能数据获取与模型训练的核心瓶颈,推动模型从“模仿动作”向“理解物理”的关键“范式跃迁”。
此前,全球主流机器人多通过大模型拟合真机或者仿真得到的轨迹数据教机器人“怎么做”,却缺乏对真实物理世界的理解,同一场景,换了不同视角后易识别失效,模型只记住动作却没有学会为什么要这样做。
而深度机智则让机器人像人一样学习,先具备世界物理常识,再执行具体任务。这种“先理解,后行动”的理念,为具身智能发展提供非线性突破可能。
此次推出的PhysBrain1.0具身通用智能大模型,实现了三个层面的核心突破。
一是数据来源创新:从“轨迹数据”到“人类第一视角交互数据”。深度机智率先以人类第一视角交互数据为核心训练语料,通过首创ICDC情境数采体系,无需手部机械装备,在真实场景采集原生多模态数据,让训练数据贴合人类操作逻辑与物理规律,为模型泛化能力奠定基础。
二是数据使用创新:从“简单拟合轨迹”到“提取物理交互常识”。其数据增强管线可提取人类视角视频中的隐性经验,转化为结构化监督信号融入模型,让模型掌握物理因果逻辑,实现从“模仿动作”到“理解物理”的跨越,这是其具备通用智能的关键。
三是模型架构创新:从“记忆动作数据”到“学习世界规律”。该模型采用多模态架构,将物理常识内化于参数;原创TwinBrainVLA“双脑融合”架构解决灾难性遗忘难题,独创LangForce训练方案打破视觉捷径困境,大幅提升泛化成功率。
通过以上创新,PhysBrain1.0首次实现“像人一样思考,同时像人一样行动”。
在国际权威测评中,PhysBrain 1.0在空间智能、具身交互等多个项目中超越多家企业,达到行业SOTA(业界最优)成绩,印证了具身智能中物理常识要比动作模仿更加重要。