12 月 18 日,北京人形呆板人立异中央正式开源海内首个且独一经由过程具身智能国标测试的具身VLA年夜模子 XR-1,以和配套的数据基础RoboMIND 2.0、ArtVIP 最新版。基在上述开源结果,可以或许鞭策具身智能行业追寻最素质需求,让呆板人真正于各种运用场景下能干活而且会干活,鞭策海内具身智能行业迈向“全自立、更好用”的新阶段。 聚焦“让呆板人能干活、会干活”的焦点诉求,北京人形打造了通用呆板人平台“具身天工”、通器具身智能平台“慧思开物”。缭绕“具身天工”平台,北京人形已经发布具身天工2.0、天轶2.0等多类型通用本体,为人形呆板人干活奠基物理本体基础。而具身年夜脑及小脑的协同是人形呆板人干活的另外一条件,今朝缭绕“慧思开物”,北京人形已经开源WoW(我悟)世界模子及Pelican-VL(天鹕)等具身年夜脑相干结果。 本次开源的系列内容,是面向具身小脑能力的VLA模子XR-1,以和为XR-1等模子提供数据练习撑持的RoboMIND 2.0及ArtVIP。 XR-1 ——让呆板人拥有“本能”,跨过“看到与做到”的鸿沟 当前,具身智能行业面对着一个焦点痛点:AI 技能虽能实现文本创作、视频天生等虚拟场景运用,但呆板人于物理世界中往往难以完成 “拿工具”、“递工具” 等基础使命。这暗地里是 “视觉感知” 与 “动作履行” 的割裂。 呆板人虽能辨认物体,却只能依靠预设指令履行动作,犹如 “只会死记硬违的笨学生”,一旦情况呈现微小变化便会掉效。为啃下这块技能硬骨头,北京人形聚焦焦点技能攻坚,打造出具有 “知行合一”能力的XR-1具身小脑年夜模子。 于本年8月的WRC世界呆板人年夜会上,北京人形正式发布了跨本体VLA模子 XR-1,它具有多场景、多本体、多使命特征,而且还有拥有高泛化性等上风特色。 暗地里的技能道理于在,XR-1具有跨数据源进修、跨模态对于齐、跨本体节制三年夜焦点支柱能力。起首,经由过程跨数据源进修让呆板人可以或许使用海量人类视频举行练习,降低练习成本晋升练习效率;其次,依赖跨模态对于齐可以或许打破视觉及动作的隔膜,让呆板人做到真实的知行合一;末了,借助跨本体节制可让XR-1快速匹配差别类型、差别品牌的呆板人本体。 此中,北京人形首创的UVMC(多模态视动同一表征)技能是要害,经由过程它,可以或许搭建起视觉与动作的映照桥梁,让呆板人将看到的画面刹时转化为身体的本能反映,像人类前提反射般天然做出准确的应答动作。例如:呆板人于履行倒水使命中看到正于倒水的杯子被拿走了,就本能地住手倒水,当杯口被遮住,就天然地扒开遮住的人手,继承倒。 这一要害的技能立异让呆板人具有了“本能反映”,可以游刃有余地应答繁杂多变的实际世界,以和事情场景中的突发环境,从而真正做到全自立完成事情使命。-jinnianhui
