昊梵体育网

人形机器人要真正上岗,还差一个很懂人,会来事的大脑Agent

“真正的力量,不是让人形机器人像人,而是让人类敢于变得更像自己。”CyberRobo,是CyberDaily 人形机器人

“真正的力量,不是让人形机器人像人,而是让人类敢于变得更像自己。”

CyberRobo,是CyberDaily 人形机器人栏目

人形机器人这两年好不热闹。

会走路、跳舞、搬箱子、递水、叠衣服....视频里看起来越来越像那么回事。但真要把它放进家里、商场、工厂、仓库,问题马上变得具体起来了:

杯子不在原来的地方怎么办?东西被挡住了怎么处理?不同用户有不同习惯,怎么应对?一句含糊的话,人形机器人能不能自己理解,拆解任务,然后执行....

人形机器人正在进入新的分水岭。无论是行业还是客户的诉求,也正在从「能否完成一个漂亮动作」,转向「能否在混乱的现实环境里,持续完成的普通任务」,甚至,要让人觉得「你懂我」。

这也是 Agent 在具身智能里变得重要的原因。

Agent 从屏幕走向物理世界:开始进入人形机器人的身体

过去,大家谈 Agent,更多是手机和电脑里的行动代理。它可以帮人查资料、写邮件、调工具、跑流程。

OpenClaw 这类架构在AI圈,开发者关注,大模型厂商也陆续把 Agent 放到更重要的位置,本质上大家都指向同一个诉求:不能只让AI回答/生成答案,还要能主动规划,推理和执行任务。

而人形机器人Agent 要面对的物理世界就麻烦太多,可以说难度是另一个级别。

电脑里的文件路径不会突然移动,网页按钮也不会被另一个实物挡住。在物理世界完全不同,物品换位,人的需求也会变化,光线、角度、遮挡、距离都会影响判断。人形机器人不能只会理解一句话,还需要它能理解背后的需求,并且主动正确的兑现需求,所谓真正的懂人的人形机器人

到了这一步,实际上就决定了人形机器人,未来是否可以深入到广阔的物理世界,自主思考,应对复杂环境的随机性,真正能记住规划和执行任务。

5月8日,北京人形机器人创新中心做了一场慧思开物 Agent 主题直播。作为具身智能国家队,北京人形往底层推进了一步:如果人形机器人要大规模进入家庭、商业、工业和物流场景,它需要什么样的物理智能代理的底座?

慧思开物Agent,走得比这波 Agent 热更早

慧思开物并非今年 Agent 热潮之后突然出现的项目。

2025年3月,北京人形发布通用具身智能平台「慧思开物」,当时就提出了「一脑多机」「一脑多能」的方向。过去一年多,北京人形围绕世界模型、VLA、VLM 等具身智能关键技术持续迭代,也把这些能力放到不同机器人本体和真实任务里验证。

这次直播里的慧思开物 Agent,更像是这一年多积累后进化出来的系统形态。

它关心的重点,已经从「机器人能不能听懂一句话」,推进到更复杂的后半程:听懂之后怎么办。机器人要知道物体大概在哪里,识别正在和它说话的人之后,要把一句自然语言拆成动作链,还要在没有明确指令时,从现场变化中发现新的任务线索。

这几个能力连在一起,人形机器人处理任务的方式才会接近真实应用需要的状态。

空间记忆:机器人不能每次都重新认识房间

很多人形机器人现在最大的问题,是太依赖眼前的那一帧画面。

摄像头看见杯子,它知道杯子在那里。如果杯子被挡住,或者机器人换了一个角度,系统就很容易失去判断。现实环境不会为机器人保持整齐,东西经常移动,人也不会为了机器人重新摆一遍桌面。

慧思开物 Agent 的全局场景感知与动态空间记忆系统,解决的是这个问题。

它会记录机器人看过的物体,包括类别、颜色、位置和相互关系,也会随着环境变化不断更新。这样一来,机器人理解的就不只是眼前画面,而是一个持续变化的空间。

这就对落地很关键。

在家里,人形机器人要慢慢熟悉物品通常放在哪里。纸巾可能在沙发旁边,水杯可能经常出现在茶几上,药盒可能在柜子里。到了仓库和工厂,人形机器人要理解货架、物料、通道、工作台之间的关系。即便是物品短暂离开视野,并不意味着任务就要中断。

如果人形机器人每次进房间都像第一次来,它就很难承担长期服务。空间记忆让它开始熟悉一个地方,也让它有机会处理更长链路的任务。

用户记忆:服务不该每次从零开始,人形机器人也能千人前面

人形机器人进入真实生活后,它面对的并非是抽象的「用户」,而是一个个具体的人。

同样一句「我有点渴」,不同人想要的东西可能不一样。有人喜欢可乐,有人喜欢温水,每个人都有固定的饮食习惯。好的服务不会每次都重新盘问一遍,机器人也需要逐渐理解这些差异。

慧思开物 Agent 通过 Face-ID 用户记忆系统,实现拟人化主动交互,通过人脸识别身份绑定,记住用户画像与行为偏好,让机器人不仅能分别出来谁是谁,更可以根据⻓期个性化建模和跨任务上下⽂延续能力。

例如客人来家里,当问及想喝什么时?尽管客人说随意,但人形机器人通过人脸识别匹配,结合历史记忆,就知道这个客人平时偏好喝水,于是主动递上矿泉水,比主人还懂客人。

这些平常的生活日常,恰恰是人形机器人难以处理的任务,你需要关联物理世界的要素太多,需要模拟或想象当见到这个人后,可能发生什么状态。正如英伟达机器人技术总监Jim Fan 最近在红杉资本 AI Ascent 大会上提到一个趋势:大语言模型模拟的是下一个词,而机器人要模拟的是下一个物理世界状态。

因为这背后不只是「拿一瓶饮料」或者「递一张纸巾、一瓶水」。机器人要识别人,理解动作/意图,调用记忆,找到物品,再安全地完成抓取和递送。这背后是一串连续判断。

言出法随:把人话变成机器人能做的事

真实用户很少会说标准指令。

人们不会总是告诉机器人:「请前往茶几区域,识别蓝色水杯,抓取后递送给我。」更多时候,人只会说:「帮我拿下杯子」「我有点渴」「桌子乱了」。

慧思开物 Agent 里的言出法随模块,核心就是把这种自然表达转成任务链。

机器人要先理解用户到底想要什么,再判断需要调用哪些能力。找物品、规划路线、避开障碍、调整抓取方式、递送到合适位置,每一步都要衔接起来。这里面任何一个环节断掉,最后都很难形成真正可用的体验。

所以,言出法随的背后指向的是机器人从「能聊天」到「能办事」的转换。

只有机器人能把一句随口说出的话,变成一组稳定执行的动作,它才有机会进入更普通、更高频的场景。

大模型让机器学会了语言里的上下文。机器人 Agent 要继续往前走,学会物理现实里的上下文。

主动事件驱动:机器人学会发现事情,眼里有活

很多机器人系统还停留在「人说一句,它做一步」的状态。

但现实服务里,很多需求并不是完整地说出口。桌面上东西洒了,可能需要清理;货架物料摆放异常,需要提醒或处理;老人长时间没有动作,可能需要前去看看。

慧思开物 Agent 的主动事件驱动能力,就是让机器人从环境变化里发现任务,通俗来说眼里有活。

在直播中一个高光时刻,轮式人形机器人天轶看到工程师在擦鼻子,就判断他可能流鼻涕了,需要纸巾,于是主动寻找纸巾,递给工程师。这是微妙的地方,对人来说,这些正常不过的举动,背后是一种无声的关怀。

这比等待指令更进一步。机器人开始观察场景中发生了什么,再判断自己是否应该行动。它不需要把所有情况都变成固定脚本,只需“察言观色”,通过感知、记忆和任务规划,把环境里的事件转成行动线索。

这种眼里有活的能力正是许多现实场景需要的,例如在居家养老中,实时照护,日常整理,或者留意老人的举动,提前做出反应;注重服务体验的商业空间里,例如酒店,也能让人形机器人从做接待、递送跨场景到现场协助;而在工业和物流场景里,更是能体现这一潜力,例如快速发现错放、缺料、遮挡等问题。

人形机器人真正进入工作环境后,主动性会变得越来越重要。因为很多任务并不会提前写在清单里,它们就在现场发生。

应用落地,拼的是系统能力

人形机器人行业已经走过了看一个动作有多惊艳的阶段。

会抓取,并不代表能整理好房间;即使会规划,也不代表真机执行稳定。通常,真正进入场景时,问题不会一个个出现,而是一起出现:环境变化、物体遮挡、用户差异、执行误差,会把所有短板同时放大。

这也是为什么,单个能力越来越不够用了。

接下来真正被考验的,是一整套系统能力:机器人如何持续理解空间,长期建模用户,把语言转成任务,如何在事件中触发行动,以及技能如何被开发、复用,并在不同机器人之间迁移。

慧思开物 Agent,本质上是在把这些原本分散的能力,收敛到同一个框架里。

从这个角度看,它更接近于人形机器人应用真正需要的「底座」,而不是某一个功能的提升。

对开发者来说,过去做机器人应用,门槛往往来自重复适配:换一个本体,需要重做一遍能力;换一个场景,技能又要重新开发。

慧思开物 Agent采用模块化、配置化架构,加上低代码开发和「一次开发,多机部署」,本质上是在减少这些重复劳动。

北京人形这次还把两件关键基础设施补上:开物低代码平台和开物应用商店,进一步降低开发门槛,预计很快将推出。前者,通过可视化和拖拽,把机器人技能开发从编程转移到灵活配置,即可部署应用;后者,也让开发好的能力可以共享下载、复用和持续扩展,进入增强应用的生态循环。

从底层硬件,到中间的慧思开物框架,再到上层开发和分发工具,北京人形在搭一整套具身智能开发者生态。而当开发成本降下来,应用才有可能规模化出现,否则,行业很容易长期停留在定制项目阶段。

国家队在把底座铺厚

把视角再往上拉一层,慧思开物 Agent就不只是技术路径的问题,而是应用规模化的解决方案。

具身智能仍处在早期阶段,很多能力都属于典型的「共性问题」:空间记忆、任务规划、跨本体部署、技能开发、应用分发。这些能力如果由不同公司各自重复建设,很难形成效率,也很难形成统一生态。

这也是北京人形做慧思开物的意义价值所在。

相比单一产品,它更像是在搭一个开放底座:一方面继续推进具身智能「大脑」的核心能力,另一方面把开发框架、技能体系和应用接口逐步开放出来。

这样,开发者、集成商、机器人厂商和场景方,可以围绕同一套基础设施去扩展,而不是各自从零开始。

从产业分工的角度看,这也是「国家队」更适合承担的位置:

不只是做出一个更强的人形机器人,而是把那些行业绕不开的共性能力先沉淀下来,让后面的参与者可以在高的起点上继续往前走。

写在后面:人形机器人真正上岗,需要一条更现实的路

人形机器人最终要创造价值,是在家庭、商业、工业、物流等现实场景能力,持续作业

这需要人形机器人拥有记忆,理解人,能规划,会操作...以及可复制扩展。

慧思开物 Agent 这次直播呈现的,正是这样一条路径:用空间记忆理解环境,用用户记忆理解个体,用言出法随连接语言与行动,用主动事件驱动让机器人发现任务,再通过低代码和多机部署把能力开放给生态。

这不仅是北京人形又发布了一个物理智能Agent。

更重要的是,它说明具身智能行业正在进入一个新阶段:大家开始从机器人能展示什么,转向机器人能稳定承担什么工作。

当严肃对待这个问题时,人形机器人离真正上岗也就越近了。