Figure发布通用机器人控制模型Helix
与OpenAI结束合作后,Figure发布了其首个重要成果:
Helix,这是一个端到端的通用控制模型,旨在赋予机器人类似人类的感知、理解和行动能力。
通过简单的自然语言指令,机器人便能拿起各种物品,即使是此前从未见过的,例如一个生机勃勃的小仙人掌。
官方演示显示,在接收到人类的指令后,机器人能够按照指示依次拿起桌上的物品并放入冰箱。
这展现了一种“机器人默默执行指令”的既定印象。
更有趣的是,两个机器人甚至可以协同工作,并且它们共享同一组神经网络。
加速2倍
接下来,我们深入了解Helix的运作原理。
Helix:像人类一样思考的AI
根据技术报告,这个通用的“视觉-语言-动作”(VLA)模型实现了一系列创新:
完整的上半身控制:Helix是首个能够以高频率(200Hz)连续控制整个上半身的VLA,包括手腕、躯干、头部和手指。
多机器人协作:这是第一个同时在两个机器人上运行的VLA,使它们能够利用从未见过的物品解决共享的远程任务。
拿起任何东西:只需遵循自然语言的指示,机器人就能拿起几乎任何小型家居物品,包括数千种它们之前从未见过的物品。
单一神经网络:与以往的方法不同,Helix使用一组神经网络权重来学习所有行为(拾取和放置物品、使用抽屉和冰箱以及跨机器人交互),无需针对特定任务进行微调。
快速商业化部署:它是首个完全在嵌入式低功耗GPU上运行的VLA,使其能够快速进行商业化部署。
Helix由两个系统组成,这两个系统经过端到端训练,并能够相互通信。
系统2:VLM主干,基于在互联网规模数据上预训练的7B开源VLM。它将单目机器人图像和机器人状态信息(包括手腕姿势和手指位置)投射到视觉语言嵌入空间后进行处理。
其工作频率为7-9 Hz,用于场景和语言理解,从而对不同的对象和语境进行广泛的泛化。
系统1:一个80M参数的交叉注意力Transformer,用于处理底层控制。它依赖于一个完全卷积、多尺度的视觉骨干网络进行视觉处理,该骨干网络完全在模拟环境中进行预训练初始化。
它将S2生成的潜在语义表示转化为精确的连续机器人动作,包括所需的手腕姿势、手指弯曲和外展控制以及躯干和头部方向目标。速度为200Hz。
他们在动作空间中增加了一个合成的“任务完成百分比”动作,使Helix能够预测自己的终止条件,从而更轻松地对多个任务进行排序。
这种解耦架构允许每个系统在其最佳时间尺度上运行。S2可以“慢速思考”高级目标,而S1可以“快速思考”以实时执行和调整动作。
训练过程是完全端到端的,从原始像素和文本命令映射到具有标准回归损失的连续动作。
而且Helix不需要针对特定任务进行调整;它保持单个训练阶段和单个神经网络权重集,无需单独的动作头或每个任务的微调阶段。
人形机器人的Scaling Law
Figure CEO透露,这项研究历时一年多,旨在解决通用机器人问题。
与人类一样,Helix可以理解语音、推理问题,并且能够抓取任何物体。
就在两周前,Figure宣布终止与OpenAI的合作关系,当时便预告将在接下来的30天内展示“人形机器人前所未见的技术”。
如今,答案已经揭晓,那就是Helix。
值得注意的是,Helix还代表了一种新型的Scaling Law。
Figure认为,家庭环境是机器人面临的最大挑战。与受控的工业环境不同,家庭中堆满了无数的物品。为了使机器人在家庭中发挥作用,它们需要能够按需生成智能的新行为,特别是对于它们从未见过的物体。
目前,教会机器人一种新行为需要大量的人力。这可能需要博士级专家手动编程数小时,或者进行数千次演示。
这两种方法都成本高昂,因此行不通。
与早期的机器人系统不同,Helix能够即时生成长时程、协作式、灵巧的操作,而无需任何特定任务的演示或大量的手动编程。
Helix 表现出强大的物体泛化能力,能够拾取数千种形状、大小、颜色和材料特性各异的全新家居用品,而这些物品在训练中从未见过,只需用自然语言提问即可。
这意味着,Figure在扩展人形机器人行为方面迈出了革命性的一步。
展望未来,如果Helix扩大1000倍,机器人数量扩展到数十亿级别,将会呈现怎样的景象?我们充满期待。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html