Figure发布通用机器人控制模型Helix，人形机器人迎来新突破-AITOP100,AI资讯

Figure发布通用机器人控制模型Helix

与OpenAI结束合作后，Figure发布了其首个重要成果：

Helix，这是一个端到端的通用控制模型，旨在赋予机器人类似人类的感知、理解和行动能力。

通过简单的自然语言指令，机器人便能拿起各种物品，即使是此前从未见过的，例如一个生机勃勃的小仙人掌。

Helix机器人拿起仙人掌

官方演示显示，在接收到人类的指令后，机器人能够按照指示依次拿起桌上的物品并放入冰箱。

Helix机器人执行指令

这展现了一种“机器人默默执行指令”的既定印象。

Helix机器人冰箱交互

更有趣的是，两个机器人甚至可以协同工作，并且它们共享同一组神经网络。

Helix机器人协同工作

加速2倍

接下来，我们深入了解Helix的运作原理。

根据技术报告，这个通用的“视觉-语言-动作”(VLA)模型实现了一系列创新：

完整的上半身控制：Helix是首个能够以高频率（200Hz）连续控制整个上半身的VLA，包括手腕、躯干、头部和手指。

多机器人协作：这是第一个同时在两个机器人上运行的VLA，使它们能够利用从未见过的物品解决共享的远程任务。

拿起任何东西：只需遵循自然语言的指示，机器人就能拿起几乎任何小型家居物品，包括数千种它们之前从未见过的物品。

单一神经网络：与以往的方法不同，Helix使用一组神经网络权重来学习所有行为（拾取和放置物品、使用抽屉和冰箱以及跨机器人交互），无需针对特定任务进行微调。

快速商业化部署：它是首个完全在嵌入式低功耗GPU上运行的VLA，使其能够快速进行商业化部署。

Helix由两个系统组成，这两个系统经过端到端训练，并能够相互通信。

Helix系统架构

系统2：VLM主干，基于在互联网规模数据上预训练的7B开源VLM。它将单目机器人图像和机器人状态信息（包括手腕姿势和手指位置）投射到视觉语言嵌入空间后进行处理。

其工作频率为7-9 Hz，用于场景和语言理解，从而对不同的对象和语境进行广泛的泛化。

系统1：一个80M参数的交叉注意力Transformer，用于处理底层控制。它依赖于一个完全卷积、多尺度的视觉骨干网络进行视觉处理，该骨干网络完全在模拟环境中进行预训练初始化。

它将S2生成的潜在语义表示转化为精确的连续机器人动作，包括所需的手腕姿势、手指弯曲和外展控制以及躯干和头部方向目标。速度为200Hz。

他们在动作空间中增加了一个合成的“任务完成百分比”动作，使Helix能够预测自己的终止条件，从而更轻松地对多个任务进行排序。

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2可以“慢速思考”高级目标，而S1可以“快速思考”以实时执行和调整动作。

训练过程是完全端到端的，从原始像素和文本命令映射到具有标准回归损失的连续动作。

而且Helix不需要针对特定任务进行调整；它保持单个训练阶段和单个神经网络权重集，无需单独的动作头或每个任务的微调阶段。

Figure CEO透露，这项研究历时一年多，旨在解决通用机器人问题。

与人类一样，Helix可以理解语音、推理问题，并且能够抓取任何物体。

就在两周前，Figure宣布终止与OpenAI的合作关系，当时便预告将在接下来的30天内展示“人形机器人前所未见的技术”。

如今，答案已经揭晓，那就是Helix。

Figure CEO

值得注意的是，Helix还代表了一种新型的Scaling Law。

Figure认为，家庭环境是机器人面临的最大挑战。与受控的工业环境不同，家庭中堆满了无数的物品。为了使机器人在家庭中发挥作用，它们需要能够按需生成智能的新行为，特别是对于它们从未见过的物体。

目前，教会机器人一种新行为需要大量的人力。这可能需要博士级专家手动编程数小时，或者进行数千次演示。

这两种方法都成本高昂，因此行不通。

传统机器人训练方式成本高昂

与早期的机器人系统不同，Helix能够即时生成长时程、协作式、灵巧的操作，而无需任何特定任务的演示或大量的手动编程。

Helix 表现出强大的物体泛化能力，能够拾取数千种形状、大小、颜色和材料特性各异的全新家居用品，而这些物品在训练中从未见过，只需用自然语言提问即可。

这意味着，Figure在扩展人形机器人行为方面迈出了革命性的一步。

展望未来，如果Helix扩大1000倍，机器人数量扩展到数十亿级别，将会呈现怎样的景象？我们充满期待。

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html