彩神3B模型打通机器人任督二脉！冲咖啡叠衣服都能干7种形态适配OpenAI也投了

新闻中心 News 分类>>

您所在的位置是：首页 > 新闻中心 > 公司新闻 公司新闻

彩神3B模型打通机器人任督二脉！冲咖啡叠衣服都能干7种形态适配OpenAI也投了

2024-11-05 14:13:12

浏览次数：次

返回列表

　　彩神这些操作背后的大模型叫做π0，参数量只有3B，来自今年刚成立的初创公司Physical Intelligence（简称π）。

　　创立之后不久，π公司就获得了7000万美元（约5亿人民币）的A轮融资，投资者中还包括OpenAI。

　　而公司的目标，就是开发通用的机器人控制模型，现在的π0，就是其首项成果。

　　关键是，参数量只有3B，算力消耗非常小，如果和同规模的模型性能特征相近，廉价显卡就能带动。

　　Hugging Face的机器人团队领军人物、前特斯拉Optimus团队成员Remi Cadene也说，如果π0能开源的话，人们自己在家就能体验了。

　　在官宣当中，π团队展示了叠衣服、整理桌子、鸡蛋装盒等等复杂（对机器人来说）任务。

　　这些任务不仅需要长时间、多阶段的连续决策，还要求动作同时具备高频率与精细程度。

　　许多任务更是涉及了复杂的接触动力学，如衣物的变形塑性、纸箱的刚性、鸡蛋的脆弱性等。

　　机器人需要精准建模并控制这些动力学过程，甚至满足更多物理约束，如保持物体平衡、避免碰撞。

　　但总之最后π团队还是成功了，π0不仅能控制机器人，还能控制不同的机器人，出色地完成这些任务。

　　当然从数据上看，π0在零样本泛化能力、语言控制响应、新任务学习、多阶段任务等维度上也表现优异。

　　零样本泛化能力上，π0在所有任务上都显著超过了baseline模型，即使未加入预训练视觉模型的π0-small也比这些baseline表现优异。

　　指令处理上，π0在3个语言指令任务上，经人类指导取得了最好的自主表现，高层策略指导也有提升。

　　在与预训练数据差异较大的新任务上，π0在大多数任务上性能最好，尤其在微调数据量较小时优势明显。

　　最后在一系列极具挑战的复杂任务上，π团队通过结合微调和语言指令对π0进行了测试。

　　结果π0能够完成折衣服、整理餐桌、组装纸箱、装鸡蛋等长达5-20分钟的任务，取得了50%以上的平均得分。

　　一次完整的前向传播也需要73-86毫秒，这对实时性要求高的场景可能还有挑战。

　　但考虑到流匹配过程能生成50个动作步,平均下来每个动作步的生成时间也并不高。这

　　所以从整体上看，π0的计算效率，或者说实时性，还是比较高的，当然离网友们期待的家家可用，可能还需要再提速一些。

　　π0是基于视觉模型PaLM-ViT改造而成，在其基础上增加了一个投影层、一个多层感知机，以及一个较小的动作专家模块。

　　其中投影层用于处理机器人状态和动作的输入输出，多层感知机用于整合流匹配（flow matching）时间步信息，专家模块则用单独的权重处理机器人状态和动作tokens。

　　图像和语言tokens送入VLM主干网络，状态和动作tokens送入动作专家模块。

　　对于连续动作分布的建模，π0模型使用了条件流匹配（conditional flow matching）方法。

　　流匹配的工作方式和扩散模型有些类似，核心思想都是通过逐步添加噪声来简化数据分布，然后逐步去噪得到隐私数据——

　　训练时，随机对动作施加高斯噪声，并训练模型输出去噪向量场；推理时，从高斯噪声开始，通过数值积分向量场生成动作序列。

　　不同之处在于，流匹配直接对数据和噪声分布之间的映射场（vector field）进行建模，训练目标是匹配这一映射场，而扩散模型通常学习的是每个去噪步骤的条件分布。

　　预训练阶段的数据集中包括OXE、DROID、Bridge等开源数据，以及团队在8个不同的机器人平台中收集的大量灵巧类任务数据等内容。

　　团队自己收集的数据集括68个任务彩神，涉及单臂任务106M步、双臂任务797M步，数据采用了50Hz高频控制。

　　根据任务的难度和相似度，微调数据量从5小时到100多小时不等彩神，一些任务还结合了高层语言策略模块来分解复杂目标。

　　用团队成员切尔西·芬（Chelsea Finn）的话说，预训练是为了让模型能够应对各种场景，后训练（微调）则是让π0掌握更多的策略。

　　公司还有个简称叫做π，因为Physical Intelligence的缩写pi，刚好是π的拉丁转写。

　　虽然是家机器人公司，但π并不生产机器人硬件，只负责训练模型，目标是构建能够通用的机器人模型。

　　对此，π的联合创始人兼CEO卡罗尔·豪斯曼（Karol Hausman）在公开场合解释：

　　我们的目标是通过一个通用模型将AI带入物理世界，这个模型可以为任何机器人或任何物理设备提供动力，基本上适用于任何应用。

　　对于此事的意义，公司另一名联创谢尔盖·莱文（Sergey Levine）在推特上举例说明，π创业要做的事之于机器人控制，其重要程度就像NLP之于大模型。

　　π的创始人背景也都十分亮眼，都是机器人和AI专家，在机器人彩神、工程和许多其他领域拥有深厚经验。

　　CEO卡罗尔·豪斯曼（Karol Hausman），此前曾是谷歌大脑机器人操作研究主管，2021年至今兼任斯坦福客座教授。

　　联合创始人谢尔盖·莱文（Sergey Levine），UC伯克利电气工程和计算机科学系副教授，谷歌学术被引用量为超过12.7万。

　　而且还是不折不扣的顶会狂魔，据不完全统计，莱文2018年在ML和NLP顶会上共发表22篇论文，与另外两人并列全球第一……

　　莱文在UC伯克利还是个网红教授，此前推出的深度学习课程Deep Reinforcement Learning（深度强化学习，课程代号CS 285）非常受欢迎。

　　联创切尔西·芬（Chelsea Finn），斯坦福计算机科学和电气工程系助理教授，谷歌学术论文引用数超4.7万。

　　此外，还有谷歌大脑机器人团队前科学家布赖恩·伊希特（Brian Ichter）、丰田研究院ML研究团队的研究科学家苏拉吉·奈尔（Suraj Nair）等。

　　拥有超级团队的π，也仍在继续招兵买马，在研究科学家、ML工程师、数据工程师等多个岗位招聘员工和实习生。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇：彩神哪种颜色的葡萄吃起来更健康？

下一篇：彩神海口市第七中学学生走进海口旅游职业学校体验咖啡师职业魅力

首页

关于彩神

新闻中心

产品展示

咖啡常识

联系我们

新闻中心 News 分类>>

彩神3B模型打通机器人任督二脉！冲咖啡叠衣服都能干7种形态适配OpenAI也投了

关于彩神

新闻中心

产品展示

服务热线：

13828885590