机器之心报道
编辑:泽南、张倩
(资料图片)
从零开始,不到半年就造出人形机器人,还自带软硬件体系。
大模型技术的新一波浪潮:具身智能,已经有了重要进展。
刚刚,稚晖君的创业公司「智元机器人」开了自己的第一场发布会。
以「天才少年」身份加入华为的稚晖君(彭志辉)于去年底宣布离职创业,人们都在关注他在机器人与大模型方向探索的新实践。今天在上海,他成立的智元机器人终于发布了首款产品「远征 A1」。
在现场,机器人走上了讲台,这是稚晖君创业以来交出的第一份答卷。
远征 A1 不仅长得像人,也有着近似人类的一系列数据:它身高 175cm,重 53kg,最高步速达到 7km/h,全身有 49 个自由度,可以承重 80kg,单臂最大负载 5kg。这款机器人在双足行走、智能任务、人机互动等领域展现了业界领先的能力。
稚晖君表示:「远征 A1 是我们的第一台通用型智具身智能机器人,它融合了各种先进的本体控制、感知、认知和决策的智能技术,基于当前 AI 领域前沿的大语言模型,以及我们自研的视觉控制模型,完成了一系列创新。」
此前,很多机器人产品大多具备 20 余个自由度。据介绍,远征 A1 的 49 个自由度是考虑到实际应用场景,如汽车生产过程中整理线束、拧螺丝、总装等任务来确定的。它虽然是个人形机器人,但从一开始就面向工业制造:
未来也可以成为人们日常生活的助手:
「远征 A1」是模块化的,可以面向不同任务,自己给自己换组件:
稚晖君表示,把机器人做得像人,是因为现在的世界一直是为人形态而设计的,人形机器人可以在大量工作中直接应用现有工具、任务和场景,同时更具有亲和力。但想让机器人模仿人类,需要在机械设计、运动和感知等方面解决很多挑战。
自研电机,模块化设计
用两条腿来走路,又能够拥有生产力,这意味着硬件设计要有强大的能力。智元机器人构建了一套自研的硬件系统,包括关节电机、灵巧手等。如果从零部件算,整个机器人的国产化率在 80% 以上。
自研核心关节电机 PowerFlow
如果想让人形机器人行动灵敏、准确,它的关节需要满足很多条件,比如体积小、重量轻、功率密度高、能量利用效率高、响应带宽高、耐冲击等等。其中,核心关节不仅是让人形机器人更加灵活、更加自由的关键,也是未来实现规模量产、低成本制造的重要门槛之一,稚晖君在现场解释说。
为了实现这些目标,智元团队自研、设计了一款专用关节 ——PowerFlow。
这个关节采用了准直驱的方案,它的优点是功率高、不需要传感器(可以用电机电流判断力矩),通过电流直接做力矩控制,价格低。
为了增加功率密度,远征 A1 的关节模组还集成了液冷循环散热系统。搭配上自研的一体化矢量驱动控制器,整个关节的峰值扭矩可以达到 350Nm。不过,稚晖君表示,他们还没有测到扭矩的真正上限,估计潜力比想象中高。而且,由于水冷散热的加持,它可以保持更长时间的峰值扭距输出,而重量仅为 公斤。
这个关节还有个非常有意思的设计,它让机器人的膝关节向后弯曲,而不是和人一样向前。稚晖君解释说,这是为了让机器人干活更加方便,毕竟再好的人造关节也不可能让机器人像人一样那么灵活,反屈膝关节的设计可以让它拥有更大的操作空间。
自研灵巧手 SkillHand
要想让机器人更好地干活,手是另外一个关键部件,因此智元研发了灵巧手 SkillHand。这个灵巧手有 12 个主动自由度、5 个被动自由度,而且所有驱动都是内置的。
考虑到这个灵巧手未来将面对精密制造场景,智元在它的指尖安装了一些传感器。其中,视觉传感器可以分辨操作物的颜色、材质。基于各种算法的数据融合,指尖还可以做到近似的触觉压力传感器效果。由于这些传感器可以帮助机器人实现末端的视觉闭环,整机的电机精度需求得以降低。
有意思的是,如果场景需要,这个机器人其实可以自主更换灵巧手,比如把手换成螺丝刀。稚晖君说,这是模块化设计思想在他们机器人中的体现。类似的模块化设计还可以让机器人由腿式变成轮式,「这是它通用性的一个体现」。
全套 AI 框架
如何让通用机器人实现低成本量产,产生实际应用价值?稚晖君表示,硬件只是前提条件之一,更重要的其实是背后的机器人大脑。
在当前的具身智能领域,很多研究都在尝试将大模型作为机器人的大脑,稚晖君也不例外,他也想用多模态大模型的能力赋能智元机器人的行为动作编排。在智元机器人上个月发布的一个视频中,我们已经看到了这个想法的初步实现,比如给出自然语言指令「把离你最近的木块放到紫色的方块右边 3 厘米」,机器人就会按照指示行动。
稚晖君把这个机器人背后的大模型叫做 WorkGPT,这是一个百亿级参数的大模型。
在稚晖君看来,语言和图像大模型对于机器人领域应用最大的价值在于两个方面,一是庞大的先验知识库和强大的通识理解能力,比如你不用告诉它什么是垃圾,它就能自己分辨出来;二是复杂的语义多级推理能力,即所谓的「思维链」,这体现在它可以把复杂的指令分成一个一个的步骤。
「在大模型时代到来之前,机器人都是专用设备,我们需要针对性地对每一个任务进行调试和部署。现在利用大模型的各种通识能力和举一反三的推理能力,我们可以看到解决这些问题,然后最终走向通用机器人的一道曙光。」稚晖君说。
所以,在智元,他们打造了一个名为 EI-Brain 的具身智脑框架。在框架中,机器人系统被分为不同层级,包括部署在云端的超脑,部署在端侧的大脑、小脑以及脑干,分别对应机器人任务不同级别的技能,包括技能级、指令级、伺服级等。具体来说,「大脑」负责跟我们人类一样进行抽象思考、多级推理,「小脑」负责运动控制方面的一些指令生成,「脑干」负责电机控制、伺服等硬件底层任务。
如果端侧模型泛化能力不够,系统可以去连接云端,实现更复杂的任务调度;另一方面,偏向于硬件底层的电机控制等工作都在本地甚至模块中完成。
「这类似于自动驾驶上 L1 到 L5 的不同分级 —— 想要构建全场景通用的智能机器人,存在不同的发展阶段,」稚晖君表示。「我们定义了一系列 Meta skill,在语言操作库范围限定的有限泛化的场景内,机器人可以实现自主的推理决策,然后完成端到端的任务编排。随着能力库不断扩充,机器人能够胜任的任务空间也将指数级增长,最终可以实现全场景的覆盖,切入千行百业。这体现了具身智能在交互和学习中进化成长的逻辑。」
为了让这些层级起作用,智元不止在大模型方面展开了探索,还迭代了其他方面的算法。比如,在运动控制算法方面,他们在几个月的时间里进行了多次迭代,一直迭代到最近使用的非线性的 NMPC,以及目前正在开发中的基于各种 learning (比如强化学习)的方法。
同时,他们也在搭建一个用于离线轨迹优化的动作库平台。
未来,他们还将建立一个开放平台,为开发者提供持续的技术支持、资金奖励以及合作的机会,而且鼓励开发者基于智元的机器人平台去开发各种创新的应用功能和解决方案。
未来,这个开放平台会包含整个机器人的开发套件,包括 HDK、SDK、基于中间件 AGi ROS 的仿真平台,以及一些基础的预训练大模型等等。同时他们也会去考虑推出一个低成本的教育版的硬件,供大家去进行二次开发。
未来要卖 20 万以内
公司成立半年不到就发布第一款样机,还具备完整的体系,让人们不由得感叹现在 AI 领域创业公司速度之快。更重要的是,智元机器人并不是一味在追求前沿技术探索,而是「所有产品都在为商业落地服务」。
发布会上稚晖君表示,希望能把整机成本控制在 20 万元以内,使其具备落地的条件,并计划在远征 A1 发布后,以此为基础马上推出第一代商用产品。
商业化也已经有了相对具体的方向:基于当前的人形机器人技术,公司已在与国内新能源头部车企商讨合作。希望在汽车制造总装线、分装线等场景上进行商用化落地的尝试,另外也在和 3C 制造的大厂研究合作。
智元机器人还计划在未来几年里把人形机器人推广到更多领域。在消费级市场,人形机器人预计可适用的方式包含烹饪、家政、家庭护理、康复训练等。
智元机器人(AGIBOT)成立于 2023 年 2 月,目前融资已经完成了四轮,投资方包括高领、百度等风投机构。说到公司未来的发展,智元计划逐步开放开发平台,在未来以每年一代的速度迭代新的样机产品,并不断进行商用验证。
稚晖君也表示,为了支持计划,公司即将开启秋招。
智元机器人投身的具身智能当前是一个热门领域。谷歌、斯坦福、英伟达等国际科技机构都在这方面展开了研究,并在近期展示了他们的具身智能机器人成果。今年 3 月份,一家名为 1X 的具身智能机器人公司还拿到了 OpenAI 的投资。随着稚晖君等国内外优秀人才的快速进场,或许我们很快就能看到行业内出现颠覆性的应用。
「我的梦想是有一天能够真正造出科幻电影中的智能机器人,它不再是简单的机械装置,而是拥有自主思考和学习能力的智能伙伴,能够感知、理解我们的世界,并与我们深入沟通,」稚晖君说道。「远征 A1 的发布,只是我们追求的起点。」
标签: