具身智能“进化”加速
8月21日在世界机器人大会上拍摄的人形机器人
文/《环球》杂志记者 彭茜
编辑/乐艳娜
作为连接虚拟空间和现实空间的桥梁,“具身智能”被认为是新一波AI浪潮的核心方向,在这一领域,众多初创公司涌现、融资屡创新高、技术不断取得突破。
在大模型催化下,作为具身智能领域最具代表性实体的人形机器人,2024年加速产业化落地。如果我们将大模型视为“有趣的灵魂”,具身智能赋能的人形机器人就可看作是“好看的皮囊+有趣的灵魂”。
重新定义机器人
“具身智能”一词具有极浓厚的技术哲学色彩。1945年,法国哲学家梅洛·庞蒂提出“具身性”概念,认为身体是我们在世界上存在的媒介物,人类通过身体与周围的环境进行互动和感知,进而理解世界。
1950年,被称为“人工智能之父”的英国计算机科学家图灵在论文《计算机器与智能》中首次提出“具身智能”这一概念。
顾名思义,具身智能是指将人工智能(AI)融入机器人等物理实体,赋予它们具有像人类一样的感知、学习和与环境动态交互的能力。在生活中,可感知周边环境的智能扫地机器人、已进入路测的自动驾驶汽车,都可被视为具身智能的雏形,而人形机器人则是具身智能最理想的载体。
被提出后经过了半个多世纪,具身智能这一经典概念为何重新焕发生命力?优必选科技副总裁、研究院院长焦继超接受《环球》杂志记者专访时说,过往因为AI相关技术、软硬件及算力等因素还未发展成熟,具身智能领域进展缓慢。近几年,机器人运动控制系统和机电系统设计等硬件取得显著进步,使得机器人能在更复杂环境中执行任务。软件方面,强化学习、模仿学习等算法的应用,提升了机器人在未知环境中的学习和适应能力。算力、传感器等技术也日趋成熟,使整个具身智能底层系统得到完善,加速落地。
事实上,最近十年,智能化水平相对较低的工业机器人/机械臂早已大量进入制造业工厂,带来质效提升。专用工业机器人是“固定程序+机械臂”的组合,具身智能赋能的通用机器人则是“多模态感知+大脑决策”的迭代。
清华大学交叉信息研究院助理教授许华哲展望,未来机器人将呈现多姿多彩的形态:双足、四足、轮式,正如自然界的物种多样性一样。比如可以载重爬山的机械狗、智能无人机甚至机器小蜜蜂。由于这个世界是为人打造的,大至建筑小至家具的高矮都是为了适配人,人形机器人将成为最能够帮助人的机器人形态。
作为通用机器人代表的人形机器人,被称为机器人皇冠上“最亮的明珠”。无论是电影《超能陆战队》里可爱且暖心的机器人大白,《人工智能》里深爱人类养母的机器男孩大卫,还是《终结者》里施瓦辛格饰演的机器人战士T-800,这类影视剧作品中描摹的机器人大多就是以高度拟人的外形出现,塑造了大众对机器人最原始的认知。
人形机器人的外观和行为与人高度相似,其标志就是灵活的双手、四肢以及靠双足行走的运动方式。最重要的是,它能够适应人类的生存环境、使用人类的生产工具,形态更易令人产生共鸣。
人形机器人领域在2024年取得“技惊四座”的进展:优必选人形机器人Walker聚焦汽车、3C等制造业重点领域,已进入多家车厂实训;宇树科技机器人实现了完全仿人的自然行走;波士顿动力的新版Atlas机器人可在工厂里不同储物柜之间丝滑搬动零件;特斯拉人形机器人擎天柱(Optimus)计划在2025年量产……
“目前,国内很多工厂都已实现高度的自动化,但工厂里现在仍需要人的地方,就是未来人形机器人接手的地方。”许华哲告诉记者,未来工厂将呈现流水线机械臂和人形机器人配合的最终形态。
人形机器人可解决生产线“最后一公里”的问题。比如,在总装环节——即把所有批量生产好的零件按顾客需求组装成产品,就可以由具有泛化能力的人形机器人来帮忙。此外,在家庭服务、公共服务等更复杂多变的场景中,人形机器人更具优势,可适应不同的环境和需求,完成多种任务。
从“学习人”到“超越人”
人形机器人的研发始于对人本身的学习与模仿。我们可以用大脑、小脑和本体,来拆解人形机器人的研发难点。“大脑”是机器人承担自主学习、规划和决策任务的中枢;“小脑”负责运动控制,包括从行走到跑跳,以及从简单抓取到复杂的手部动作等;而本体部分包括躯干四肢结构和灵巧手设计。
9月12日,一款智能机器人在服贸会国家会议中心会场向观众“比心”
焦继超告诉《环球》杂志记者,目前这三大领域都有较多技术难点待突破:“大脑”方面,云边端一体计算架构、多模态感知与环境建模等是近年技术攻关焦点,“仿人最大难点在于对人脑的模仿,因为现有科学理论对人脑的研究远远不足”;“小脑”方面,人机交互能力、复杂地形通过、全身协同精细作业等是重要方向;“本体”方面,刚柔耦合仿生传动机构、高紧凑机器人四肢结构与灵巧手设计等关键技术,构成了人形机器人灵活运动所需的重要硬件基础。
近些年,大模型的出现让机器人“大脑”显著“进化”,大大提升了机器人的通用性和泛化性,更有望降低人形机器人的开发成本,加速其走入千家万户。
优理奇机器人科技公司创始人兼首席执行官杨丰瑜接受记者专访时说,现在业界主要使用预训练大模型训练机器人,让其具备更强的学习能力;大模型还能将特定任务的学习迁移到机器人任务上,提高其适应能力;另外还可利用大模型的多模态处理能力,结合视觉、听觉、触觉等各种输入,提升机器人对复杂场景的理解。
许华哲向记者介绍了最近很火的“视觉语言行动模型”。这一模型同时兼具大脑的泛化性和小脑的运动控制能力,能帮助机器人在完全陌生的环境下完成规定动作。比如,通过该模型训练的机器人在进入不同家庭后,面对不同外观的冰箱,可以做到丝滑开门取物。
“大模型技术的发展,大大提升了人形机器人的智能化水平,更‘聪明’的人形机器人将更符合人类心智,交互也更自然。除了具有劳动价值,人形机器人还能为我们带来情感价值。”焦继超说。
杨丰瑜也认为,在自然语言处理方面,大模型能够提升机器人与人类的交互能力,让机器人更容易理解人的指令。
研发马拉松,中美同起跑
目前,人形机器人已进入产业化落地初期阶段,在工业制造、商用服务和家庭陪伴领域都开始“试水”。环顾全球,无论是在技术突破、落地进展还是融资规模上,人形机器人研发竞赛基本上以中国和美国为主导。
“如果把人形机器人行业比喻成一场马拉松,中国和欧美国家,目前几乎都处在前面1000米的起跑阶段。”焦继超说。
许华哲认为,在大模型技术方面,美国已抢占先机,但在具身智能领域,中美几乎势均力敌,“这对中国来说是一个机会”。
杨丰瑜也认为,美国在AI和多模态大模型技术上领先中国1年左右。大模型研发能力、感知技术的领先,使美国企业在机器人决策系统和复杂任务处理方面具有更强竞争力。而中国的优势更多体现在工业机器人领域,特别是在制造业中应用较为成熟。
而在人形机器人技术专利方面,中国已走在前列。人民网研究院《人形机器人技术专利分析报告》显示,截至2023年5月,中国已累计申请6618件人形机器人技术专利,是申请人形机器人技术专利数量最多的国家。同时,国内的广阔市场也为人形机器人落地提供了充足的场景。
但对中国机器人行业来说,更大的挑战在于机器人大脑的核心算法和高端芯片(特别是英伟达芯片)受美国芯片法案影响较大。“尽管中国在硬件自研方面取得了一些突破,但在机器人操作的‘大脑’部分,即算法开发和高性能芯片制造上,尚存在差距。”杨丰瑜说。
许华哲也认为,尽管目前在机器人领域,电机等国产零部件质优价廉,但芯片被“卡脖子”是最大隐患。包括地平线机器人在内的一些业内公司正努力实现芯片国产化,但只有核心芯片实现国产化才能“安心”,这需要时间。
打造机器人“试验田”
算力、算法和数据被普遍认为是具身智能发展的核心生产要素,尽管目前中国可能在算力和算法方面受制于人,但数据却是中国的最大竞争优势。杨丰瑜指出,在具身智能领域,物理世界中的数据比较稀缺,仅靠合成数据难以完全复刻现实中的复杂场景。一些模型在合成数据训练后会崩溃,因为它们无法应对真实世界中多样且不可预期的情况。
9月20日,在2024世界制造业大会上,一款人形机器人展示搬运技能
这方面,中国拥有丰富的应用场景和庞大的潜在用户人口。许华哲介绍,真实世界的数据一般靠各家机器人公司自己采集。接下来的关键就是,如何在真实世界场景中采集大量数据,并由国家统筹流通和供给人形机器人行业使用。比如,北京创新中心人形机器人有限公司正计划打造一个开源数据集供学界和业界使用。未来,高质量的共享数据集将大大助力行业发展。
机器人要取得更大突破,还需在更多真实场景中去验证。然而,传统行业出于风险、成本等考虑,不愿过早采用未成熟的创新技术,这限制了机器人技术的迭代和实际应用。
杨丰瑜认为,如果一些传统行业开放部分工业或服务场景(比如商超零售、公共服务、医疗陪护等)作为“试验田”,让机器人公司在真实环境中不断调整、优化功能,将有助于快速推进技术成熟。国家对此可以考虑出台相关措施加以推动。许华哲提出建议,传统行业还可以股东而非客户形式加入机器人公司,提供更长期支持,借此逐步实现部分生产线被机器人替代。
对于具身智能来说,人才是行业未来高速发展面临的另一大挑战。许华哲指出,目前具身智能领域人才资源紧张,甚至出现和“大模型”公司抢人的现象。杨丰瑜也认为,很多人才被吸引到大模型或AI领域,导致机器人行业出现较大人才缺口。
杨丰瑜指出领域内主要缺乏三类人才:首先是在触觉反馈、多模态感知、机械臂精密控制、硬件设计等高精尖领域的人才;其次是急需横跨算法、硬件、软件、工业设计等领域的复合型人才;最后是具备产品设计思维、用户体验设计能力的非传统技术人才。
“可通过高校、研究院等协同培养,设置专项奖学金或引进国际顶尖人才,培养跨学科复合型人才。”杨丰瑜说。