智源大会 2025 笔记(三)
李飞飞提出了 “Voxel” 概念,即计算机中模拟物理空间的最小单元,能够承载物理属性。她认为智能体在具身智能中需具备以下能力:
-
判别物理属性(如物体重量)。
-
发现并利用物理规律。
-
通过语言纠正实现高精度工作。
-
执行多步任务规划。
然而,赵明国认为触觉可能比视觉更重要。仅通过视觉推理是不够的,触觉对于精细操作和纠偏至关重要。
世界模型是用于描述、理解、预测外部环境状态变化的抽象模型。它包含两个重要部分:
-
如何通过物理规律理解世界(例如,理解花朵随时间盛开的规律)。
-
如何利用物理规律做事(例如,利用工具高效打扫房间)。
世界模型的第二个重要方面是全要素建模,核心是构建内部表征以理解物理事件。这包括:
-
构建内部表征:例如,在无人驾驶中,不仅需要视觉感知,还需构建车辆的动力学模型。
-
预测未来状态:基于动力学模型进行未来状态模拟与指导。
-
反事实分析:通过设定不同做法得到不同结果,反向推导因果关系。这是由2011年图灵奖得主Judea Pearl提出的因果推理方法。
那么,空间智能与世界模型是什么关系?世界模型是一个全要素模型,而空间智能仅仅是世界模型向视觉空间的一个投影。
在动作解析中,视觉提供拓扑关系。但要将拓扑关系解析为知识,需要听觉和触觉。例如:
-
触觉:判断两个物体是否接触、进行纠偏,其精度远高于视觉。
-
听觉:通过敲击声音判断物体内部结构(如铁棍是空心还是实心)。
因此,空间智能中的视觉推理主要抓住了拓扑关系。而世界模型旨在构建内部表征,实现历史理解与未来预测。例如,在触觉研究中,不能仅将触觉帧转为图像并寻找时序关系(空间智能方法),而应建立触觉的动态系统模型(世界模型方法),从而生成更丰富的触觉信息。
构建世界模型的必要性 🔧
上一节我们区分了空间智能与世界模型,本节中我们来看看为什么在机器人操作中必须构建世界模型。
当前计算机视觉领域的具身智能研究主要集中在具身导航(如无人驾驶)。李飞飞团队尝试仅通过视觉推理取代雷达。然而,涉及跨任务、跨场景的操作过程研究却很少。
关键在于学习人类如何操作物体。人类操作需要:
-
了解操作环境的物理属性。
-
感知操作物体的形状、质地、柔性和力的反馈。
-
使用手或工具进行操作。
-
通过感知、预测、调整形成闭环,并反复练习,通过神经可塑性建立映射。
即使是同一物体,在不同状态或使用不同末端执行器(如五指 vs. 双手)时,操作策略也不同。因此,操作是人工智能中最难的问题之一。
过去的人工智能(如符号主义推理、深度学习)主要是开环的。而操作任务必须是闭环的(感知-预测-调整),并需上升到认知程度。我们应该充分理解人类如何操作物体,并将这些原理应用于机器操作中。
一个核心观点是构建沉浸式感知。这一思想源于1962年麻省理工学院提出的“沉浸式交互”,旨在构建能与真实物理世界产生沉浸感的计算机环境。
当前已有一些工具在向此方向发展:
-
Unified Robot Description Format (URDF):用于语义和运动结构模拟。
-
Unity:用于抓取操作和三维渲染。
-
近期工作开始注入光照、材料等物理属性(如NVIDIA的Isaac Sim)。
然而,当前仿真环境(如Isaac Sim, MuJoCo)主要以点云为主,缺乏力觉、触觉、听觉,与真实场景差距大,且难以复现智能体与环境的真实交互。基于仿真习得的技能也难以迁移到真实场景。这限制了以操作为主导的具身智能发展。
因此,我们提出构建数字物理系统,以实现沉浸式、高鲁棒、强可迁移的研究。我们去年发表在IEEE汇刊上的一篇文章就构建了这样一个系统,它包含:
-
物体的质量、杨氏模量、泊松比、转动惯量。
-
每个实体(包括智能体)的动力学模型。
-
非刚体属性的操作目标。
-
力觉、运动触觉和接触触觉的生成。
一个重要工具是结合神经辐射场 (NeRF) 与三维高斯溅射 (3D Gaussian Splatting),实现铰链物体的建模和沉浸式相互作用。
世界模型的应用与知识迁移 🚀
上一节我们探讨了构建世界模型的必要性,本节中我们来看看其具体应用和知识迁移的作用。
构建数字物理系统后,下一步是利用世界模型在三维世界中进行推理。例如,在装配过程中,首先需要进行任务编排,考虑空间位置关系、几何与拓扑,以避免后续操作被前期操作干扰。
第二部分是多模态推理。我们团队做了两方面工作:
-
同构多模态场景感知:融合深度信息(形状特征)与RGB信息(边缘特征),进行物体分割与重建。
-
异构多模态物体重建:配对视觉、听觉和触觉信息进行物体重建。
第三,利用世界模型结合物理属性进行精细操作,例如根据物体的位置、几何属性、材质进行操作,并理解人机协作中的意图以提高效率和安全性。
第四,实现从三维感知到四维感知(增加时间维度),从单纯几何信息到时空联合的物理信息,从空间推理到物理推理。我们提出了一个 “BAANT”具身体,它包含物理感知、物理行为以及类似人脑的推理部分,实现了上述跨越。
世界模型构建后,我们实现了从被动感知到知识引导下的主动感知,从单一模态到多模态(同构与异构),从依赖模型到融合知识(知识+端到端学习)。大模型在其中扮演重要角色。
知识迁移对于实现通用操作至关重要。人类通过学习大量技能(感知、认知、运动、操作层面),并通过反复练习形成脑体协同,实现技能的迁移与进化。
我们在一个数字物理系统中训练策略,然后迁移到真实物理世界。策略性能的上界 P_performance 受以下因素影响:
-
最优策略部分
π_optimal -
样本分布
D -
带标签的样本数量
N(视觉、触觉、听觉标签)
公式表示为:P_performance ≤ f(π_optimal, D, N)
标签越多(N 越大),性能上界越小,说明沉浸式感知越重要。
我们构建了一个学时同步的数字物理系统和迁移学习软件系统,包括触觉模拟、NeRF渲染,并通过具身强化学习实现操作。过程中利用知识引导,并通过神经符号系统修正因交互残差导致的知识偏差。
工业应用、大模型与未来展望 🏭🤖
上一节我们介绍了世界模型的应用,本节中我们来看看其在工业和大模型背景下的实践与未来。
在制造业应用方面,我们关注两个方向:
-
面向单机的具身智能。
-
面向云边端的具身智能。后者是下一步的核心问题。例如,在中美贸易背景下,企业海外建厂面临高人工成本。解决方案是携带机器人,并通过云边端进行远程操作。
大模型为具身智能的垂直应用提供了以下能力:
-
内部知识库
-
强大的垂直搜索能力
-
上下文对话
-
样本与代码生成
将大模型与具身智能(一个在物理空间与我们交互的机器人)结合,关键在于大模型内部需要一个沉浸式实验室(数字物理系统)。在此实验室中的训练数据源于真实物理系统,并能与之交互,进行模型修正(包括动力学、几何和感知层面)。我们正与立讯精密、比亚迪等企业合作此类应用,例如手机的自动化打磨与各种类型软排线的装配,这对泛化能力和鲁棒性要求极高。
当前大模型(如VIMA, PaLM-E)应用于操作时面临挑战:
-
主要通过语言描述和视觉设定来训练,缺乏触觉信息,因此是不完整的。
-
训练数据以图文为主,影响跨场景操作能力。
-
大模型的推理规划输出如何有效转为具体控制策略。
-
缺乏足够的控制轨迹数据。
因此,多模态轨迹采集至关重要。例如,一次操作可能需要采集两路视觉和两路触觉信息。NVIDIA已构建了120万条轨迹(32TB数据),而我们的目标是200万条轨迹(52TB数据)。高效的轨迹采集与复杂操作技能的动态策略构建是未来重点。
未来展望还包括:
-
泛化场景与模型采集:通过对抗学习生成多样路径与操作特性,利用强化学习实现策略覆盖,在不同任务中精炼模型,实现学习与进化。
-
通用智能评测:设计具身图灵测试,从当前的开环测试转向闭环测试,以验证智能体的通用智能性。
我们团队研发的**“灵巧手”**负载达12公斤,击打频率达每秒20次(人类为16次),已应用于穿针引线等精细操作,展示了感知与行为的闭环。我们正在研发0.05毫米的新型触觉传感器,但降低成本是下一步挑战。
本节课中我们一起学习了:
-
空间智能(以视觉为中心)与世界模型(全要素建模,包含物理规律与内部表征)的区别与联系。
-
在机器人操作中构建世界模型和沉浸式数字物理系统的必要性,以实现闭环感知和技能迁移。
-
世界模型在多模态推理、精细操作和知识迁移中的具体应用。
-
大模型与具身智能结合的关键在于构建包含多模态信息的沉浸式训练环境与轨迹数据。
-
未来研究方向包括云边端操作、多模态轨迹采集、泛化能力提升以及具身图灵测试。
构建融合物理规律、多模态感知和知识推理的世界模型,是推动具身智能从感知走向认知、从单一任务走向通用操作的核心路径。
具身智能与人形机器人-p03-人形机器人的仿生—从控制到具身智能:赵明国
在本节课中,我们将跟随清华大学赵明国老师的报告,探讨人形机器人如何从仿生控制走向具身智能。我们将了解机器人运动控制的力学原理、现代优化控制方法,以及借鉴神经系统结构的新型类脑控制框架。课程旨在为初学者梳理出一条从基础力学到前沿智能的清晰脉络。
报告人介绍 🎓
赵明国老师是清华大学自动化系的研究员、机器人控制实验室主任,同时担任清华大学无人系统中心类脑机器人中心的负责人。他发表了数百篇论文,并拥有十余项国家发明专利。
在人形机器人领域,赵老师提出了虚拟斜坡行走法、广义模型预测控制等具有影响力的工作。其利用类脑技术构建智能无人驾驶自行车的研究曾发表于《自然》杂志封面,并被评为2019年度中国科学十大进展。
具身智能的范畴与思考 💭
上一节我们介绍了报告人的背景,本节中我们来看看赵老师对“具身智能”这一核心概念的思考。
赵老师首先对“具身智能”的范畴进行了探讨。他认为,人类的智能发展经历了漫长的过程:约700万年前开始直立行走并使用工具,200多万年前出现语言,近几万年才出现文字,而现代高级智能(如文学艺术)则是近几千年才出现的。因此,具身智能至少应包含文字出现之前,人类通过几百万年进化而来的运动、操控、使用工具等基础能力。这区别于近几千年发展出的高级认知智能。
基于此,他提出了一个关键问题:当前火热的VLA(视觉-语言-动作)模型中的“L”(语言)究竟指什么?在具身智能的语境下,是否必须依赖语言?这引发了关于智能底层构成的思考。
实验室工作概览 🚴⚽
以下是赵明国老师实验室主要研究方向的简要介绍。
-
类脑芯片与自行车:实验室与类脑中心合作,将感知、控制、决策全部集成在一块类脑芯片上,实现了无人驾驶自行车。这项工作展示了在单一芯片上完成复杂机器人任务的潜力。
-
足球机器人:长期致力于机器人足球项目,旨在通过这项复杂的任务来攻克智能控制问题,前期工作主要集中在运动控制层面。
从被动行走到现代控制 🚶➡️🤖
上一节我们了解了实验室的整体工作,本节中我们将深入探讨人形机器人行走控制的发展历程。
研究始于对“被动行走”的力学原理探索。被动行走指一个纯机械结构在斜坡上,仅需初始条件便能自主产生稳定周期步态的现象。2005年《科学》杂志的一项研究基于此原理,制造出了能量效率与人类相当的行走机器人。
其核心力学原理可归结为两点:
-
落地碰撞
-
摆动腿的摆动
将这两个原理结合,便能实现高效的行走。骨骼结构本身具备这些力学特性。基于被动行走,研究者们发展出了“准被动行走”,即用控制或驱动替代斜坡的作用,使其在平地上实现高效、仿生的行走。
随后,控制层面被引入以适应复杂环境。赵老师团队在此领域的主要贡献包括:
-
弹簧增强的被动行走:在被动行走模型中加入弹簧,显著增强了行走的稳定性和地形适应能力。
-
虚拟斜坡方法:采用开环控制,使系统能量自动达到平衡,实现稳定行走。
-
髋部弹簧耦合:模拟人体髋部肌肉与韧带的耦合作用,产生稳定的行走模式。
这些早期工作虽难以直接应用,但深刻揭示了行走的力学本质。
基于模型的优化控制方法 ⚙️📈
从被动行走的原理研究出发,机器人控制需要更强大的方法来应对复杂任务。本节中我们来看看基于数学模型和优化的现代控制方法。
在与深圳优必选公司合作开发Walker系列机器人时,团队采用了基于简化动力学模型的规划与控制方法。其流程可概括为:
-
使用简化模型进行运动轨迹规划。
-
通过控制各关节来跟踪该轨迹。
-
受到干扰后,重新规划轨迹,形成大闭环。
其中,团队借鉴了仿生原理,提出“虚拟倒立摆”模型,将支撑点置于地面以下,使机器人的脚压中心轨迹更接近人类。
2016年后,基于优化的控制成为主流,主要分为两类:
-
全身控制:将机器人的所有任务目标和约束(如关节力、运动范围、ZMP稳定性)构建为一个整体的优化问题求解。其公式可抽象为:
min J(x, u) subject to g(x, u) = 0, h(x, u) ≤ 0其中
J是目标函数,g和h是等式与不等式约束。这种方法能在完整动力学模型下实现精确控制,但计算量大,且是“当前时刻”的最优。 -
模型预测控制:为解决预测问题,使用一个更简化的模型进行未来一段时间的预测优化,再用全身控制进行跟踪校正。这类似于导航时,我们先用简化的点状模型规划路径,再考虑具体的车辆动力学去执行。
这套“MPC规划 + WBC跟踪”的方案在控制理论上较为完美,使机器人在粗糙路面行走、抗干扰、握手等任务上表现出色。但其缺点是针对特定任务需要专门设计和大量调试,泛化能力和实用性面临挑战。
强化学习在机器人足球中的应用 ⚽🧠
基于模型的方法虽然精确,但缺乏适应性和学习能力。本节中我们转向另一种前沿方法——强化学习,看看它如何在动态复杂的足球任务中发挥作用。
赵老师团队从去年开始探索强化学习,主要应用场景是机器人足球。他们采用了“虚实融合”的训练方法,先在仿真中训练,再用真实的控制器部署验证代码的可行性。
在足球任务中,团队聚焦于几个基本技能模块:
-
行走
-
踢球
-
视觉带球
-
对抗下的平衡恢复
-
摔倒后快速站起
-
拖拽功能(允许被裁判轻松拖离场地)
基于这些,团队开发了强化学习的基本框架,并取得了初步进展:
-
实现了快速爬起、平衡恢复等技能。
-
尝试构建更通用的端到端框架,让机器人通过视觉直接感知环境,并输出行走、踢球等行为指令。
类脑控制框架的探索 🧬🔌
无论是优化控制还是强化学习,其执行器(控制器)与传统工业控制器并无本质不同,这与人类的运动控制方式相去甚远。本节中,我们将探索如何从仿生角度,借鉴神经系统原理来构建全新的控制器。
赵老师指出,人类的运动控制并非由大脑单独完成,而是由五个部分协同工作的结果:
-
大脑:运动规划(约690亿神经元)。
-
小脑:复杂运动控制、多关节协调(约180亿神经元)。
-
脊髓:简单运动控制、反射、节律控制(如心跳、呼吸,约7亿神经元)。
-
丘脑与脑干:也参与运动调节(约7亿神经元)。
神经系统信号传递具有两个通路:上行(感知信号传至大脑)和下行(控制指令传至执行器)。同时存在三个反馈回路,对应不同的反应速度:
-
一阶回路(脊髓回路):最快,处理简单反射(如烫伤缩手)。
-
二阶回路(小脑回路):中等速度,协调多关节运动。
-
三阶回路(大脑回路):最慢,进行长期规划和决策。
受此启发,团队尝试构建一个类脑控制框架,用类脑控制器替代传统的PID或优化控制器。该框架抽象了四个模块的功能:
-
脊髓模块:实现最底层的快速反馈控制。
-
脑干模块:实现类似PID但可自适应调节的反馈控制。
-
丘脑模块:适应负载变化。
-
小脑模块:进行重力补偿和多关节运动的预测与协调。
该框架使用脉冲神经网络(第三代神经网络,SNN)进行实现。SNN模拟生物神经元通过膜电位变化产生脉冲信号的方式,具有计算高效、能耗低的特点。
在数学实现上:
-
对于关节控制,使用一对拮抗的SNN神经元来模拟人体对抗肌的工作方式,分别控制正反两个方向的运动。
-
小脑模块由于涉及序列预测和记忆,采用了具有循环结构的SNN网络。
通过仿真和实物实验,在轨迹跟踪和未知负载变化的任务中验证该框架。实验发现:
-
关节刚度、阻尼等特性会随任务自适应变化,与人类运动特征有相似之处,而传统控制方法难以产生此类关联。
-
在负载突变(如空杯突然被倒入沙子)时,框架能通过在线学习快速适应,其适应速度与人类反应相似。
这表明,该仿生控制框架在运动特性、负载适应和快速学习方面,初步展现出了一些“类人”的效果。
类脑与VLA的关系及人形机器人发展路径 🗺️
最后,赵老师分享了他对类脑研究与当前主流的VLA模型关系的思考,并提出了人形机器人智能发展的分层路径。
类脑与VLA的关系:
赵老师认为,当前的具身智能研究主战场在于VLA模型,即如何将视觉、语言等传感器信息直接映射为控制指令或运动轨迹。而他研究的类脑控制器,目标并非替代VLA,而是替代VLA模型后端执行动作的传统控制器。同时,类脑研究在前端的新型传感器(如类脑视觉传感器)和后端的新型控制器上都有巨大改进空间,可以与VLA模型结合,形成更高效的具身智能系统。
人形机器人智能发展路径:
赵老师提出了一个二维发展框架来理解人形机器人的能力进阶:
-
纵轴(智能水平):从底层的“具身智能”(基础运动能力),到需要大脑介入的团队协作、战略对抗等高级智能。
-
横轴(任务难度):从简单的闭眼运动,到需要感知导航的复杂任务。
目前大部分研究工作仍集中在最底层的L0(基础运动)和L1(简单感知导航)水平。而要让人形机器人真正进入家庭等实用场景,可能需要达到L4或更高水平。这意味着,在智能水平提升的同时,对硬件、传感器和算法的复杂度要求也会急剧增加。当前许多机器人仍需人工遥控,正是因为其智能水平尚未达到完全自主完成复杂任务的程度。
总结 📚
本节课中,我们一起学习了赵明国老师关于人形机器人从仿生控制到具身智能的精彩论述。我们从最基础的被动行走力学原理出发,了解了基于模型的优化控制方法,探讨了强化学习在动态任务中的应用,并深入研究了借鉴神经系统结构的类脑控制框架。最后,我们厘清了类脑研究与VLA模型的关系,并展望了人形机器人智能发展的分层路径。这条从力学到控制,再到仿生智能的探索之路,为我们理解和发展更智能、更灵巧的机器人提供了宝贵的思路和方向。
具身智能与人形机器人-p04-合成数据驱动的具身VLA大模型:王鹤
在本节课中,我们将探讨一个备受关注的技术路线——视觉-语言-动作模型。我们将了解其核心概念、当前面临的挑战,以及如何利用大规模合成数据来高效训练此类模型,从而推动通用机器人的发展。
什么是VLA模型?
上一节我们介绍了通用机器人的愿景,本节中我们来看看实现这一愿景的一个关键技术:VLA模型。
VLA是Vision-Language-Action模型的简称。它是一个端到端的多模态大语言模型。其目标是让机器人能够理解人类的自然语言指令,并结合视觉感知,直接输出控制机器人执行动作的命令。
以下是VLA模型的核心构成:
-
输入 - 语言指令:这是实现通用性的关键接口。用户可以用自然语言随意下达指令,例如“拿起那个盒子”。
-
输入 - 视觉信息:视觉是人类获取信息的主要方式。对于通用机器人而言,整合视觉模态至关重要。
-
输出 - 动作:模型直接输出机器人的控制指令。在早期工作中,如谷歌的RT-2模型,输出是机械臂末端执行器的瞬时运动指令,例如三维平动
Δx, Δy, Δz和三维转动Δrx, Δry, Δrz。
我们可以将VLA模型类比为机器人的“大脑”快系统。它负责根据感知实时生成运动轨迹,而具体的底层控制(如逆运动学解算、PID控制)则交由类似“小脑”的控制器执行。VLA强调快速闭环反馈,频率可达数十赫兹。
数据难题:为什么不能只依赖真机采集?
VLA模型的能力依赖于大量高质量数据的训练。目前主流方法是采集真实世界的遥操作数据。
然而,这面临巨大挑战。以自动驾驶为例,头部车企拥有百万级车辆,每日可回流上亿条驾驶片段数据。相比之下,当前全球最大的具身智能数据集仅约百万到两百万条。
问题的核心在于自由度差异。汽车的控制自由度很低(方向盘、油门刹车),而人形机器人自由度极高(全身可达上百个)。如果我们完全依赖真机采集数据,就需要先量产百万台人形机器人,并雇佣大量人员进行数据采集,这显然不现实。
因此,我们的核心观点是:必须利用合成仿真数据来破解具身智能的数据难题。
解决方案:合成数据驱动的训练新范式
我们的团队提出并实践了一条新路径:利用大规模、高质量的合成数据训练VLA模型。
构建大规模合成数据集
我们构建了完整的合成数据管线,覆盖从物体资产生成、交互场景搭建到动作轨迹标注的全流程。
以下是合成数据管线的关键能力:
-
生成多样化的物体与场景:穷尽物体在形状、材质、堆放方式上的变化,以及光照、背景、桌面纹理等环境变量。
-
自动生成精准标注:为每一帧合成数据自动生成视觉包围框、抓取位姿和动作轨迹的标签,确保数据一致性。
-
支持灵巧操作:基于数学优化和物理仿真,能合成人手分类学中的33种抓取模式,覆盖千万级物体的抓取数据。
-
生成长程复杂操作:支持如叠衣服等需要多步调整的长程任务数据生成。
基于此,我们生成了规模达百亿帧的机械臂抓取轨迹数据,每一帧都配有 (视觉, 语言, 动作) 的完整标签对。
模型架构:具身思维链
我们训练了全球首个完全使用合成动作数据、未使用任何真实世界动作数据预训练的VLA大模型——GraspVLA。
该模型采用“具身思维链”架构进行推理,而非直接输出动作。其流程可表示为:
-
定位:根据指令
语言,输出目标物体的二维包围框B。 -
推理:基于包围框
B,推理出适合的六自由度抓取位姿G。 -
执行:最后,通过一个流匹配专家,输出连续的七自由度瞬时动作
ΔA(平动、转动、夹爪开合)。
整个过程是自回归的,公式可简化为:动作 = 模型(视觉, 语言, 思维链),其中思维链为 B -> G。
混合训练策略
单纯合成数据无法覆盖世间所有物体名称和语义。因此,我们采用混合训练策略:
-
合成数据:提供
(视觉, 语言, B, G, 动作)的完整标签,用于训练整个思维链。 -
互联网图文数据:收集了包含1亿个包围框标注的互联网图像-文本对,数据形式为
(视觉, 语言, B)。这部分数据没有动作标签,仅用于训练模型的第一阶段(包围框预测)。
通过混合训练,模型既掌握了从合成数据中学到的精密操作技能,又吸收了互联网数据中的广泛视觉语义知识。
效果验证:强大的零样本泛化能力
经过上述方法训练的模型,展现出卓越的零样本泛化能力。
仿真环境测试
在公认的基准测试集Libreal上,我们的模型在未经任何微调的情况下,其长程任务和物体抓取的成功率,全面超过了需要在特定测试环境中进行微调的PaLM-E等模型。
真实世界测试
模型在真实世界中同样表现强劲,在光照、背景、物体类别、位置等方面均表现出零样本泛化能力。
以下是部分演示结果:
-
动态干扰:在抓取过程中,人为移动目标物体或投入新物体,模型能实时调整并成功抓取。
-
密集货架:在商品琳琅满目、紧密摆放的货架上,能准确抓取指定商品,并支持更换抓取顺序、抗干扰等。
-
细粒度操控:可根据“用握笔姿势抓药盒”等细粒度语言指令,执行不同的抓取模式。
-
长程操作:能完成叠衣服等复杂长程任务,并在过程中抵抗干扰(如用衣架挑动衣服)。
高效技能迁移
合成数据好比“义务教育”,让模型彻底学会基础技能。在真实世界中,只需极少量“上岗培训”数据,模型就能举一反三。
例如,我们仅用200条(约半个人天工作量)真实遥操作数据对模型进行微调,就能让模型学会在密集摆放的20瓶水上从头到尾成功抓取。并且,该技能能零样本泛化到其他品牌、不同摆放布局的饮品上。这大幅降低了机器人技能部署的成本。
拓展与应用
我们的合成数据驱动方法已拓展到多个领域:
-
移动导航:训练出的模型能在全新环境中,零样本服从复杂的长程指令(如“向右移动找到那个人并跟随他,直到看见沙发”),实现全视觉、无需SLAM建图的导航与跟随。
-
产业落地:相关技术已应用于24小时无人零售店、汽车工厂物料搬运、酒店礼品店等场景,将人形机器人作为实际生产力工具。
迈向全人形机器人
最后,我们将VLA与全身控制结合。通过强化学习在仿真中训练,并结合遥操作,我们实现了人形机器人的全身协同操控,例如蹲下并抓取地面物体,同时保持身体平衡。相关成果(Open-WBT)已开源,推动全人形机器人研究。
总结
本节课中我们一起学习了VLA模型的核心概念,以及如何利用合成数据驱动其训练。关键点在于:
-
VLA模型是实现通用机器人的重要“大脑”快系统。
-
完全依赖真机采集数据存在规模瓶颈,合成数据是破局关键。
-
通过构建大规模、高质量的合成数据管线,并结合“具身思维链”模型架构与混合训练策略,可以训练出具有强大零样本泛化能力的VLA模型。
-
这种方法能显著降低机器人技能获取与部署的成本,并已在实际场景中验证有效,是推动具身智能走向通用、实用的可行路径。
具身智能与人形机器人-p05-可泛化操作与运动智能;庞江淼
在本节课中,我们将学习上海人工智能实验室庞江淼博士关于可泛化操作与运动智能的分享。课程将围绕数据、模型与评测三大核心要素,探讨如何实现机器人技能的本体、任务与场景泛化,并介绍相关前沿技术进展。
概述
具身智能的核心能力包括感知、认知、推理、移动与操作。从人工智能算法角度看,其核心是为具身智能解决三个泛化问题:本体泛化、任务泛化和场景泛化。这带来了诸多科学与技术挑战,也引发了不同的技术路线探索。
数据:合成与真实的协同
数据是人工智能算法的基石。在具身智能领域,合成数据与真实数据各有优劣,协同使用是关键。
合成数据有助于实现本体泛化和场景泛化。通过机器人的描述文件,可以在仿真环境中模拟任意机器人本体,并生成多样化的物体与场景。但其在实现复杂、物理真实的技能泛化上相对困难。
真实数据则非常有助于任务泛化。对于特定技能,可以随时在真实世界采集数据。但无法穷尽所有光照、场景和物体条件。
因此,当前的核心科学问题是如何通过多种数据生成与利用方式,协同解决这三类泛化问题。
模型:VLA的定义与演进
在模型层面,视觉语言动作模型是当前的研究热点。业界对VLA的定义较为发散,主要可分为三种类型。
以下是三种常见的VLA定义:
-
狭义VLA:以RT系列模型为代表,在保留语言模型交互能力的基础上,直接为其添加动作输出能力。这是最初、最狭义的VLA概念。
-
A式VLA:采用一个成熟的视觉语言模型作为预训练权重,在此基础上训练动作模型。它利用了基础模型的泛化能力,但本质上仍是动作模型。
-
广义VLA:任何包含视觉、语言和动作模态的模型,都可能被称为VLA。
通常认为,只有前两种通过动作模型训练范式获得的模型才属于真正的VLA。其中,第二种常被称为“A式VLA”。而如何设计双系统架构,在保持语言交互能力的同时增强动作能力,是一个重要的研究方向。
评测:建立有效的评估体系
评测体系对技术发展至关重要。目前,针对场景泛化和任务泛化,尚缺乏一套足够公正的体系来评估不同动作模型的泛化能力。
评测的难点在于:真实世界的评测不可重复;仿真环境中的评测则受限于虚实一致性问题。一个实用的观点是:评测的价值在于相对排序方法,而非追求绝对客观。只要能有效区分方法优劣,就是一个合理的评测方式。
技术进展:数据合成与高效扩增
上一节我们探讨了数据的重要性,本节我们来看看如何利用生成式技术高效合成数据。
实验室提出了 “Infinite Mobility” 工作,通过程序化建模方式,快速、泛化地生成22类可交互物体数字资产,并导入仿真环境。机器人可以在其中自主生成多样化的操作轨迹,为训练提供丰富的场景。
一个关键问题是:训练一个技能需要多少真实数据?从成本角度,目标是最小化真实数据采集,最大化合成数据利用。技术路线是持续压低真实数据需求,提升合成数据质量,最终实现零样本迁移。
初步结论是:对于中小范围空间任务,约800条视角数据可实现约80%的成功率。不同物体类型所需的数据配方不同,这能指导数据引擎的合成工作。
为了更高效地对环境进行扩增,实验室利用 高斯溅射 技术实现高保真操作场景重建与编辑。通过对多视角图像重建的三维高斯场景直接进行编辑,可以变换物体、机器人类型、光照和背景。
这项技术实现了 “一条真机数据任务实例化”。仅采集一条真实机器人数据,就能通过合成数据解决本体和场景泛化问题,在真实世界中实现包括物体类别、相机视角、背景、光照、本体等多个维度的强泛化能力。其效果相当于在真机上采集200条视角数据。
技术进展:导航与操作模型
在模型方面,研究围绕导航和操作两大任务展开,致力于通过双系统协同提升感知、交互与执行能力。
导航模型
导航任务远未解决。传统SLAM方案在已知地图、固定场景下表现良好,但无法满足无地图场景下的语言交互式导航需求,无论是目标导向还是过程导向的任务都依旧困难。
实验室采用虚实结合方案:利用数千个三维场景资产生成数据;结合传统方法生成最优路径和critic函数。提出了 Navigation Diffusion Policy,通过动作和评判两种监督信号进行轨迹生成与选择。
其核心价值在于零样本泛化和灵巧处理动态障碍物。机器人能在充满行人扰动的动态环境中灵敏避障。该模型也能轻松完成跨本体(如人形、轮式双臂机器人)的导航任务。
研究还验证了 “Real to Sim”(从真实到仿真)对导航的有效性。使用高斯溅射重建真实环境并生成数据训练模型,结论是该方法有用但收益存在上限,未来需探索最佳数据配方。
为实现流式、在线的具身导航,实验室提出了 StreamVLA 算法框架。它通过双轨上下文(当前实例化与长期记忆压缩)和基于时空剪枝的KV高效复用架构,解决了多轮在线推理和流式上下文信息丢失的难题。
模型使用三分之二的导航合成数据和三分之一的传统多模态数据(包括仿真数据和Dagger试错数据)进行训练。最终实现了实时推理下的超长程指令跟随与零样本泛化能力。
操作模型
对于操作能力,核心方向是想象与执行一体化,并尽量减少对模型交互推理能力的损失。
当前许多工作未能实现视觉与动作的闭环。实验室提出一种预训练方法:通过端到端的 Predictive Inverse Models,根据预测的视觉状态建立逆动力学模型来指导动作输出。
该框架包含多模态建模,并通过 Inverse Dynamics Prediction 和视觉重建实现双闭环预测。视觉预测采用MAE方式建模,本质是对未来的预测,未来将更接近世界模型;逆动力学模型则负责具体执行。
在大规模机器人数据上预训练,再在少量下游数据上微调,该方法在多个公开基准测试中取得了领先性能,且性能随模型参数量增大持续提升。经过预训练的模型能更好地处理技能泛化和场景泛化,例如在物体位置、光照、背景视频干扰下实时调整操作。
为保留基础模型的动态推理能力,实验室提出了 InstructVLA 算法。它利用混合专家模型解耦视觉-语言推理与机器人操作模态的训练。通过预训练后,使用路由机制引导至下游的动作专家进行微调。
该模型在80个未见任务的深度推理评测中,效果超出同类VLA 34%。在保证具身操作能力的同时,其开放域动态能力与基础模型基本持平或略有提升,当然仍有改进空间。该模型展示了零样本识别复杂场景(如将方块放到“科学家”图片上指代的爱因斯坦画像)和执行多步长程任务的能力。
基础设施与评测基准
支撑所有模型迭代和数据生成的是高效的基础设施。实验室开源了 GymTop 平台,支持灵巧操作与导航,集成多种数据集,并能生成不同材质模型、无限扩展和编辑场景,快速进行数据扩增。
基于此,实验室正在构建面向大规模具身推理任务的仿真训测基准,以解决当前仿真平台场景与任务单一化的问题。该基准包含上万个带语义标签的物体、百余种铰链物体与动作序列,并利用大模型协助进行任务高效拓展与合成,生成海量具备推理性质的多模态数据。
基准支持四类任务评测:视觉推理、长程任务、动态模型任务和动作规划能力。初步评测发现,GPT-4V在空间、外观和常识推理上优于Claude和Gemini;长程任务对现有VLA挑战更大;端到端优化策略优于其他方法。该基准旨在帮助研究者更科学地评估模型改进方向。
人形机器人应用展示
最后,实验室展示了在人形机器人运动控制方面的应用进展,包括人形机器人驾驶舱概念。通过基础运动与感知融合,实现了真机在不同场景下的感知跳跃、融合视觉的自主避障、走梅花桩等能力。
单个策略可控制人形机器人完成走、跑、跳、下蹲、站起等8种动作,并能实现摔倒后自主站起。通过遥操作介入采集数据,持续训练,旨在最终赋予人形机器人实用的全身操作基础模型。
总结
本节课我们一起学习了可泛化操作与运动智能的关键挑战与技术路径。核心在于通过合成数据与真实数据的协同解决本体、任务和场景泛化;发展能保持推理能力的双系统VLA模型;并建立有效的相对评测基准推动领域发展。从高效数据合成(Infinite Mobility, 高斯溅射编辑)、到先进的导航与操作模型(StreamVLA, Predictive Inverse Models, InstructVLA),再到开源平台与评测体系,这些工作共同推进着具身智能向更通用、更实用的方向发展。
具身智能与人形机器人-p06-Scaling-Humanoid-Robot-Learning-with-Internet-Videos:卢宗青
在本节课中,我们将学习如何利用海量互联网视频数据,为人形机器人构建一个基础学习范式。我们将探讨从视频中学习人类运动先验,并通过后续训练将其与机器人物理本体对齐的完整技术路线。
概述
当前人形机器人学习面临数据稀缺的根本性挑战。传统方法如仿真、真机遥操或生成模型各有局限,难以规模化。本教程提出一种新范式:利用记录了大量人类运动的互联网视频进行大规模预训练,学习人类运动先验,再通过少量数据将模型与具体机器人本体对齐。
从互联网视频到机器人控制:完整技术路线
上一节我们概述了核心思想,本节中我们来看看实现这一目标的具体技术路线。整个流程分为预训练和后训练两个关键阶段。
预训练:学习人类运动先验
预训练的目标是利用互联网视频,让模型学会理解视觉空间并掌握人类如何运动。这包括全身姿态和手部操作。
全身姿态生成
我们从互联网视频中提取人类3D姿态序列,构建大规模数据集,并训练文本到姿态的生成模型。
以下是构建和利用姿态数据集的关键步骤:
-
数据构建:我们构建了超大规模数据集(如Humo100M),包含文本描述、人体运动序列及对应视频。
-
模型训练:基于Transformer等架构,训练模型根据文本指令生成连贯、合理的人体姿态序列。
-
性能验证:实验表明,模型性能(如FID指标)随数据规模和模型参数量增加而显著提升,验证了缩放定律的有效性。
核心公式/概念:
-
姿态生成:
Motion_Sequence = Model(Text_Instruction) -
评价指标:Fréchet Inception Distance (FID),值越低表示生成质量越高。
手部姿态生成
类似地,我们从第一人称视角(Egocentric)视频中提取精细的手部动作,构建数据集并训练手部姿态生成模型。
以下是手部姿态生成模型的训练要点:
-
条件生成:模型以当前手部姿态和文本指令为条件,预测下一时刻的手部姿态,这对生成连贯动作至关重要。
-
动作空间:使用统一的参数化表示(如MANO)来描述复杂的手部动作。
-
效果:模型能生成比当前机器人灵巧手所能执行的更复杂、更拟人的操作序列。
后训练:与机器人本体对齐
预训练模型生成的是人类姿态,缺乏物理约束且与机器人本体不匹配。因此,必须进行后训练以实现对齐。
运动跟踪策略
我们首先训练一个通用的运动跟踪策略,它能将任何输入的姿态序列转换为机器人本体的控制指令。
核心功能:Robot_Controls = Tracking_Policy(Human_Motion_Sequence)
基于物理反馈的强化学习
为了确保生成姿态符合机器人物理特性且可执行,我们提出RLPF方法。
以下是RLPF方法的核心机制:
-
仿真环境:在物理仿真器中评估生成姿态的可执行性。
-
奖励函数:设计双奖励机制:
-
任务-动作对齐奖励:防止模型坍塌,确保生成姿态与指令相关。
-
跟踪误差奖励:鼓励生成易于下游跟踪策略执行的动作。
-
-
层次化学习:通过强化学习微调姿态生成模型,使其输出既符合指令,又满足机器人物理约束的姿态。
最终流程:语言指令 -> 姿态生成模型 -> (RLPF优化) -> 运动跟踪策略 -> 机器人控制
第一人称视觉理解
要让机器人真正理解它所处的环境,需要强大的第一人称视觉理解模型。当前模型在此方面表现不佳。
我们构建了大规模第一人称视频数据集,并训练了专用模型,在多项评测中达到领先水平。然而,一个根本挑战是:现有模型缺乏本体感知。它不知道“自己”(机器人)在空间中的位置、肢体尺寸和运动能力。
关键洞见:未来的视频理解模型必须通过后训练融入机器人的本体感知信息,才能成为合格的“机器人大脑”。
总结
本节课我们一起学习了利用互联网视频扩展人形机器人学习的完整范式。其核心是:
-
大规模预训练:从海量视频中学习人类运动先验(全身与手部)。
-
高效后训练:通过RLPF等方法,用少量仿真或真机数据将模型与具体机器人物理本体对齐。
-
感知融合:未来的视觉理解模型需融入本体感知,以真正理解第一人称视角的世界。
这条技术路线旨在从根本上解决机器人数据稀缺和泛化能力弱的问题,为构建通用机器人智能提供了一种可扩展的框架。
具身智能与人形机器人-p07-开放世界具身多模态基础模型与系统:仉尚航
在本节课中,我们将学习开放世界具身多模态基础模型与系统的核心研究。我们将探讨如何利用大模型技术,构建能够理解、规划并执行复杂任务的具身智能系统,并了解实现这一目标的两条主要技术路线。
概述:人工智能与机器人的融合新范式
人工智能和机器人技术正沿着各自的路径蓬勃发展。自2022年大模型技术出现以来,两者找到了一个关键的结合点。大模型能够赋予机器人更强的泛化能力和通用性,这成为了具身智能研究的一个重要转折点。具身多模态大模型,正引领着人工智能与机器人融合的新范式。
在2022年之前,具身智能系统通常只能应对单一的任务、单一的场景和单一的本体。大模型的出现,使得构建能够解决多种任务、跨越不同本体、适应不同场景的智能系统成为可能。然而,现有的具身大模型研究仍处于早期阶段,面临着不好用、不易用、不通用的科学难题。因此,我们需要研究更聪明的大脑模型和跨本体的大小脑协作框架,以实现可泛化的具身智能。
目前,具身大模型的研究呈现出百花齐放的状态,主要有三种技术路线:
-
端到端技术路线:即视觉-语言-动作模型。
-
分层技术路线:即“大脑”加“小脑”的架构。
-
世界模型路线:专注于构建对环境的内部模型。
我们的核心研究思路,是基于人类“快慢系统”的思维方式,构建面向具身智能的长程闭环框架。这一思想源于心理学家丹尼尔·卡尼曼在《思考,快与慢》中提出的理论:人类的思维既包含快速、直觉的“系统一”,也包含有意识、借助外部知识进行推理的“系统二”。我们在具身智能领域实践了这种快慢系统的思路,并探索了分层和端到端两种实现方式。
分层快慢系统:大脑与小脑的协作 🧩
上一节我们概述了具身智能的融合范式,本节中我们来看看第一种实现方式:分层快慢系统。这种架构模仿了人类的决策过程,将复杂的认知任务分解为不同层级的处理。
为什么需要“大脑+小脑”架构?
“大脑加小脑”是一种相对容易落地的技术方案。这种架构的优势在于:
-
易于模块化:各个功能模块职责清晰,便于开发和维护。
-
可解释性强:决策过程可以被分解和追溯。
-
跨本体泛化:“大脑”模型不直接输出具体动作,因此可以方便地适配到不同的机器人“小脑”上,增强了系统在不同硬件平台上的泛化能力。
构建面向具身智能的“大脑”模型
然而,并非任何一个多模态大模型都能直接作为机器人的“大脑”。我们发现,即使在通用领域表现强大的模型,在面向机器人任务时,也缺乏长程规划、空间理解和具身认知等关键能力。因此,我们需要专门设计面向具身智能的“大脑”模型。
一个合格的具身“大脑”应具备三大核心能力:
-
任务规划:将抽象指令分解为可执行的步骤序列。
-
可操作区域感知:理解在场景中哪些区域可以进行交互。
-
轨迹预测:预测执行动作所需的运动路径。
为了让多模态大模型具备这些能力,我们构建了专门的数据集 ShareRobot。该数据集包含5万条高质量的数据对,涵盖了规划、可操作区域和轨迹等信息。基于此数据集、特定的模型架构和训练策略,我们实现了从抽象指令理解到具体动作执行的具身大脑大模型。
我们的模型架构以一个多模态大模型为基础,其输出同时包含规划、可操作区域和轨迹三大能力。为了平衡模型已有的通用知识和新学习的机器人能力,我们设计了两阶段训练策略,确保模型“不忘记过去,也能适应未来”。
经过上述设计,我们的大脑模型在公开评测基准的多个能力维度上超越了已有模型。该工作有幸被CVPR接收,并入选了年度趋势热点工作。此后,我们进一步升级推出了 RoboBrain 2.0,这是一个面向长程操作任务及空间智能的大脑模型,在跨异构本体多机任务规划和空间感知能力上均有显著提升,并新增了闭环反馈和深度思考能力。
大小脑协作框架:RoboOS
有了强大的“大脑”和各个“小脑”,我们还需要一个协作框架将它们整合起来。为此,我们提出了 RoboOS 这一整体的大小脑协作框架。
RoboOS 以 RoboBrain 为核心,旨在实现跨本体、跨场景、多任务的快速部署,将具身智能从单机智能推向群体智能。经过迭代,RoboOS 2.0 是全球首个具身智能的 SaaS 平台,能将机器人部署成本从天级降低到小时级。同时,它构建了全球首个具身智能应用商店体系 MCP,支持跨本体的大小脑协作,让新技能的代码注册量仅为原来的十分之一。
RoboOS 2.0 还设计了共享记忆系统,包含空间记忆、时间记忆和本体记忆,使得多机器人协作成为可能。例如,系统可以指挥松灵双臂机器人、宇树G1人形机器人和越凡单臂机器人协同完成“做汉堡”和“做饮料”等复杂任务。
评测基准:RoboBench 与 RealBench
为了公平、公正地评估具身智能模型的能力,我们提出了两个评测基准:
-
RoboBench:专门针对“大脑+小脑”分层框架设计,评测大脑的指令理解、感知推理、任务规划等能力。 -
RealBench:针对真实机器人操作任务设计的评测基准,包含32个标准任务和两个可复现的真实场景,旨在解决模拟器与真机性能差异的评估难题。
评测发现,当前的多模态大模型在具身大脑任务上仍有明显不足,其表现明显低于人类水平,这仍是未来需要攻克的关键难题。
端到端快慢系统:一体化的VLA模型 ⚡
上一节我们介绍了分层的快慢系统架构,本节中我们来看看另一种主流技术路线:端到端的快慢系统,即视觉-语言-动作模型。
VLA模型的特点与挑战
VLA模型的核心思路是直接利用在海量互联网数据上预训练的多模态大模型,强化其视觉-语言理解能力,并让其直接生成动作规划,最终实现可泛化的控制。现有的VLA模型主要有三种输出动作的设计方式:
-
自回归预测:优势是保留推理能力,但动作量化可能破坏连续性。
-
回归式拟合:动作平滑,但可扩展性不足,未充分利用动作的概率性表达。
-
扩散头生成:操作精确,但未能充分发挥VLM的推理能力。
当前的一个关键难题是:如何在VLA中统一自回归和扩散生成,以兼顾推理能力和对连续、多峰动作的建模能力?
启发于人脑分化:HA² 模型
受到人脑细胞会分化成不同功能脑区,且脑区间紧密耦合的启发,我们思考能否让VLM通过训练“分化”出动作生成能力,而非简单拼接。为此,我们提出了 HA² 模型。
HA² 是一个统一的VLA框架,它将扩散生成和自回归令牌预测进行了无缝融合。我们设计了令牌序列公式、分析了多种协同训练策略,并建立了协同动作集成机制。这使得两种动作预测方式能够相互增强,适应多样的复杂操作任务,实现更稳定的控制。
实验表明,HA² 在多个任务上的平均成功率显著提升,证明了融合方案的有效性。同时,它在空间位置、操作对象、背景光照等方面也展现了良好的泛化能力。
一体化快慢系统:Fast-in-Slow 模型
那么,如何在一个VLA模型内部真正实现“快慢系统”呢?我们最新的工作 Fast-in-Slow 给出了答案。这是首个快慢系统一体化的VLA框架。
Fast-in-Slow 的核心思想是将“系统二”的慢速推理能力和“系统一”的快速执行能力,整合到同一个VLA模型中。这与之前将两个系统作为独立模型的设计有本质不同。我们的模型源自同一个基础VLM,系统一和系统二之间可以无缝协同。
该模型有两个关键设计:
-
异步频率:系统二(慢系统)和系统一(快系统)以不同频率运行。
-
异构模态输入:系统一更强调视觉感知输入,系统二更强调语言抽象输入。
通过一种双系统感知的协同训练策略,我们在超过86万条轨迹数据上进行了预训练。实验证明,Fast-in-Slow 在保持高精度推理能力的同时,控制频率最高可达117.7赫兹,并且在真实机器人任务中表现出良好的性能和泛化性。
总结 🎯
本节课中,我们一起学习了开放世界具身多模态基础模型与系统的研究。
我们首先了解了人工智能与机器人通过大模型技术融合的新范式。接着,我们深入探讨了实现具身智能的两条主要技术路线:
-
分层快慢系统:通过“大脑”进行规划与推理,“小脑”负责具体执行,并借助
RoboOS框架实现协作。这种方案模块化程度高,易于跨本体部署。 -
端到端快慢系统:在单一的VLA模型内部整合快慢两种能力,如
HA²和Fast-in-Slow模型所示。这种方案追求更紧密的耦合与更高的执行效率。
此外,我们还介绍了用于评估这些模型的基准 RoboBench 和 RealBench。这些研究工作均已开源,旨在推动具身智能领域从单机智能向群体智能发展,并最终实现智能系统在开放世界中的广泛应用。
具身智能与人形机器人-p08-视触觉感知的具身智能操作:方斌
在本节课中,我们将学习视触觉感知如何赋能具身智能操作。我们将探讨触觉感知的重要性、视触觉传感器的原理与优势,以及如何利用仿真和数据驱动的方法来提升机器人的操作能力。
嘉宾介绍
我们荣幸邀请到下一位嘉宾,北京邮电大学的方斌教授。方斌教授是北京邮电大学的拔尖人才教授,主要研究方向为机器人智能感知、交互与操作。
方教授兼任人工智能学会认知系统与信息处理专委会秘书长,是中国人工智能学会的杰出会员及IEEE高级会员。他曾发表上百篇高水平论文于 Nature Communications、T-RO、Robotics 等期刊及 ICRA 等会议,并获得八项国际会议和期刊的最佳论文奖。
今天,方教授将为我们带来关于视触觉感知的具身智能操作的精彩报告。
报告内容概述
非常感谢王老师和张老师的邀请,今天非常荣幸能在这里分享我们在视触觉感知方面的研究。上午孙峰老师介绍了他们团队的许多工作,下午我将主要围绕触觉方向,介绍相关的研究。
我们知道,当前具身智能的研究主要围绕两个方向展开:导航和操作。在通用操作领域,仍存在许多挑战和问题。面向抓取的操作任务,本身就是一个涉及多学科交叉的方向。
机器人操作的发展阶段
对于抓取操作,我们可以简单地将其发展分为三个阶段。
第一阶段是“抓住”,即实现自主抓取物体。这一阶段以视觉为主导,代表性工作如罗老师的“Net”以及智源王贺老师所做的多背景切换抓取研究。它们的目标是在不同场景和物体变化下,实现自主抓取。
第二阶段是“抓稳”。这除了需要视觉引导的自主抓取能力,还需要结合手部与物体接触时的触觉能力。目前许多抓取研究在物体材质属性上较为单一,触觉在应对动态操作任务(而非简单的拾取-放置任务)中的作用尚未被充分强调。在物流分拣等场景中,任务多属于第一阶段。而对于抓取物体后需进行的后续动态操作,触觉能力至关重要。
第三阶段是“抓好”。这需要结合具备认知能力的大模型,以实现对任务和工具的更好理解与使用,例如使用工具完成任务。
在这三个阶段中,我今天将重点介绍结合触觉如何开展相关任务。
触觉智能的重要性与挑战
对于我们今天的主题“具身智能和人形机器人”,为什么具身智能在今天如此火热?一个重要原因在于机器人本体的不断成熟,尤其是视觉智能对AI及具身智能的巨大推动。
但要真正理解人类的机理,除了语言和视觉,触觉是一个非常重要的因素。我们全身的皮肤表面触觉、内部神经及许多器官的本体感觉都属于触觉范畴。Science Robotics 的前瞻性论文也提到,触觉研究对于机器人或人形机器人的发展至关重要。
目前,语言智能和视觉智能极大地推动了具身智能的发展。那么,触觉智能是否也能在此方向上推动机器人,特别是通用智能的发展呢?这仍面临许多挑战。
触觉技术在发展上相对视觉和语言较为落后,一个重要原因在于触觉传感器尚未形成统一的技术路径。其测量类型非常丰富,例如电容式、压阻式等,导致数据格式多样。这种多样性为学术研究提供了很多机会,呈现出百花齐放的局面。Science 和 Nature 上每月都有多篇关于触觉或电子皮肤的研究论文。
然而,对于基于数据驱动的学习,这种多样性也带来了诸多挑战。
视触觉传感器的兴起与优势
经过几年发展,触觉类型的多样性逐渐形成一个共识,即视触觉传感器的技术路径——基于图像来表征触觉测量方式——受到了极大关注。
去年 Science Robotics 有两篇相关论文,其中一篇封面论文来自Meta和CMU,他们结合视触觉传感器完成了手内物体的三维重建任务。同一期刊还发表了一篇焦点论文,提出了“触觉融合”的观点,认为视触觉传感器推动了机器人灵巧操作和具身智能的发展。
它的优势在于结构相对简单,但所蕴含的信息非常丰富。可以说,这类传感器具备了人眼的分辨率和人类皮肤的敏感性。因此,它不仅吸引了传统传感器领域的研究者,也吸引了许多计算机视觉领域的研究者。
我们课题组是国内最早开展相关研究的团队之一。早在2014年(十多年前),我们就做出了视触觉传感器系列工作,开发了不同类型的传感器,探索了许多工艺和材料,并搭建了视触觉传感器仿真器,开展了一系列感知研究及操作应用研究。因此,在视触觉传感的研究体系上,我们相对完善。
它的优势在于所依赖的工艺不复杂,涉及的材料也相对容易获得,降低了传感器实际使用的门槛。我之前在清华计算机系工作,具有CS背景,我们使用的材料基本都能在淘宝上买到,制作工艺也不复杂。因此,这类视触觉传感器可以根据不同的实际操作需求进行DIY制作。
在2021-2022年,我们整理了一份详尽的综述,涵盖了传感器涉及的所有材料、器件甚至具体型号,希望大家能根据自己的需求定制相应的传感器。
视触觉传感器的应用
基于这样的传感器,其优势在于利用图像表征触觉,信息量丰富,能获得精细的纹理信息。
我们将其应用于不同场景,例如化石鉴定场景。化石表面通常非常粗糙,其纹理很多时候肉眼难以清晰观察。但基于传感器的按压,我们可以获得非常精细的纹理信息,这为接触感知提供了丰富的数据。
除了测量纹理,触觉中另一个重要模态是测量力信息。在实际操作,尤其是涉及丰富接触的装配任务中,需要获得相应的力信息才能完成装配。我们也将基于视触觉传感器获取力信息的相关算法做了完整整理,包括我们自己的研究工作,均已开源。
当然,除了测量力,它还能获取触觉纹理信息。有了纹理信息,结合视觉,就能实现三维重建。我们在抓取物体时,不仅能获取其表面形态,还能得到精细的材质纹理信息。Science Robotics 的封面论文就专注于三维重建任务。在图形学或CV领域,三维重建是一个专门方向,之前的工作大多基于纯视觉。利用视触觉进行三维重建,仍有很大的探索空间。
除了感知任务,我们也希望将其真正用于实际的操作任务,实现稳定抓取。对于不同重量或材质的物体,抓取过程中需要手上的“感觉”才能将其真正抓稳。因此,我们结合自研的视触觉传感器,开展了一些稳定抓取的研究。
实现稳定抓取:两阶段策略
我们提出了一种两阶段稳定抓取策略。
第一阶段是基于初步预抓取的探索,实现对未知物体能否稳定抓取的初步判断。
第二阶段是基于触觉伺服的稳定抓取策略,实现最终抓取。
底层设计了一些控制器来完成此任务。我们结合的信息主要基于视触觉传感器中的标记点信息。对于稳定抓取,我们需要获取的是动态过程中相对滑动的信息,表面的纹理信息并不重要,相对运动信息更为关键。因此,我们基于标记点来表征相对滑动中的动态信息,并设计了相应的控制器。
我们首先设计了一个预抓取控制器,其中阈值的调整基于实时稳定性判断,以实现响应式抓取。我们搭建了实验装置,通过标准平台对控制器参数进行了预设,然后迁移到真实场景中。
通过标记点的初步位移来判断物体与手之间的状态,进而实现整个控制策略。我们进行了一系列测试,包括与无触觉反馈的对比、自适应性以及鲁棒性测试。
结果显示,在使用商业夹爪抓取鸡蛋或海绵时,若无力反馈,鸡蛋很容易被捏碎。而结合我们自研的视触觉传感器及自适应抓取策略,可以实现基于预抓取和稳定抓取的完整过程。即使是轻柔的海绵,也能实现精细抓取。对于重物抓取,为防止滑脱,可以调整抓取力。
我们还使用多种真实水果(如葡萄、水蜜桃)对整个策略进行了鲁棒性测试,取得了较好的效果。
触觉数据生成与仿真
在实际研究过程中,我们也在思考,为什么语言和视觉能在AI中发挥如此好的效果?一个关键优势在于数据。触觉模态由于传感器尚未很好量产或形成通用共识,其数据积累过程耗时、耗力又耗财。
因此,如何生成触觉数据?仿真成为了当前的一个热点方向。英伟达在具身智能方向重点布局,近两年也在重点开发此类触觉仿真器。例如,上个月 T-RO 上发表的“Tacchi”就是基于视触觉传感器的仿真器,此外还有基于磁触觉的仿真器等。
基于仿真的触觉数据生成,是目前一个重要问题,也是具身智能值得关注的方向。我们上个月发表了一篇工作,探讨了触觉数据生成问题。
目前,视触觉传感器至少在学术界逐渐形成共识,许多团队开发了相关数据集。在实际应用过程中,将真实触觉数据与仿真数据结合使用,无论在性价比还是成功率上,都能达到更好的效果。
那么,如何获取高质量的仿真触觉数据?仿真中的核心问题主要包括三个方面。
首先是弹性体仿真。触觉的本质因素是什么?是形变。无论何种原理,本质上都是因形变产生信号,视触觉也是如此。在接触过程中,弹性体的形变被捕捉,我们只是用图像方式捕捉了形变信息。在仿真中,如何模拟弹性体的形变特性是一个关键因素。
当然,视触觉传感器是基于光学和图像的测量方式,因此光学仿真以及标记点位移仿真也是重要问题。
对于弹性体仿真,目前主流技术手段主要有三种。
-
基于刚体的弹性体仿真:如早期的有限元法,或主流机器人仿真器(如PyBullet、MuJoCo)中使用的方式。其精度较低,缺乏物理特性。
-
基于有限元法(FEM)的弹性体仿真:能获得较高的物理特性和精度,但劣势在于效率较低,计算成本更高。
-
基于材料点法(MPM)的仿真:在大变形仿真中效率更高,但精度较有限元法稍差。
此外,还有一些基于学习的方法,例如通过跨模态生成(从正常图像生成接触图像)或图像到触觉的生成方式。这也是当前一个热点方向。
获得数据后,应用主要在于三个方面:多模态表征、三维重建以及具身智能操作。
视触觉仿真器的开发
关于视触觉仿真器,我们较早开始了探索。当时,清华毕业、在MIT的胡渊明开发了著名的图形学开源框架“太极”。我们结合“太极”开源仿真器,开发了视触觉仿真器。我们从2020年开始探索,至今仍在不断迭代。前期与浦江庞老师合作,尝试将仿真器集成到“桃源2.0”版本中,以提供更好的接触触觉信息。
在早期的一个ACM工作中,我们基于“太极”的粒子特性,仿真了不同属性的物体,实现了接触变形的基本效果。在接触过程中,我们可以实时反映物体的形状变化。这至少为视触觉提供了最基本的接触信息特性。
在此基础上,我们将光学模型集成进去,开发了“太极1.0”版本。该版本仅实现了简单的按压过程以获取触觉图像。在仿真到真实的精度上,还有待进一步提高。
在1.0版本基础上,我们针对光学仿真的路径追踪进行了优化,提升了仿真效率,完成了“Efficiency TaiChi”工作。
在实际物体接触过程中,按压只是最基本的触摸模式,还有许多其他模式,如滑移、旋转等。我们在之前版本基础上,开发了支持多运动接触模式的仿真器“Multi-Motion TaiChi”。这项工作由一名本科生完成。
在这项工作中,我们进一步希望在实际物理过程中,除了刚性物体,还能模拟弹性、塑性以及弹塑性物体,进而实现相应的操作学习任务。在操作任务中,变形体的操作一直是个难题。因此,我们开发了一种新型传感器,与原有视触觉传感器相比,其感知模式更多。我们探索了一个从仿真到真实的整体框架,结合强化学习在仿真中学习不同变形体的操作策略,例如将物体压成特定形状或揉成球形、圆柱形等。通过在仿真中学习策略,然后迁移到真实机器人上,从实际效果看,触觉及不同材质物体的仿真对我们的学习效率有很大提升。
在最新工作中,除了纹理图像,我们还同时结合了标记点信息。这样,对于动态任务的操作学习,基于标记点表征的效率会更高。在运动模式上,我们也可以实现按压、滑移、旋转等不同组合运动。结合这些信息,我们可以获得很好的操作任务。
目前,我们的研究成果已应用于国家空间在轨操作任务中。我国拥有自己的空间站,但在轨维护维修风险很高,宇航员出舱成本高昂,对生理心理挑战巨大。维护维修过程也是高难度挑战。在此方向上,我们正与航天院所合作。相关成果在去年世界机器人大赛的太空机器人比赛中,获得了唯一的特等奖。
我们总结了近几年关于视触觉感知、仿真操作的相关文献。对此方向感兴趣的同学,可以参考这份清单。
多模态融合与未来展望
触觉本身是单一的模态。我们是否可以将其与视觉、语言关联,进行更丰富的多模态感知工作?我们与北交大韩军老师合作,发布了“Touch100K”数据集,并在GitHub上开源。此外,我们最近提出了“UniTouch”工作,希望在视触觉传感器多样化的现阶段,提出一个统一表征框架,将不同视触觉传感器信息进行统一表征。这样,无论是后续的感知任务还是基于操作的任务,都能结合“UniTouch”框架进行统一处理。
当然,我们也尝试将触觉模态融入现有的视觉-语言-动作框架中。因此,我们正在探索“VTLA”的工作。要实现VTLA,首先需要将触觉模态与后续动作进行对齐。我们最近的一项工作包括与语言的对齐,提出了“CLTP”框架,希望不仅依靠视觉完成操作,仅靠触觉模态也能完成相应任务。
未来趋势的个人观点
对于未来趋势,我发表一些个人观点,仅供参考。
从去年开始,许多工业界和投资界人士询问,当前触觉传感器方式多样,何时会收敛到一个统一路径?我的个人观点是,至少目前视触觉传感器方案在业界和学术界的研究规模上相当可观。因此,对于灵巧手或多指间的操作,这项技术路径可能会形成较为统一的认识。我认为视触觉传感器在灵巧手操作上会形成较为统一的技术路径。
从去年开始,VLA成为一个热点方向。我个人的判断是,从今年开始,VTLA将成为具身智能的新爆发点。将触觉融合到视觉中,尤其对于操作任务,将提供更强大的能力。如前所述,从“抓住”到“抓稳”再到“抓好”,三个阶段在实际工业或家庭服务场景中提供的能力将会有阶段性的跃升。
第三个观点,我认为双臂操作的能力还会有进一步的提升和挖掘。从特斯拉的“Optimus”双臂演示开始,点燃了人形机器人和双臂操作的热潮。但当前的演示末端多以夹爪形态出现。从去年下半年到今年,多指灵巧手逐渐增多,产品不断成熟。这种高自由度的形变操作潜力巨大。对于具身智能,如何在双臂、高自由度上挖掘其能力,以及更好地使用工具,兼顾效率与通用性,仍有很大空间。当前许多VLA研究强调通用性,但在实际工业场景中,效率是一个重要方面。以上是我个人的观点,仅供参考。
对于机器人的通用操作以及触觉在其中的作用,我认为未来仍有很大潜力。我也希望机器人不仅能出现在展台上,更能真正进入我们的工作和生活,提供有价值的服务。
总结与邀请
在本节课中,我们一起学习了视触觉感知在具身智能操作中的关键作用。我们从机器人操作的三个阶段(抓住、抓稳、抓好)入手,探讨了触觉智能的重要性与当前挑战。重点介绍了视触觉传感器的原理、优势及其在稳定抓取等任务中的应用。我们还深入了解了通过仿真生成触觉数据的方法,以及多模态融合的未来趋势。
最后,我刚刚加入智源,并于去年从清华计算机系调到北邮,建立了“DeTouch Lab”,并与智源有联合培养博士名额。对此感兴趣,尤其是对智源有期待的优秀同学,可以给我发邮件。
谢谢大家。
具身智能与人形机器人-p09-人形机器人规模化落地的机遇与挑战:赵同阳
在本节课中,我们将学习重情机器人创始人兼CEO赵同阳关于人形机器人创业历程、技术挑战与未来机遇的深度分享。课程将涵盖从创业初心、技术演进到产品理念和行业展望的全过程。
创业初心与早期探索
我们首先探讨赵同阳先生投身人形机器人领域的初衷与早期面临的挑战。
赵同阳是一位连续创业者,现任重情机器人创始人兼CEO。2025年5月,重情机器人荣登福布斯中国人工智能科技企业Top 50榜单。他构建了“硬件平台加开发者生态”的模式,其产品S01获得了科大讯飞年度最佳杰出产品奖,PM01入选了英伟达开发者生态计划。目前团队接近100人,计划在年内实现产销1000台以上的目标。
他分享道,自己是在半个月前受王贺老师邀请前来。在聆听了其他专家教授在具身智能领域从理论公式到整体架构的深入研究后,他深感敬佩。他本人更多专注于硬件和软件技术,在具身智能领域涉猎不深,因此前来听取专家看法。在人形机器人领域,他自认为是一个“合格的创业者”,但称不上“优秀”,因为这个事业他已经坚持了十年。他希望能从另一个角度分享对人形机器人行业的看法。
他首先解释了为何选择人形机器人赛道。大约在2016年,他与杭州及国内的一些伙伴开始涉足。当时,中国在人形机器人领域,无论是技术还是商业上都可谓一片黑暗。市场上只有日本本田的ASIMO和波士顿动力的产品,价格高达千万级别,而中国只有玩具级别的产品。很多时候,创业源于热爱而非清晰的商业前景。正是这份热爱让他坚持下来,尽管初期投融资并不被市场看好。热爱能让人跨越周期,坚持十年。如果纯粹为了资本做事,会感到疲惫,因为需要向很多人交代,而不是给自己交代。他们坚信这件事能改变人类的未来。他从小受到《终结者》等影视作品的影响,AI和机器人从视觉和心灵上都带来了巨大冲击,让他相信这就是未来。
创业初期,有人建议他做更容易落地的行业,比如2016年正受热捧的机械臂行业,其市场场景明确。而人形机器人在当时被视为一个巨大的梦想,甚至被投资人认为是“在做梦”。但他认为,创业早期不应介意他人看法。最初,他们以为事情很简单,预计半年就能做出来,这种“无知”和“无畏”恰恰是敢于起步的原因。如果一开始就知道需要十年,或许就不敢开始了。他定义人形机器人时,希望做出“具有灵魂”的机器人,而不是冰冷的工具。人类已经发明了太多没有感情的工具,他们希望机器人能有自己的思想和决策能力,这是一件很酷、很伟大的事。
从四足到双足的技术路径迁移
上一节我们了解了创业的初心,本节中我们来看看在技术路径上如何从四足机器人过渡到双足机器人,以及其中的经验教训。
从2016年创业至今已近十年。最早的资金来自他个人。在创业之前,他创立了一家物联网公司。因为他没有显赫的学历和光环,只有梦想。他意识到仅有梦想不够,还需要创造条件。于是在2012年至2016年间,他创立了一家物联网公司,专注于Wi-Fi蓝牙模块,公司从一人发展到两百人,存活了十三年,年营收超过两亿,这算是第一次创业成功。他将这次成功获得的资金用于支持机器人梦想。当自身条件不足且资本不看好时,需要自己创造条件。到2016年,他手头有了六七百万,于是开始投身人形机器人。
起初,不像现在的新能源汽车有特斯拉可以对标和拆解学习。2016年时,只有波士顿动力和ASIMO的产品,售价超过千万。他们的资金连半个机器人都买不起,因此只能自主研发。这看似是劣势,但也成了机遇,因为如果东西能轻易买到,就难以体现核心价值。于是他们从核心零部件,包括电机、减速机、控制器、传感器开始做起。
然而,一开始就挑战双足人形机器人问题很大。双足机器人天然是不稳定系统,而四足机器人像桌子一样,拥有天然的稳定系统。因此,从2016年到2018年,投入的近700万资金消耗殆尽后,他们迅速转向研发四足机器人,这对团队的快速发展更有帮助。在创业过程中,目标可能无法一蹴而就,中间需要经历一些过程。幸运的是,在四足机器人上积累的硬件、核心零部件、软件算法等技术,有大约70%可以迁移到双足机器人上。这意味着人才、技术和软硬件大部分是通用的。
时间来到2020年,他们的双足机器人成为国内首款10公斤级别的产品。比杭州某家公司早了约半年推出,并售出了近200台。随后,公司在2020年被小鹏汽车收购。被收购解决了创业中最难的资金问题,也让他感到有了用不完的资金和人力。他之所以同意被收购,主要是钦佩何小鹏本人从UC浏览器到小鹏汽车,屡次在激烈竞争中胜出的经历,认为值得跟随和学习。
在小鹏汽车的三年里,他在深圳成立了“鹏行”,并在美国硅谷、北京、深圳三地建立了超过340人的研发团队,面试过的工程师达两三千人。从一个小组到大团队的转变过程充满挑战,但他非常感谢何小鹏的督促,这对他的成长帮助很大。生命中只要坚持,就可能遇到各种贵人。
2023年,他从鹏行团队中挑选了18人,加入广州小鹏汽车,用了6个月时间做出了小鹏的第一款人形机器人,当时国内只有三家公司能做到。这得益于过去的技术沉淀。然而,经历过小团队和大公司后,他意识到并非有钱有人就一定能成就伟大的事业。极致的创新往往来自小团队。因此,他在2023年决定再次出来创业。
2023年再次创业时,他勇气很大,身上只有100多万,其中100万用作注册资本,20万留给两个孩子一年的学费。他意识到这是破釜沉舟,不留后路。创业初期,在没有资金的情况下招募顶级人才非常困难。如果你告诉一个年薪200万的人你只有20万,很难说服他们加入。幸运的是,一些以前的兄弟愿意跟随,同时他也多次到北京招揽人才,过程艰辛,但最终成功吸引了来自UC伯克利、清华、北大、杜克、CMU、港中文等顶级名校的人才加入。
产品迭代与极致追求
在解决了团队和方向问题后,产品开发成为核心。本节我们将了解重情机器人如何通过产品迭代,并贯彻对“极致”的追求。
刚开始做产品时,无法一次性做好所有功能。因此,他们先推出初级状态的产品。第一款产品在去年12月前推出,售价约3万多人民币,能够完成行走和奔跑等基本动作。他们将价格从以前的四五十万降至三万多元,目标是让每家高校甚至个人都买得起,以此推动行业发展并打磨团队。
随后,有投资人吐槽产品只有“半个身子”,质疑其商业价值。创业初期,无论团队是3人还是30人,投资人总会问及“本体、小脑、具身智能、大脑”是否齐全,这迫使团队从一开始就思考长远的架构搭建。
于是,第二款产品应运而生。这款产品按照工业级标准打造,目标是拥有10到15年的寿命。机器人寿命主要取决于本体和机械结构,目前人类工业验证的最佳范例是汽车,其寿命通常在10到15年。因此,人形机器人的寿命也大致在这个范围。他们分析,真正能做事且寿命达10到15年的机器人,成本至少在10到15万,售价可能在十七八万。相比以前四五百万的成本,这已经非常划算。但他们仍觉得贵,因此又推出了售价8000元的产品,以便快速获得市场验证。
第二款产品在去年10月24日推出时,是全球首个能像人一样“大步流星”、“挺直腰杆”自然行走的机器人。以往的机器人给人的印象是弯腿、屈膝、小碎步,像个老人。他作为产品经理,认为这种形态无法提供良好的服务体验。因此,他要求团队必须实现自然步态,否则相关人员需要离开。他们采用了强化学习加模仿学习,再加上特殊技术来实现这一点,而墨守成规、坚持使用传统基于模型(model-based)方法的团队被调整了。
他要求产品在每一个细节上追求极致,包括关节设计、外部线条隐藏等,就像汽车行业中奔驰、宝马与普通车的区别一样。极致的产品细节决定了其高度。他经常与工程师激烈讨论,甚至被质疑“你懂还是我懂”。他会回应,虽然工程师是专家,但作为一个旁观者,如果觉得产品“很low”,那么专家更应该反思。这种对产品的极致追求,而不仅仅是技术,是决定能否前进的核心。
这款机器人身高1.38米,行走姿态潇洒。团队还追求极限运动能力,如奔跑、蹦跳,甚至挑战比人类更快的速度、更高的跳跃。他们想知道产品的极限在哪里,这能带给工程师信心和自豪感。例如,在实现奔跑时,他要求必须有“腾空”动作,否则只是“快走”。这个细节他们调整了两个月。
他们希望机器人不仅行动像人,后续的操作等各方面也像人。他不对比冰冷的数据,而是问工程师:“你对自己的产品满意吗?拿你自己对比最好。”如果机器人行动缓慢、不连续,连自己都不满意,那就必须改进。他们的目标是,在未来3到5年内,让机器人在聊天、沟通、互动上几乎与人无异,脱离“工具”的属性,成为有意识、有喜怒哀乐的“人”。
此外,他们还让机器人尝试跳舞等高灵活性动作。最初成功率只有1%,经过算法调整和工程优化,一个月后成功率提升到90%。这说明了工程能力决定了产品表现的下限(地板),而不仅仅是算法决定上限(天花板)。很多顶级算法工程师不愿处理与物理世界相关的工程细节,而大师与专家的区别就在于能否雕琢每一个细节。
硬件收敛、成本与行业现状
在对产品形态有了深入理解后,我们转向支撑这些产品的硬件技术、成本控制以及当前行业的发展状况。
在硬件方面,行业技术方案开始收敛,从行星减速器、谐波减速器到直线推杆等。工作效率从早期的50%-60%提升到接近70%-80%。效率越高,发热越小,续航越强。机器人的整体工作效率和寿命也与算法强相关。他们发现,“自然步态”不仅好看,还比“弯腿屈膝小碎步”更省能量,功耗更低。
成本方面也有显著下降。海外机器人创业公司通常直接采用最高级的方案(如直线推杆),成本是国内方案的10倍,但动态性能可能还不如国内的行星/谐波减速器方案。
关于机器人寿命,要实现10到15年的工业级寿命,目前的技术只能做到约2年。从热处理、材料选型到结构稳定性算法,仍需3到5年时间完善。他们预估,5年之内,机器人的机械寿命能达到10到15年,软件则可通过可插拔方式更新。
关节模组占了机器人身体重量的60%-70%,以及造价的80%。它如同汽车的引擎,决定了寿命、爆发力和稳定性。另外10%-15%的成本来自半导体,如MOSFET器件、视觉感知传感器等。
本体、小脑、具身智能与大脑的四大板块
上一节我们讨论了硬件基础,本节我们来看构成完整机器人的四大核心板块,以及创业公司如何平衡发展。
机器人由本体、小脑、具身智能和大脑四大板块构成,缺一不可。只做好其中两块,就可能成为一家百亿甚至千亿市值的公司。例如,只专注于具身智能,也能成为一家非常优秀的公司。但在创业时,投资人总会问你是否四大板块都强,无论团队是3人、30人还是300人。因此,需要做好全面准备,但不应被投资人的节奏打乱。早期团队不可能面面俱到,如果什么都想做,可能什么都做不精。他们的策略是先在本体和小脑方面做扎实,然后再向上发展。同时,具身智能和大脑的团队也在组建中,因为这是机器人的“灵魂”。他希望做有灵魂的机器人,而非单纯的硬件公司。
他借此机会为正在招募具身智能和大脑人才的公司做了宣传,表示公司资金和职位充足,氛围扁平化,欢迎人才加入。
但他也认为,一家公司不可能吃下整个市场。他们希望开放自己的本体、小脑等技术,与合作伙伴一起构建生态。人形机器人将是人类下一次工业革命,其影响将比电脑和汽车更加深远。这个市场空间足够大,足以容纳全球8到10家公司活得很好,因此现在创业或加入优秀团队都为时不晚。一个人可以做一些厉害的事,但一帮人才能做一些改变世界的“牛逼”的事。
他们已有一些生态合作伙伴加入开发计划,并正在同步开放开发工具。公司目前约八九十人,发展了一年半。他们控制人数规模,希望每个新成员都能带来极致的能力提升,而不仅仅是复制现有能力。他们也愿意培养刚从高校毕业的新人。
商业化落地与未来展望
在构建了技术和团队基础后,商业化落地是最终考验。本节我们探讨人形机器人商业化的时间表、挑战以及未来的应用场景。
关于商业化落地,很多人问何时能实现。目前机器人能做蹦跳等动作,看似在“娱乐大众”。他认为这没关系,因为任何新设备初期都能带来情绪价值。只要能创造价值并形成大生意,就是好事。他们甚至曾被定义为“影视公司”,但他认为如果能将影视行业做大,也是一次很好的经历。
马斯克等人发表过许多关于机器人的言论,但他认为行业才刚刚开始,每个人都有机会,不必过于关注大佬说了什么。
关于人形机器人的产量,他预计未来一年左右,行业(包括他们和竞争对手)总共能产出两三万台。三年内,马斯克声称要达到30万台,但他基于对中国市场理论数据和技术能力的调研,认为一年产出3万台是比较现实的目标,30万台的目标定得太高。
2022年之前,在大模型(如ChatGPT)未广泛应用时,他们认为机器人即使做得再优秀,若没有“灵魂”,价值也会大打折扣。他们曾预测到2035年才会出现重大突破,但2023年ChatGPT的出现令人惊讶。这说明除了他们在努力,整个行业都在进步。中国在相关领域的人才数量和质量不输海外,因此中国在该行业做到世界数一数二是有机会的。但在具身智能的硬件算力及算法人员数量上,需要清醒认识到与海外仍有一定差距,不过差距不大,有些方面甚至可能超越。
他们目前聚焦两件事:体能和智能。他们追求极致的体能表现,如奔跑、格斗,甚至研发身高1.8-2米、格斗会冒火花的机器人。目的是将体能做到极致,当人们发现跑不过、打不过机器人时,就不会再质疑它有什么用。制造一定的“恐慌”有助于让人们认识到其价值。另一方面,智能的发展则需要整个行业的共同努力。
面对质疑与脚踏实地
在追求高大上目标的同时,创业过程充满质疑和失败。本节我们看看如何面对这些挑战,并回归到解决最基础的问题。
在发展过程中,他们时刻面临质疑和失败。甚至在网络上和行业内被骂得很惨。他们的做法是,像汽车刚发明时跑不过马车一样,坚持前行。他们会把最难听的批评拿出来,放在公司屏幕上让每个工程师看,让大家感到愤怒,并将愤怒转化为力量。他们不回避质疑,反而直面它。
千头万绪,始于足下。在实现了跑跳等酷炫功能后,下一步是如何稳定落地。如果人形机器人不能安全地从A点移动到B点,例如从房间出门、上电梯、到另一栋楼取物再返回,那么双足机器人的价值就存疑。这件事在学术上没有瓶颈,但在工程上目前没有一家公司能做到。这是基础能力,如果不解决,双足机器人就是伪命题。双足存在的价值正是为了到达人类能到达的任何地方,否则轮式机器人就够了。因此,下一个根本任务是解决双足机器人在视觉引导下的全地形适应能力,并实现稳定、优雅、快速的移动能力。具备这个能力后,送快递、送外卖等应用才会产生巨大的商业价值。所有伟大的事业都要从脚下开始。因此,除了做酷炫的事,接下来更要做对商业有帮助的、稳定的事。
他们计划在今年年底举办机器人格斗比赛,使用1.8-2米高的机器人,进行类似WWE的激烈对抗。他们内部已成立专门团队。他认为大疆的RoboMaster比赛不够刺激,希望创造一场更精彩、能给世界带来趣味的全球性格斗比赛。
本节课中,我们一起学习了重情机器人创始人赵同阳的十年创业历程。从源于热爱的起步,到技术路径上从四足到双足的迁移;从对产品形态与极致细节的执着追求,到对硬件成本、寿命的理性分析;我们了解了构成机器人的四大核心板块,以及创业公司如何平衡发展与聚焦。最后,课程探讨了商业化落地的现实挑战与未来展望,并强调了解决基础移动能力的重要性,以及面对质疑时脚踏实地的态度。整个分享描绘了一幅人形机器人领域充满机遇、挑战与无限可能的画卷。
具身智能与人形机器人-p10-解决具身智能的数据瓶颈:高阳
在本节课中,我们将学习清华大学高阳教授关于如何突破具身智能发展核心障碍——数据瓶颈的思考与探索。我们将了解具身智能的定义、其与传统机器人的区别、当前面临的挑战,以及通过创新方法获取和利用数据来训练智能机器人的具体路径。
什么是具身智能?🤖
上一节我们介绍了大会的主题,本节中我们来看看具身智能的具体含义。从数据的角度描述,具身智能与过去的机器人有本质不同。
具身智能 是让机器从“键盘侠”变为“行动派”。大语言模型擅长处理信息和生成内容,而具身智能旨在将这种智能能力迁移到物理世界,让机器人能够完成诸如扫地、倒垃圾、洗菜等繁杂的家务劳动。
从字面上理解,具身智能就是“具身”加“智能”,即将智能赋予到身体之上。具体而言,具身智能需要理解物理世界的重力、摩擦力、空间关系、形状、因果关系以及物体的存在意义等。
在深入讨论之前,我们可以回顾一下20年前的机器人技术。例如本田的ASIMO机器人可以跑跳、推车;Shadow Hands灵巧手可以拿捏鸡蛋;波士顿动力的大狗能在复杂地形稳定行走;DLR的Justin机器人可以拧瓶盖。这些演示在当时非常先进,但它们都依赖于预先编程的、非智能的传统算法。机器人“看不到”也“不理解”周围环境,只是机械地执行轨迹。
核心变化在于智能性。今天的进步并非硬件,而是我们为机器人赋予了智能。过去每个炫酷的演示都需要大量工程师耗时数年专门开发,无法转化为日常生产力。因此,机器人大规模落地的核心问题是实现智能化。
智能化的市场前景与分级 📈
理解了具身智能的核心后,我们来看看其市场潜力和发展阶段。
当前已落地的机器人市场包括机械臂和扫地机器人,后者因更易用而拥有更大出货量。相比之下,手机和汽车是人人可用的设备,市场量级巨大。
公式:具身智能潜在市场 ≈ 汽车价格 × 手机数量
我们认为,如果解决机器人的智能化问题,每个家庭都可能需要至少一台机器人,其价格可能是汽车的1/3左右,这将是一个巨大的市场。
智能化在过去十几年取得了天翻地覆的进展。从1950年的感知机(神经网络雏形)和第一台工业机械臂,到近十年的Transformer、ChatGPT,进展迅速。具身智能目前可能处于类似GPT-1到GPT-2的早期阶段,预测未来5年可能出现“GPT-3.5级别”的具身智能模型。
具身智能的形态不限于人形机器人,广义上包括智能汽车、机械臂和扫地机器人,它们在底层技术上有高度统一性。当然,类人机器人是重要方向,初期发展需与市场匹配,例如轮式加双臂的形态。
以下是具身智能的一个大致分级:
-
L1:在特定环境下完成多项单工位操作。
-
L2:在特定环境下完成组合式、长程任务。
-
L3:在特定环境下实现完全自主。这是一个关键且较难突破的节点。
-
L4/L5:更高级的通用自主能力。
目前,我们认为行业已接近达到L1水平,可以解锁许多现实落地场景。
千寻智能的探索:智能与本体协同 🔄
了解了宏观前景,我们聚焦到一家具体的探索者——千寻智能公司。其核心思路是:智能是当前机器人落地的核心瓶颈。
千寻智能由在工业机器人领域有深厚积累的韩风涛和在AI及具身智能领域有丰富研究经验的高阳教授联合创立。公司认为,智能必须依托于机器人本体,并且在短期内,智能算法与本体硬件难以完全解耦。
一个类比:大多数人习惯用右手吃饭,突然改用左手会非常难受。这说明具身智能是与本体的“肌肉记忆”和反射高度相关的技术。
因此,千寻智能以智能为核心,但同时驱动智能本体的进步。他们发现,有些任务在不够智能的本体上,甚至连人工遥控(摇操作)都无法完成。所以,具身大模型与机器人本体的联合迭代,是智能发展的必要路径。
在这两方面,千寻智能都处于领先地位:
-
本体:研发了中国首个全身力控的人形机器人。力控让机器人能感知交互力(如拿纸杯的力度、推门时的阻力),这对实现类人行为至关重要。
-
算法:率先探索使用互联网视频数据对机器人进行预训练,并构建了“数据金字塔”框架来提高训练样本效率。
核心挑战:数据瓶颈在哪里?🚧
介绍了具体实践后,我们直面核心问题:具身智能发展的最大障碍是什么?
一句话总结:我们卡在了数据上。没有数据,就训练不出好的具身智能模型。
大语言模型(如ChatGPT)的成功,根基在于互联网积累了海量的文本数据。然而,机器人领域没有这样的数据积累。这是一个“鸡生蛋还是蛋生鸡”的问题:没有智能,就不会大规模部署机器人;没有大量机器人,就产生不了大量数据。此外,许多物理技能(如游泳)无法仅通过语言描述学会,必须通过实践获得数据。
有人提出借鉴自动驾驶的模式:先销售机器人,在使用中回收数据。这在汽车行业被证明是成功的,因为汽车易于操作(人类本身就会开车)。但机器人非常难以操作,人工遥控体验痛苦且效率低下,因此这条路目前走不通。
这引出了“莫拉维克悖论”:对人类来说简单的事情(如玩积木),对机器人可能非常困难;而对人类复杂的事情(如大量计算),对机器却很简单。解决这个悖论的关键,在于让机器人获得足够多、高质量的“体验”数据。
突破之道:数据从哪里来?💡
认识到数据瓶颈的本质后,本节我们探讨解决之道:机器人的数据究竟可以从哪里获取?
我们认为数据应来自三个方面:
-
互联网视频数据:人类能通过观看视频模仿学习,机器人也应具备类似能力。
-
人工遥控(摇操作)数据:当前获取机器人动作数据的主要方式之一。
-
机器人自主交互数据:机器人在获得一定能力后,在现实世界中自主行动产生的数据。
以下是每类数据的具体利用方式:
第一类:利用互联网视频进行预训练
人类婴儿通过观察他人(即使形态不同)来学习动作。受此启发,我们探索让机器人通过观察人类或其他实体的视频进行学习。
技术示例:AnyPoint Tracking Model
该模型通过跟踪视频中物体和智能体(如人手)的运动进行预训练,学习物体在被操作时的运动规律。然后将这个预训练模型迁移到下游的机器人遥控数据上进行微调。
代码/流程示意:
1. 预训练阶段:海量人类视频 -> 学习“物体-动作”关联模型
2. 微调阶段:少量机器人遥控数据 + 预训练模型 -> 适配具体机器人的策略模型
这种方法能用大量廉价视频数据预训练模型,从而减少对昂贵遥控数据的需求。应用场景包括叠毛巾、开关柜门、清扫桌面等。
第二类:探索模仿学习的数据缩放定律
我们需要知道采集多少遥控数据能让机器人达到特定性能。在大语言模型领域,这称为“缩放定律”(Scaling Law)。
我们在具身智能领域进行了类似研究,采集了数万条现实世界轨迹并进行大量测试。结论是:具身智能同样满足缩放定律,且形式与大语言模型类似,呈对数线性关系。
公式:性能提升 ∝ log(数据量)
这意味着,错误率每降低10倍,大致需要增加10倍的数据量。这证明仅靠采集数据的方式,成本会指数级上升,难以让机器人在任意环境下达到极高(如99.9%)的成功率。
第三类:物理世界强化学习
为了让机器人达到极高的准确率,必须引入物理世界强化学习。传统强化学习样本效率低,常需在仿真器中模拟数十亿次。但仿真器难以完全模拟现实,且构建成本高。
我们探索的物理世界强化学习,让机器人像小孩学扔纸团一样:通过少数几次真实尝试,快速学习物理世界的反馈并调整策略。例如,一个机器人最初拿不稳水壶,在现实世界中经过几十分钟的自主尝试和算法调整后,就能稳定地完成浇花任务。
核心思想:结合少量示范数据(来自上述一、二类)与自主试错学习,让机器人快速适应新任务和新环境。
实践整合与未来展望 🚀
最后,我们看看如何将这些技术整合,并展望未来。
在千寻智能,我们将互联网视频预训练、监督微调(基于遥控数据)和强化微调(物理世界学习)结合起来,工程化地解决了复杂任务。一个标志性成果是攻克了“长程物体柔性操作”问题,即叠衣服。
叠衣服之所以困难,是因为需要理解并处理衣物的复杂褶皱状态,这对机器人的“具身理解能力”要求很高。通过融合多项技术,机器人现在可以处理任意状态扔过来的衣服并完成折叠。
总结与展望
本节课我们一起学习了:
-
具身智能是将智能赋予身体,使其能在物理世界行动。
-
发展的核心瓶颈是缺乏高质量、大规模的训练数据。
-
突破瓶颈的三条路径:
-
利用海量互联网视频进行预训练。
-
研究模仿学习的缩放定律,高效利用遥控数据。
-
通过物理世界强化学习,让机器人自主试错、快速适应。
-
-
智能算法与机器人本体需要协同发展。
-
最终目标是让智能机器人走进千家万户,解放人力。
高阳教授及其团队的目标是“双十计划”:希望在10年内,让全世界至少10%的人拥有自己的机器人,帮助人们从日常体力劳动中解放出来。
本节课中,我们一起深入探讨了具身智能面临的数据挑战及其创新解决方案,从理论分析到技术实践,描绘了通过多元化数据获取和算法创新来突破瓶颈、迈向通用具身智能的清晰路径。
具身智能与人形机器人-p11-慧思开物:通往通用具身智能之路:唐-剑
在本节课中,我们将学习北京人形机器人创新中心CTO唐建博士关于通用具身智能发展路径的分享。我们将了解当前机器人行业面临的挑战、传统控制方法的局限,以及如何通过“慧思开物”平台结合大模型技术,构建具备强大泛化能力的通用具身智能体。课程最后,我们还将展望具身智能技术的未来发展趋势与产业化前景。
行业现状与挑战
上一节我们介绍了课程概述,本节中我们来看看当前机器人行业面临的核心痛点。
尽管人工智能在围棋等复杂认知任务上已超越人类,但机器人完成如开门、端水等对人类而言简单的物理操作任务仍非常困难,这被称为“莫拉维克悖论”。目前,整个行业主要面临三大挑战:
以下是当前机器人行业的三大核心痛点:
-
场景泛化能力差:一款机器人通常只能工作在单一固定场景,例如工厂打螺丝的机器人无法去酒店送毛巾。
-
任务泛化能力差:即便在同一场景(如一个3C工厂)内,也需要不同的机器人和不同的程序来完成不同的任务。
-
本体泛化能力差:机器人本体通常是针对特定应用(如工业机械臂、送餐机器人)专门设计的,缺乏通用性。
传统控制方法与AI探索
了解了行业痛点后,我们来看看传统的解决方案及其局限性。
传统机器人控制主要依赖基于数学模型预测的控制(MPC)。其公式可简化为在每一步求解一个优化问题:
min J(x, u) subject to x_{k+1} = f(x_k, u_k)
其中 J 是目标函数,x 是系统状态,u 是控制输入,f 是系统模型。
MPC的优势在于高可靠性、确定性和精确度,因此在结构化工业环境中广泛应用。但其缺点同样明显:需要预编程、仅适用于结构化环境和固定流程,几乎没有任何泛化能力。
在大模型出现之前,学界主要探索两类基于AI的端到端控制方法:
以下是两类主要的AI控制方法:
-
模仿学习(Imitation Learning):像学生一样从示范数据中学习技能。
-
强化学习(Reinforcement Learning):像实战派一样,让机器人在实际环境中通过试错来学习。
然而,受限于数据和模型规模,这些方法通常只能学习单一或少数几种技能,例如抓放(pick and place),泛化能力有限。
“慧思开物”通用平台架构
上一节我们回顾了传统方法的局限,本节中我们将深入探讨北京人形机器人创新中心提出的“慧思开物”通用具身智能平台。
“慧思开物”旨在颠覆传统的机器人应用开发模式。传统模式是为特定机器人、特定场景下的特定任务编写专门应用。而“慧思开物”的目标是让开发者能用一种通用、统一、简单的方式,为任何场景、任何任务和任何机器人本体开发应用,从而大幅降低开发成本和时间。
该平台定位为“一脑多能、一脑多机”的通用具身智能平台。
-
一脑多能:一个“大脑”支持各类机器人应用开发。其核心思想是,任何复杂任务(如打螺丝、端茶倒水)都可被拆解成一系列基本动作(技能,Skill),例如打开、关闭、拿起、放下等。行业共识是,大约50-100种技能即可覆盖物理世界绝大部分任务。平台通过端到端的视觉-语言-动作模型(VLA) 来实现这些技能,并构建泛化能力强大的原技能库。
-
一脑多机:同一个“大脑”平台可兼容支持多种不同的机器人本体,目前已适配近10种机器人和机械臂。
整个平台由具身大脑和具身小脑两部分组成:
以下是“慧思开物”平台的核心组成模块:
-
具身大脑:运行在云端,包含多个智能体(Agent),使用多种大模型(LLM, VLM)。核心功能包括自然交互、空间感知、意图理解,以及最关键的任务规划——将复杂任务拆解为子任务。它还具备错误反思、记忆管理等能力。
-
具身小脑:运行在机器人端侧,也是一个智能体。它包含两个子平台:
-
操作子平台:核心是原技能库,负责将大脑分配的子任务映射为具体的VLA模型或模块化技能来执行。
-
运控子平台:位于操作子平台之下,负责基础运动控制,包括全身控制(WBC)、双臂协作、稳定移动、定位导航等。
-
该平台采用开源开放策略,大脑端可接入自研或第三方大模型(如GPT),小脑端的原技能库也欢迎集成优秀的开源或合作伙伴的VLA模型。
平台核心:任务规划与自我进化
理解了平台架构后,本节我们聚焦其最核心的能力——精准的任务规划与自我进化能力。
唐建博士指出,通用具身智能有两大核心卡点:
-
大脑如何精准规划各类任务:任务千变万化,模型需具备强大的泛化和自主探索能力。
-
小脑如何可靠执行每个子任务:在开放、动态的环境中成功执行动作极具挑战。
为解决第一个卡点,“慧思开物”平台让具身大脑具备了自主探索和学习进化的能力。其核心技术是结合了蒙特卡洛树搜索(MCTS) 的规划框架。当接到一个任务(如“加热面包”)后,大脑会像下棋一样进行启发式探索,生成多种可能的任务执行路径(Plan)。
每条路径的评估依赖于一个由 多模态大模型(VLM)、世界模型 和 奖励模型 构成的闭环:
任务规划闭环:VLM(规划) -> 世界模型(模拟) -> 奖励模型(评估) -> 数据收集 -> 强化学习微调VLM
-
世界模型:绝非简单的视频生成器,它需要理解物理规律,能准确模拟每个规划方案在虚拟环境中的执行过程,从而避免在物理世界进行费时费力的试错。
-
奖励模型:判断一个方案或步骤的好坏(成功、可继续、失败)。
-
自我进化:在探索过程中收集到的动作(
a)和动作价值(A)等数据,被用于近端策略优化(PPO) 等强化学习算法中,持续微调(Fine-tune)VLM,使其规划能力越来越精准。世界模型还能自动生成多样化的虚拟仿真数据,极大扩充训练集。
技术演示与科研成果
上一节我们探讨了平台的核心原理,本节通过实际演示和科研成果来展示其能力。
平台在操作和运控方面取得了多项进展:
以下是部分能力演示:
-
自动错误处理:基于端到端模型,机器人能够处理执行过程中的意外失误,并进行重新规划(Replan),实现“使命必达”。
-
空间感知与复现:机器人能感知人搭出的乐高(Lego)形状,并规划步骤进行复现,展示了大脑的空间感知和规划能力。
-
多技能串联:完成一个“打包”任务,涉及拿起、扫码、放入、封箱、贴标签、放置到传送带共5种技能,展示了平台串联调用多技能的能力。
-
双臂协同控制:使用单个VLA模型控制双臂,完成需要协同配合的任务。
在具身运控方面,其“天工”人形机器人已实现稳定奔跑(时速10公里)、快速奔跑(峰值速度4米/秒),并能实时感知复杂地形(如湿滑路面、台阶、坡道),实现连续攀爬100多级台阶,具备强大的抗冲击能力。
在学术研究上,团队也产出了高质量成果:
以下是部分代表性科研工作:
-
DiscPolicy(离散策略):一种支持多任务的VLA模型。通过构建VQ-VAE自编码器从轨迹中学习特征,并使用条件扩散模型进行解码,显著提升了任务成功率,在单臂和双臂任务上均达到先进水平。
-
利用失败轨迹:提出自监督数据筛选框架,能从大量失败轨迹中提取高质量部分用于训练,通过加权损失函数利用这些数据,提升了模型性能。
-
3D语义占用感知:针对人形机器人导航中物体堆叠、种类繁多、尺寸小等挑战,提出了不透明度引导的自编码器和几何感知编码器,实现了对场景的细粒度语义理解,在多项指标上超越了现有先进方法。
未来展望与总结
最后,我们来展望具身智能技术的未来发展趋势,并对本节课进行总结。
技术发展趋势:未来需要重点关注以下几个方向:
以下是未来技术发展的关键方向:
-
具备自主探索和自主学习能力的具身大脑。
-
具有强泛化能力、能进行全身控制的VLA模型。
-
通用的、具备强泛化能力的人形机器人全身运动控制器。
-
人形机器人全自主导航方案(感知、规划、控制)。
-
针对柔性体、流体操作更好的物理引擎。
产业化落地展望:具身智能的产业化预计将经历三个阶段:
以下是产业化发展的三个阶段:
-
近期(1-3年):在结构化/半结构化的工业或特种危险场景,通过“遥操作+逐步自主”的方式,完成巡检、简单操作、搬运分拣等任务。
-
中期:在商业服务等半结构化场景,完成收纳整理、打包、扫码等较复杂的服务型任务。
-
远期:进入家庭生活场景,扮演人类助手、保姆等角色,推动人机共存时代到来。
核心观点:从专用机器人走向通用机器人是历史的必然。回顾个人电脑取代专用文字处理机、智能手机整合多种移动设备的历程,可以预见,未来具备通用具身智能能力的人形机器人,将部分或全部取代现有的专用机械臂、服务机器人等,最终进入千家万户。
数据与生态建设:团队认识到数据的重要性,因此构建了“RobMin”多构型规范化数据集(含10万多条轨迹数据),并牵头制定国内首个具身智能数据采集标准。同时,正在建设大型的具身智能机器人数据与训练基地,通过虚实结合的数据生成方式(实验证明能显著提升真机任务成功率),为全行业提供数据赋能。
本节课中我们一起学习了通往通用具身智能之路的全面蓝图。我们从当前机器人行业的痛点出发,分析了传统控制方法的局限,然后深入介绍了“慧思开物”这一“一脑多能、一脑多机”的通用平台架构及其核心的任务规划与自我进化机制。通过实际演示和科研成果,我们看到了该平台在操作和运控方面的强大能力。最后,我们展望了未来技术发展的关键方向和产业化落地的三个阶段。唐建博士指出,就像通用电脑和智能手机取代专用设备一样,发展通用具身智能和人形机器人是历史的必然趋势,需要产学研各界共同努力推动。
具身智能与人形机器人-p12-圆桌讨论:仉尚航-王-鹤-赵同阳-卢宗青-高阳-庞江淼-方斌
在本节圆桌讨论中,我们将直面具身智能与人形机器人领域当前的核心痛点与挑战,并探讨可行的技术路线与解决方案。来自学术界与产业界的多位专家将分享他们的深刻见解。
痛点与挑战分析
上一节我们介绍了论坛的整体背景,本节中我们来看看各位专家对当前具身智能核心痛点的剖析。
数据瓶颈与质量
高阳教授首先指出,数据在质量和数量上的瓶颈是当前最大的痛点。
以下是解决数据瓶颈的几种可能方式:
-
从互联网视频中获取数据。
-
采集遥操作数据。
-
收集真机强化学习数据。
-
利用仿真数据。
然而,与大语言模型不同,具身智能的数据获取和处理更为复杂,涉及与物理世界的交互,其时间和经济成本难以避免。
动作空间的统一
卢宗青教授提出了另一个关键痛点:机器人本体的控制维度(动作空间)不统一。
他认为,一个可能的解决方案是将动作空间统一到人的形态上,从而可以利用海量的人类运动数据。这涉及到如何更好地利用不同人称视角(如第一人称和第三人称)的异构数据。
末端操作与硬件形态
方斌教授将焦点放在了操作维度,特别是末端执行器上。他提出了“末端智能”的概念,并指出需要在通用性和任务专用效率之间找到平衡。
关于末端执行器的形态,他倾向于针对不同任务需求设计不同的末端(如二指、三指或柔性手),而非一味追求高自由度的仿人灵巧手。
硬件标准化与系统整合
赵同阳董事长从人形机器人产业化的角度,强调了硬件不统一带来的挑战。他认为,当硬件(如自由度、传感器)标准不一时,软件和数据的通用性就难以实现。
他预测行业最终会收敛,并指出高自由度灵巧手在短期内面临能量密度、精度和成本的巨大挑战,而低自由度末端可能已能满足多数场景需求。此外,他还提到了手脑协调、高层操作系统框架的重要性。
认知偏差与工程实践
王贺教授指出了学术界与产业界在认知上的错位。他认为,许多被认为已解决的问题(如抓取位姿估计)在复杂现实场景(如密集货架)中依然非常困难。
具身智能作为硬件系统,其产品化需要应对机器人卡壳、宕机等工程实践问题,这些挑战常被低估。
系统性视角
庞江淼博士将痛点排序为:数据、评测(任务体系)、系统,最后是模型。他认为关键在于数据的使用方式,以及如何用系统化视角找到单点并打穿,而非仅仅追求模型指标的提升。
移动操作的挑战与思路
上一节我们探讨了静态操作的痛点,本节中我们来看看更具挑战性的移动操作,尤其是在人形机器人上的实现。
技术路线的矛盾
高阳教授指出,人形机器人移动操作存在根本矛盾: locomotion 常基于仿真强化学习框架,而通用操作难以构建相应的仿真器和奖励函数,导致全人形移动操作的研究成果很少。
数据驱动的解决方案
卢宗青教授分享了他们的工作思路:将全身运动生成与手部运动生成结合,并利用大规模人体运动数据来驱动。他也承认,全身遥操作本身开销巨大,是当前的难点。
本体形态的权衡
方斌教授从落地角度出发,更看好轮式底盘加拟人双臂的操作方式,认为其在移动和操作效率上更具可执行性。
赵同阳董事长则阐述了双足移动操作的必要性与价值(如边走边推门、协同搬运),并介绍了他们通过多摄像头和动捕设备采集数据,在仿真环境中训练的相关探索。
渐进式解锁能力
王贺教授描述了从遥操到全身动捕跟踪,再到由“大脑”自动控制的渐进式技术路径,强调了解锁人形机器人全部身体能力的极高难度。
庞江淼博士结合VLA(视觉语言动作模型)与运控的实践经验,认为未来几条技术线(VLA、人形运控、本体设计)将汇聚。他同时指出本体大小对操作能力的影响也是一个系统控制问题。
技术融合与未来展望
在探讨了具体挑战后,本节我们来看看不同技术如何融合,以及未来的发展方向。
强化学习与具身大模型
关于强化学习(RL)与具身大模型的结合:
-
高阳教授认为,真机强化学习是提升成功率的必要且关键一步,类似于RL对大语言模型的帮助。已有工作开始尝试将VLA与强化学习结合。
-
卢宗青教授强调,强大的基础模型是进行有效强化学习的前提。
仿生学启发
方斌教授谈到,机器人研究一直遵循仿生路线,包括结构、驱动、感知和控制范式。他认为,具身智能未来的一个核心特点是能在交互中进化,即本体形态结构也能根据实践与大模型共同优化。
落地场景建议
赵同阳董事长从产业落地角度给出建议:应基于机器人当前能力逐步落地,例如:
-
利用运动能力进行表演、导引。
-
结合大模型聊天能力进行咨询服务。
-
优先解决重复、繁重或危险的体力劳动(如矿井巡检)。
-
作为移动安防平台。
他提出,人形机器人未来的竞争是与人类岗位的竞争,旨在承接人们不愿从事的工作。
仿真与真实数据的配比
关于仿真数据与真实数据的使用:
-
王贺教授认为,在视觉层面,合成数据与真实数据的差距并非主要矛盾,物理差距才是关键。对于非接触或弱接触任务,合成数据可能足够。
-
庞江淼博士分享经验:在视觉和“大脑”思考层面,纯合成数据已显示出潜力;在“小脑”执行层面,一种思路是用少量真实数据提供技能示范,再用仿真大量扩增。真实数据与合成数据的有效配比因技能而异,大致在1:5到1:10之间,目标是尽量减少对真实数据的依赖。
工业场景的算法终局
针对工业场景(如汽车制造)的高鲁棒性要求:
-
王贺教授指出,完全依赖真实数据难以达到极高的成功率要求。必须大量使用合成数据进行预训练,接近目标后,再结合真实数据与真机强化学习进行微调和持续优化。
-
高阳教授补充,高节拍场景短期内直接应用VLA不可行,需选择匹配技术发展阶段的场景。长远来看,终局仍是VLA,但需通过真机强化学习和设计具备错误恢复能力的系统来解决问题。
总结
本节课中,我们一起学习了具身智能与人形机器人领域面临的多维度挑战。核心痛点集中在数据的规模与质量、动作空间与硬件的标准化、复杂场景下的操作鲁棒性以及移动操作的协调控制。解决方案指向多技术路径融合:利用互联网视频、仿真数据与真机采集相结合;探索VLA大模型与强化学习的互补;在硬件上平衡通用性与专用效率;并通过渐进式的策略,在现有能力基础上寻找可行的落地场景。尽管前路挑战重重,但通过学术界与产业界的共同努力,脚踏实地地解决每一个工程与科学问题,具身智能的未来值得期待。
具身智能与人形机器人-p13-大会闭幕致辞:黄铁军
在本节课程中,我们将学习北京智源研究院理事长黄铁军教授在2025北京智源大会上的闭幕致辞。他将从人工智能安全与发展的平衡谈起,分析当前技术现状,并展望具身智能与人形机器人的长远未来。
概述:安全与发展的平衡
上一节我们探讨了具身智能的具体应用,本节中我们来看看其宏观发展与终极意义。黄铁军教授指出,人工智能的安全问题,如模型自我改进、超越人类能力等,是当前紧迫的挑战。然而,技术发展无法被单纯的安全顾虑所阻挡,必须在安全与发展之间寻找平衡。
近期展望:认知大模型与可控风险
近期(约五年内),以语言大模型为代表的认知大模型,其可控性问题已处于风险边缘。若认知能力超越人类,并被人类执行力所利用,可能引发问题。因此,一个合理的选择是:让认知能力暂不超越人类,而让具身智能提高劳动能力,替代人类从事危险或不愿从事的工作。
长期挑战:构建完整智能体的难度
构建一个完整的、有物理身体的智能体是长期目标,但难度极高。智能的演化是一个漫长的过程:
-
语言能力:出现于约3-7万年前。
-
大脑皮层:出现于约2亿年前。
-
视觉系统:出现于约5亿年前。
-
生命体:出现于约35亿年前。
以下是智能演化的关键节点时间线:
生命体 (35亿年前) -> 视觉 (5亿年前) -> 大脑 (2亿年前) -> 语言 (3-7万年前)
具身智能之所以困难,正是因为它需要集成这些历经亿万年演化才形成的复杂能力。
现状对比:人工系统与生物系统的能力
当前人工系统在部分指标上已接近甚至超越生物系统。
1. 大脑 vs. 大模型
-
人脑:约1000亿神经元,100万亿连接,毫秒级运行速度。时空复杂度约为
10^17。 -
大模型:约万亿参数(人脑的1%),微秒级运行速度。其整体计算复杂度已可比拟甚至超越人脑,这是其产生强大智能的物理基础。
2. 人眼 vs. 仿生视觉
-
人眼:约百万像素分辨率,毫秒级响应。
-
先进仿生眼:已达到千倍于人眼的速度(如4万赫兹)。例如,使用高速视觉系统,可在0.25秒内完成动态物体的三维重建,这对于高速自动驾驶等场景至关重要。
3. 身体与基础行为
构建物理身体极为复杂。智源研究院成功模拟了秀丽隐杆线虫的完整生物体与觅食行为。这个模型拥有 96块肌肉 和 302个神经元,能够自主寻找食物。这标志着在构建具有基础生命行为的具身体系上取得了重要进展。
未来蓝图:AGI分级与终极使命
关于通用人工智能(AGI)的发展,可以参照一个五级分类体系。当前大模型正在接近的是 “数字版AGI”(强认知,无身体),可能在数年內实现。只要人类管理得当,其风险相对可控。
真正的颠覆性风险来自于 “具身版AGI”,即高度自主、通用且具有强大执行能力的智能体。黄铁军教授预测,这可能在约 2045年(即约20年后)实现。
那么,创造超越人类的具身智能,终极意义何在?
核心观点:具身智能的使命不在地球,而在星辰大海。
-
人类是地球的产物:我们的身体构造、生理节律(如受月球影响)、乃至智能模式,都与地球环境精密绑定,无法适应外星球长期生存。
-
机器人是人类的“孩子”与“延伸”:我们应像希望子女超越自己一样,去创造能力更强的具身智能。它们将承载人类的梦想,代替人类去探索宇宙,应对人类无法解决的挑战(包括可能的星际交流)。
-
技术趋势不可逆转:与其恐惧被超越,不如明确其伟大的使命——为人类文明开疆拓土。
总结
本节课中我们一起学习了黄铁军教授对具身智能发展的深刻见解。我们从当前AI安全与发展的平衡点出发,回顾了构建智能体的巨大挑战,对比了人工与生物系统的现状,最终展望了具身智能超越人类、迈向星辰大海的宏伟使命。这为我们理解和发展具身智能提供了既务实又充满想象力的框架。
AI+理工&医学-p01-论坛开幕欢迎致辞:张恒贵
在本节课中,我们将学习并整理2025北京智源大会“AI+理工&医学”论坛的开幕致辞内容,了解人工智能在理工与医学领域的融合现状与未来展望。
尊敬各位嘉宾、各位学者、各位同道,大家下午好。我是张恒贵,作为本次论坛的主席,我非常荣幸在阳光明媚的初夏时节,与大家齐聚北京,共同参加AI+理工与医学论坛。
在此,我仅代表大会主办方、北京智源大会组委会,向各位的到来表示最热烈的欢迎和最诚挚的感谢。
人工智能的变革力量 ⚙️
当前,人工智能正以前所未有的速度深刻变革各个领域。AI不仅根植于科学研究本身,更在不断地反哺科学发展,以新的研究范式、技术路径与创新思维,赋能理工、生命科学与医学等关键领域的发展,推动人类社会与文明迈向更高高度。
上一节我们介绍了人工智能的整体变革力量,本节中我们来看看它在具体领域的应用。
AI在理工领域的融合
在理工领域,AI与物理、工程、材料等学科的融合正在催生一系列突破性进展。以下是AI在理工领域的主要作用:
-
重塑科研流程:优化从假设提出到实验设计的全过程。
-
优化设计体系:通过算法进行高效、创新的系统与材料设计。
-
加速实验验证:利用模拟和预测模型减少物理实验的试错成本。
-
提高创新效率与质量:公式:科研产出效率 = (创新成果数量 × 质量) / 时间与资源消耗,AI旨在最大化此公式的分子,最小化分母。
AI在医学健康领域的应用
在医学健康领域,AI展现出更加广阔的应用前景。以下是AI在该领域的关键应用方向:
-
海量数据深度挖掘:从基因组学、影像学、电子病历等数据中提取有价值的信息。
-
疾病预测与智能诊断:构建模型实现早期风险预警和辅助诊断,代码示例(概念):
diagnosis = model.predict(patient_data)。 -
个性化治疗:根据患者个体特征制定精准治疗方案。
AI正在改变传统医疗模式,为构建更加精准、高效和可持续的健康体系注入新动能。
论坛的目标与展望 🤝
尽管如此,前进的道路仍然任重道远,存在诸多挑战。为此,我们召开此次论坛,旨在深入探讨前沿发展进展和所遇到的挑战性问题。
本次论坛聚集了来自海内外众多顶尖专家,将围绕AI+理工、AI+医学健康、AI+医学影像等前沿主题,分享最新科研成果、实践经验以及对未来趋势的深刻洞察。我相信,在思想的交流与碰撞中,我们将不断激发创新灵感,拓展合作空间,共同推动AI+领域的融合发展。
希望大家在本次论坛中畅所欲言,深入交流,共同为科技进步与人类健康事业贡献自己的智慧与力量。
最后,预祝本次论坛取得圆满成功。再次谢谢大家。
本节课中,我们一起学习了论坛开幕致辞的核心内容,概述了人工智能(AI)在推动理工科研究范式革新和医学健康模式转型中的关键作用,并明确了本次论坛汇聚智慧、共商挑战、促进融合发展的目标。
AI+理工&医学-p02-AI驱动的气候风险识别与韧性电力系统优化:吴力波
在本节课中,我们将学习如何利用人工智能技术来识别气候风险,并优化电力系统以增强其韧性。我们将探讨气候风险的特征、可再生能源预测的挑战,以及如何构建一个能够应对未来约束和扰动的韧性电力系统。
气候风险与能源系统的耦合挑战
上一节我们介绍了课程的整体背景,本节中我们来看看气候风险与能源系统交互所面临的核心挑战。全球面临的重要挑战之一是气候变化。尽管达成了巴黎协定,且中国承诺了2030年碳达峰与2060年碳中和,但全球各国的减排效果与将温升控制在1.5至2摄氏度的目标仍有差距。因此,气候风险的发生频率大大增加。
另一方面,解决气候变化问题需要大量接入可再生能源。这就形成了一个悖论:一方面需要更强地利用自然系统(如风能、太阳能)提供能源;另一方面,该系统本身的风险又在持续增加。这与传统能源系统完全不同。
我们关注的问题主要有以下几点:
-
如何捕捉气候风险的特征及其对能源系统的影响。
-
大量风电、光伏接入后,如何有效预测其出力以降低不确定性。
-
如何将电力系统构建为更具韧性的系统。
未来的电力系统将面临更强的排放约束和更多的气候风险扰动。在此新条件下构建系统,主要面临三方面挑战:
-
气候风险敞口持续扩大,如何构建AI驱动的气候风险预测模型以更好地捕捉风险。
-
风险冲击系统后,当前高度互联的源-网-荷-储电力系统(含大量可再生能源、储能、虚拟电厂等)如何进行脆弱性识别。
-
该系统与人类社会、经济活动及公共政策复杂交互,如何模拟这些交互行为,确保人类反馈不带来更大冲击,以及政策如何协同优化。
我们的工作围绕以上四个板块展开。
AI驱动的气候风险感知
上一节我们探讨了核心挑战,本节中我们来看看如何利用AI进行气候风险感知。我们主要基于“伏羲”气象大模型开展了一系列工作。伏羲模型在全球AI气象大模型的各项指标评测中处于国际前列。
我们也是全球首个发布次季节预报的大模型。次季节预报指约40天或更长时间尺度的预报,这在气象预报中被称为“预报沙漠”,时间周期越长越难以预报。我们首次将预报时长推至36天(目前达42天),并成为首个登陆欧洲中期天气预报中心官网的次季节大模型。
此外,在极端降水、台风等灾害事件的预报方面,伏羲的预测效果也明显优于其他模型。我们还开发了融合真实观测数据的中期天气预报大模型,不仅使用公开数据,也基于中国自有卫星遥感数据,构建了端到端的数据同化预报大模型。
以下是关于伏羲模型的一些关键进展:
-
传统数值预报的瓶颈:计算成本高、速度慢。随着观测数据增加,其预测精度出现收敛。
-
AI气象预报的优势:基于Transformer架构,计算速度非常快,可进行多次计算以提供更精准的概率预报。
-
伏羲1.0:参数量超45亿,可提供未来15天的预报。
-
伏羲2.0:更面向产业应用需求,如预测百米级风速、云量,提供更高时空分辨率(最精细达500米×500米),并与其他复杂系统模型(如海洋模型)耦合。
目前,相关平台已进入中国气象局、上海气象局、香港天文台及欧洲中期天气预报中心的业务场景。在中国气象局组织的人工智能天气预报大模型示范计划中,我们在三大类各项指标评测中均排名第一。我们的海气耦合中期气象模型能提供全球未来15天、逐小时、9公里分辨率的预测,并耦合多种大气和海洋变量。
从气象预报到气候变化预测
在掌握了短期气象预报能力后,我们进一步向更长时间尺度的气候变化预测拓展。气候变化是一个长时间尺度的过程。传统的综合评估模型时间尺度常拉长至2100年,但此过程中损失了大量极端信号,许多灾害数据被平滑。
我们的工作是对全球气候模式结合短临、中期、次季节预报进行降尺度研究。传统模式分辨率较低,无法为台风、极端降水等区域小尺度灾害提供有效支撑。
以下是我们的工作方法:
-
基于全球气候变化综合评估模式,涵盖所有气候模式,进行进一步降尺度。
-
支持在不同温升情景及排放浓度路径下的气候风险未来转型路径模拟。
-
提出了首个基于Flow Matching的生成式气候模式统计降尺度模型。
我们针对暴雨、大风等极端灾害事件进行预测。结果显示,相较于欧洲中期天气预报中心等典型数值预报模式,伏羲在极端气候灾害的预测能力上显著增强,其预测更接近真实观测。
从气候灾害到社会经济损失评估
有了灾害预测,还需评估其是否会真正导致社会经济损失。致灾原因常是人类适应能力弱,例如城市韧性差导致内涝。
我们进一步研究如何利用AI技术解构下垫面地球系统特征。面临的挑战包括:人造地表的光谱相似性限制了卫星数据分类的有效性;数据可用性和区域差异性挑战了单一模型的全球泛化能力;经济部门的用地结构不明确,难以计量灾害损失。
我们的工作主要包括以下几个步骤:
-
绘制洪水淹没地图:基于卫星图像与GFD数据库,制作250米分辨率的栅格洪水地图,并与全球灾害统计年鉴匹配,关联洪灾与经济损失。
-
补充与扩展数据集:利用预测技术补充了近50次全球洪灾的洪水地图,扩大了数据集。
-
构建城市洪灾暴露模型:以伏羲预测的极端降水为输入,结合历史数据,还原洪灾地图及其强度、城市暴露面积。结果与历史受灾热点区域高度吻合。
-
识别城市下垫面经济特征:基于高德POI数据与工商业注册数据映射,添加行业标签,分割地块,融合分析不透水面,构建实体级土地利用识别模型。
-
构建行业损失风险模型:以伏羲极端天气预测和全行业土地利用清单为输入,估算行业GDP损失、劳动力就业损失等。
目前,我们正在逐步开源城市洪水暴露和经济损失的完整数据清单。
精准的可再生能源出力预测
在具备良好的气候风险感知能力后,我们来看如何实现更精准的可再生能源预测。我们将百米风速、辐照度、云量等预测扩展到风能和太阳能领域,验证其在需要精确天气预报的场景中的可靠性。
我们生成的一小时全球天气预报能提供全面的基本气象变量,将这些变量作为输入,可提升风电、光伏出力的预测准确性。使用国外公开风场、光伏电站数据的样本显示,伏羲的预测效果相较传统模型有极大提升,在新能源功率预测准确率方面远超欧洲中期天气预报中心。
目前,伏羲2.0的新能源预测要素已引入南方电网的功率预测培育计划。在南方电网的功率预测比赛中,所有参赛队伍均使用伏羲提供的关键气象要素作为输入。此外,在第三届世界科学智能大赛中,我们结合南方电网历史数据,发布了新能源发电功率预测赛题。该赛题涉及气象条件随机性、多过程物理耦合等科学问题,以及复杂序列建模、异构数据混合建模、模型泛化等AI挑战。
本节课中我们一起学习了如何利用AI技术应对气候风险与电力系统优化的挑战。我们从气候风险感知入手,介绍了伏羲气象大模型在短临、次季节及极端事件预报中的优势。接着,我们探讨了如何将气象预测降尺度应用于长期气候变化情景分析。然后,我们学习了如何评估气候灾害可能带来的社会经济损失,包括构建洪水淹没地图和行业损失风险模型。最后,我们看到了精准的气象预测如何显著提升风电和光伏出力的预测准确性,这是构建未来韧性电力系统的关键一环。通过这一系列AI驱动的工具与方法,我们能够更好地识别风险、优化系统,为应对气候变化和能源转型提供支持。
AI+理工&医学-p03-医用数智人构建技术及应用:郝爱民
在本节课中,我们将学习医用数智人的核心概念、技术挑战以及实际应用案例。医用数智人是一个医工交叉的前沿方向,旨在通过构建可交互、可演化的虚拟人体模型,为医学教育、手术规划、技能训练与考核等提供革命性的数字化工具。
医用数智人的定义与愿景
医用数智人,是在情智兼备的通用数字人基础上,深度融合医学专业知识与业务需求的虚拟人体模型。其核心特征在于可演化,即不仅具备形态学上的几何外观,更拥有生理、生化功能,并能对医学干预(如手术、用药)做出智能化的动态响应。
从技术发展路径看,它经历了从数字化人体(数据采集)、到几何人体(形态建模)、再到物理人体(功能仿真),最终形成智能数字人体的演进过程。美国《科学美国人》杂志曾将“虚拟患者”列为十大新兴技术,认为其可能彻底改变医学研究和训练的模式。
医用数智人的核心价值与应用场景
医用数智人的核心价值在于为医学实践提供一个安全、可重复、可量化的“数字试验场”。以下是其主要应用场景:
-
手术预演与方案规划:医生可以在虚拟空间中对患者的个性化器官、病灶及潜在并发症进行完整的手术模拟,从而优选最佳方案,实现“手术打草稿”。
-
医学教育与技能训练:医学生和医生可以在虚拟患者身上进行无风险的问诊、检查、手术操作等全流程训练,并能获得即时、客观的反馈与评价。
-
同质化技能考核与竞赛:通过标准化的虚拟仿真系统,可以对医生的操作技能进行公平、精准的量化考核与竞赛,消除人为评价的主观差异。
-
跨科室协同与会诊:在虚拟信息空间中,可以融合多位专家的智慧,打破物理世界科室划分的局限,为患者提供更综合的诊断与治疗思路。
-
人机智能知识传递:顶尖医生的手术操作(包括力度、角度、流程等全维度数据)可以被记录并数字化,成为训练手术机器人或辅助系统的宝贵数据源。
构建医用数智人的关键技术挑战
构建一个真正可用的医用数智人面临着一系列复杂的技术挑战,主要可归纳为以下七个科学技术问题:
-
个性化精准采集:如何无创、高效地获取患者个体在几何、物理、生理等多模态的数据。
-
多尺度统一建模:如何建立从微观细胞到宏观器官,融合几何、物理、生理特性的统一数字模型。
-
实时交互与物理响应:如何实现虚拟器官对手术器械操作(如切割、缝合)的实时、逼真的物理与形变反馈。
-
虚实融合呈现:如何利用混合现实(MR)等技术,将虚拟患者无缝叠加到真实世界中,实现自然的人机交互。
-
病理生理演化:如何模拟疾病的发生、发展过程,以及药物、手术等干预措施带来的动态变化。
-
操作智能评价:如何建立客观、全面的评价体系,对医生在虚拟环境中的操作进行自动化的技能评估。
-
应用靶场构建:如何针对不同的医学专科(如心内科介入、口腔外科拔牙)构建高保真的专用训练与考核环境。
实践案例展示
我们的实验室在医用数智人领域进行了长期探索,并开发了系列应用系统。
案例一:智能问诊与体格检查模拟系统
该系统模拟医生接待病人的全过程。在专业医学知识模型的支持下,系统能与用户进行多轮、专业的问答。随后,用户可通过力反馈设备,在实时交互的虚拟人体上进行双手触诊检查。系统能调取检查报告,辅助形成初步诊断,并最终对整个过程进行自动化评分。
# 概念性代码:模拟系统交互流程
def medical_training_simulation():
initiate_consultation() # 启动问诊
while not diagnosis_confirmed:
answer = conduct_qa_round() # 进行一轮专业问答
update_patient_state(answer)
perform_virtual_examination() # 进行虚拟体格检查
generate_preliminary_diagnosis() # 生成初步诊断
calculate_performance_score() # 计算操作得分
案例二:混合现实口腔手术训练系统
医生佩戴混合现实眼镜(如Apple Vision Pro),可将一个虚拟患者(如需要拔除复杂埋伏牙的患者)实时“放置”在真实的牙科手术椅上。医生可以从任意真实视角观察虚拟患者,并使用真实的手术器械进行模拟操作。系统后台可动态调整病例难度,并全程数字化记录操作过程,用于训练、考核或新术式研究。
案例三:CI介入手术模拟器
这是一款用于心脏冠状动脉介入手术(PCI)的高保真模拟器。它能完整模拟从穿刺到支架放置的全套流程,并可设置各种并发症(如血管痉挛、血栓形成)来增加训练难度。该系统使用了临床真实的介入器械接口,为心内科医生提供了贴近实战的训练环境。
案例四:多人协同虚拟手术仿真
该系统基于空间计算技术,允许多名医生(可能身处不同地点)同时进入一个共享的虚拟手术空间。他们可以协同操作,共同完成复杂手术的规划或训练。其中一人可能作为指导教师,实时观察并指导其他“学生”的操作角度和力度。
总结与展望
本节课我们一起学习了医用数智人的核心概念、巨大应用潜力以及构建它所面临的关键技术挑战。我们看到,通过医工深度交叉,融合计算机领域的算力、算法与医学领域的专业知识、数据模型,构建可交互、可演化的虚拟患者,正在为医学教育、临床训练和手术创新带来变革。
未来,医用数智人的发展任重道远,需要来自计算机科学、生物医学工程、临床医学等多学科的研究者共同努力,攻克从数据采集、建模到智能评价等一系列难题,最终实现“在数字空间打造一个基准性数字人体”的远大目标,全方位支撑未来医学的发展。
AI+理工&医学-p04-大模型的医疗新范式与应用方向探讨:张成文
在本节课中,我们将学习大模型技术如何为医疗领域带来新的技术范式,并探讨其近期的应用方向。我们将从技术发展、应用场景、落地原则等多个维度进行解析,旨在为初学者提供一个清晰、全面的认识。
大模型与医疗结合的背景与机遇
我们说大模型从2022年11月3号发展至今,已有近两年半的时间。无论是大模型还是深度神经网络,在其发展初期,医疗领域都是其最主要的一个应用场景。
本报告主要从两个方面展开:一是随着大模型技术及其生态技术的发展,为医疗领域带来了许多新的技术范式;二是探讨近一年来,特别是自今年1月20日DeepSeek发布以来,我国医疗领域在大模型应用方面的一些方向。
此外,我们在应用大模型时,有三个重要的原则。
个人实践:从科普到产业落地
首先分享我与大模型相关的一些实践。我撰写了两本关于大模型的书籍,并成立了一个大模型专委会。
任何一项新兴技术出现时,我们主要关注其技术本身带来的冲击。但随着技术的发展,其最主要的价值在于应用。例如,蒸汽机最初在英国发明,但最终在美国的轮船、纺织和铁路领域得到广泛应用,使其成为第一次工业革命的最大赢家。大模型技术也是如此。
我们需要深入了解大模型最基本的技术路线,然后结合具体应用场景的需求,将其真正落地。
第一本书是关于大模型技术的科普读物。随着DeepSeek等火爆技术的出现,我又推出了一本面向DeepSeek具体技术的实战书籍。如果未来有新的热门技术出现,我们还会撰写相应的实战书籍。因此,第一本书类似于基础教材,而DeepSeek实战则专注于具体技术的应用。
仅仅写书可能还停留在人才教育和技术应用层面,更重要的是落地实践。今年4月15日,我们在一个可容纳500人的会议厅成立了大模型应用产业专委会。专委会的成员架构包括大模型技术公司以及众多大模型应用领域的企业,其中医疗领域的企业占很大比例。因此,我们专委会的主要目标是在医疗领域进行更多落地探索,并希望与各位专家和领导深入合作。
人工智能医疗的拐点与价值
人工智能与医疗向来是一个非常重要的话题。为什么说人工智能医疗的拐点已经到来?目前大模型在具体应用时,大部分还是一些浅层的、外挂式的应用。
然而,这些浅层和外挂式应用仍然具有重要价值。它们至少有助于培育大模型与医疗结合的理念和人才。但大模型的重点不在于浅层应用,而在于深层应用。因为大模型融合了多样性的复杂数据,在其内部打通了众多数据间的复杂逻辑,能够生成多样性、个性化、精准的内容。这才是大模型本来的画像。
随着大模型本身推理能力的提升,以及像DeepSeek这样的开源技术,还有RAG(检索增强生成)和智能体等大模型生态技术的蓬勃发展,现在正是发展大模型在医疗领域应用的绝佳时机。
今年1月,世界经济论坛有一个论述,认为人工智能医疗应该是大模型增长最快的领域,并认为这是一个拐点的到来。
大模型在医疗领域的应用方向:To C与To B
报告提到了一个“84亿人工智能医生”的概念。大模型在医疗应用方面有很多方向,例如To C(面向消费者)方面。全球有84亿人口,有了大模型,每个人都可以拥有一个随身的医疗助理。
目前大模型更多应用于疾病治疗。但我认为大模型最主要的潜力在于疾病的预测和预防。医疗的最终目标应该是“治未病”,而不是等生病了再去医院。因此,基于大模型自身的特点,它可以在预测和预防疾病方面发挥更大作用。所以说,大模型在医疗领域最主要的应用,还是在健康和保健领域。如何通过大模型让每个人提前预测自己的健康曲线,从而安排个人生活和工作,这是To C方向的核心。
另一个方向是To B(面向企业/机构)。对于医生而言,可以基于大模型做很多降本增效的工作,例如写病历、看片子等。这些目前也属于点状应用。更重要的是,我们可以通过大模型辅助诊疗、提供建议。但无论是大模型生成内容的把关,还是医疗行为的控制,决策权都应该掌握在医生手中,这是毋庸置疑的。
在To C方面,大模型可以解决大约80%-90%的常见病问题。据统计,医院大部分人流都是常见病。在这些方面,我们有大量数据,完全可以发挥大模型的作用,将医生从处理大量常见病的工作中解脱出来,去做更多高认知的工作。这是大模型出现后,对医生工作内容带来的挑战。
当然,报告中提到了To C和To B,实际上还有To H(面向医院)和To G(面向政府)。对于医院来说,正是由于大模型的出现,我们可以将医院各科室的数据,无论从语法、语义还是逻辑层面进行彻底打通,促进信息系统的融合。对于医疗监管部门(To G),大模型可以带来监管角色转变、精细化治理能力提升以及管理模式转型等全面改变。
因此,大模型出现后,我们更多地提到一个名词——“虫丛树”。无论是看病、治病还是管理,这些复杂的“虫丛树”向来都是大模型能力发挥的地方。
目前,自今年1月20日(春节后)以来,医院领域形成了一股应用热潮。现在有近1000家医院(包括三级、二级及基层医院)正在深度接入大模型。这使得医院从外部的旁观者,变成了真正的入局者,去了解大模型应如何解决业务问题。
技术范式转变:智能体与动态评估
在大模型推动医疗技术范式转变方面,除了大模型本身能力(如推理能力)的提升,使得医疗可以更多依赖它之外,像智能体技术也做了很多前瞻性和落地性的工作。
这里主要汇报两个方面:一是智能体在诊疗方面的应用(这是大家讨论较多的);二是通过智能体,我们还可以动态评估大模型的效果,这是一个非常有创新性的事情。
首先,看一下当前基于智能体在医疗方面的一些工作。这是一篇今年的综述。其中提到了一个“大白”(Baymax)的形象,它来自动画片《超能陆战队》。这个白色的机器人代表了未来医疗机器人的一个模型。它可以看病,具备医疗能力,还能了解和输出情感,例如感知人的情绪并给予拥抱。现在我们可以通过智能体技术来模拟人类的这些能力。“大白”体现了大模型智能体技术与人性化结合的一个设备。
下图是论文中的一个框图,展示了智能体的各个方面。中间是智能体的核心模式。左上角是它的工具集,智能体可以基于逻辑判断调用一些AI 1.0时代的小模型(如分割、分类模型),或调用原有的数据库、新的知识图谱等内容。左下角显示,大模型要模拟人类治疗,更需要获取现实的医疗数据,如电子病历、影像、检验数据等。通过这些数据,才能实现个性化或精准化的输出。右边是推理部分,包括多步推理和专家协同等。
总体上,通过这样一套“组合拳”,实现了模拟医生真实工作流程的目标。并且,通过智能体中的记忆功能,可以保存医生当前的经验或错误,避免未来再出现相应问题。这就是一个智能体的框架。
下面总结了智能体的四种范式:
-
单一智能体:这是目前智能体应用最主要、最简单的形态。其核心流程之一是将用户提出的复杂需求分解为小任务,并序列化执行。
-
顺序智能体:模拟诊疗流程,例如分诊、问诊、检查(如拍片子)、诊疗、治疗,最后形成沉淀的诊疗信息(包括文本、影像等多模态数据)。
-
协同智能体:模拟多学科会诊(MDT)。未来会有通用智能体和更多专业智能体。对于专业领域,需要专业的逻辑和大模型来形成专业智能体,各智能体之间基于共同的医学数据协作,形成MDT效果。
-
迭代智能体:需要通过实践不断迭代,形成反馈。医疗记录在这方面起到非常重要的作用。无论是文本还是影像记录,对于患者不同阶段的治疗,以及整个医院学科发展来说,都是非常重要的沉淀和连接环节。
基于这四种范式,我们可以找一个应用场景,例如眼科。对于单一智能体,可以上传一个病例或OCT影像来进行特定的诊疗任务。对于顺序智能体,可以基于眼科的分诊、问诊及相应措施(判断是眼底病、全身性疾病还是视力问题)进行处理。对于专家协同,也有很多专业眼科智能体可以形成合作。眼科是大模型重要的应用领域,因为其多模态信息非常丰富,并且基于眼底可以观察全身健康状况。基于推理,对于复杂的眼科或全身性疾病,都可以做很好的落地工作。
下面汇报另一个方面:前面提到智能体基于诊疗,那么我们能否基于智能体构建一个对大模型的动态评估呢?这篇论文给出了一个场景。在论文中,有一些模拟的智能体角色,包括患者、医生、影像科医生和最终评估者。
通过这种智能体,可以实现对大模型的动态评估。因为目前更多的评估是基于静态基准的。如果把一个大模型放到一个模拟的医疗场景或流程中观察其效果,能更好地反映大模型的实际情况。
对于当前来说,智能体可以说是大模型进行落地应用的一个非常关键的技术。
大模型在医疗的应用方向与落地路径
对于大模型在医疗方面的应用方向,当前主要还是浅层应用、外挂式的。但这也有非常重要的阶段性贡献。更重要的是个性化、高质量地实现大模型与现有信息化系统的融合。最终目标是实现“大模型原生”,即基于大模型的智能来构建医疗业务。
这方面有一些思考。首先,正是由于当前DeepSeek等技术的火爆,生态发展已经从原来的由下往上(技术驱动)变成了由上往下(应用牵引)的推动。基于这种非常好的态势,构建院级基础大模型正是一个绝佳的时机。
基于院级基础大模型,我们再构建各个科室、专科的模型。这样能更好地发挥大模型的作用。因为大模型本身就是一个生态概念。无论是数据(多样的数据生态),还是模型本身(生态的模型),以及更多的生态技术(如RAG、智能体)和应用环境。对于医院来说,我们可以使用多种类型的大模型,一个智能体也可以调用多个大模型,混合使用多个智能体。
在这方面,我们可以先打造一些比较通用的应用,例如导诊、咨询或随访等各科室都会用到的智能体或模型。然后在此基础上,进行领域微调或知识蒸馏,构建专科模型。最后打造各个更专业的模型,实现深度应用。
这方面有一个“三位一体”的落地方案。首先,数据是根本。然后,挖掘场景,不同医院的场景不同。最终,每个医院、每个领域要想更好地发展,需要一个生态来支撑。这方面,我希望基于大模型应用产业专委会,与大家一同推动大模型在医院生态的建设。
应用大模型的“三三原则”
最后,提出应用大模型的“三三原则”。这不仅仅是针对医疗,而是普遍适用的。
-
拥抱技术:要主动拥抱技术。问问自己:我们每天是否在用大模型?大模型在业务应用方面是否可以更深入一些?
-
坚守初心:我们知道大模型不是全能的。有些事情需要我们亲自去做。因此,我们向来反对“大模型会替代医生、替代教师等岗位”的说法,这是绝对不可行的。大模型应用的最后一个环节,必须是我们人类。
-
批判性合作:大模型有其能力边界。无论技术如何发展,我们都不能因为大模型的能力而放弃人类自身对能力提升的追求。
总结
本节课中,我们一起学习了以下内容:
-
大模型与医疗结合的时代背景与个人产业实践。
-
人工智能医疗拐点到来的原因及其在To C(健康管理、常见病处理)和To B(辅助诊疗、医院管理)等方向的应用价值。
-
智能体技术如何推动医疗技术范式转变,包括其在模拟诊疗流程、实现多学科协作以及动态评估大模型效果方面的作用。
-
大模型在医疗领域的应用从浅层到深层的发展路径,以及构建院级基础模型和专科模型的落地思路。
-
应用大模型时需要遵循的“三三原则”:主动拥抱、坚守初心、批判性合作。
大模型为医疗领域带来了前所未有的机遇,其核心在于与具体场景深度融合,发挥数据价值,最终服务于人类的健康福祉。
AI+理工&医学-p05-北京智源人工智能研究院与北京大学第一医院-战略合作签约仪式
在本节课中,我们将共同回顾北京智源人工智能研究院与北京大学第一医院战略合作签约仪式的核心内容,了解双方合作的基础、目标与深远意义。
感谢几位专家的精彩分享。我是北京智源人工智能研究院心脏仿真负责人李亚聪。接下来,我代表智源研究院邀请大家共同见证北京智源人工智能研究院与北京大学第一医院战略合作签约仪式。
此次战略合作是在国家“人工智能+”战略指引下,双方基于前期良好合作基础上的又一重要里程碑。双方将秉持优势互补、资源共享、协同创新的原则,充分发挥北京智源人工智能研究院在AI技术研发与工程化方面的深厚积累,以及北京大学第一医院在临床诊疗、科研教学和医学数据方面的专业优势,共同在智慧医学系统领域,开展深入、系统、持续的战略合作。
下面有请签约嘉宾,北京大学第一医院数字医学创新研究中心主任张璐霞,以及北京智源人工智能研究院首席科学家张鹏贵教授。有请两位签约嘉宾。
今天我们还非常荣幸地邀请到了双方领导共同见证签约,有请北京大学第一医院院长杨尹墨、副院长李建平、数字医学创新研究中心副主任杨超,以及北京智源人工智能研究院院长王仲远、副院长杨洋。请各位领导共同上台见证签约仪式。
请张璐霞主任和张鹏贵教授签约。请两位交换签约书。也请各位领导合影留念。请摄影师记录这一时刻。请各位领导下台落座。请杨院长留步。
接下来有请北京大学第一医院院长杨尹墨发表致辞。
尊敬的各位同道、各位专家,大家中午好。我特别高兴,也深感荣幸,代表北京大学第一医院与北京智源人工智能研究院签署这项战略性合作。我认为这对我们双方都具有战略意义。其次,参加北京智源大会,因时因势,对于我们医院的管理层面、对于健康产业层面,都具有深远影响。
我本人是一名外科医生。今天上午我还出门诊。从上午看到中午12点半,共接诊了25位病人。每位病人就诊时,都需要诉说病史、不适症状、过往检查与治疗情况。我需要随听随录入,以便为下次就诊或其他医院接诊时提供可共建共享的病历。这对医生而言非常重要。
我突然想到,接诊25位病人耗时如此之长,效率确实不高,平均每位病人约半小时。如果病人一进入诊室,其病史就能通过人工智能自动生成文字病历,这将极大提升效率。我知道南方已有医院在尝试,让病人通过手机诉说病史,在诊室即可生成病历,甚至能识别方言。这对于提高医疗健康行业的工作效率至关重要。
我特别感受到,今年与去年出门诊时,病人咨询的情况已截然不同。许多病人,尤其是一些肿瘤患者,在就诊前已做过充分功课。他们了解治疗方案、国内外指南现状,更多是来找我验证答案。这就是健康医疗行业正在发生的潜移默化的影响。
我是外科肿瘤医生,经常有病人或家属询问:何时会复发?是否需要化疗?影响复发的风险因素有哪些?我还能活多久?这是病人最关切的问题。这实际上是什么?大模型,正如刚才所讲,就是用于预测风险因素、筛查复发风险、判断肿瘤生物学行为的工具。我认为,这就是建立在科学基础上的“科学算命”。对于医院而言,数据最为宝贵。数据的挖掘和利用,既依靠医生,也仰仗各位专家提供指引与方法。
我们医院的门诊楼位于皇城保护区,最初设计日接诊量为5000人次。但如今实际日接诊量已达1万人次,处于超负荷运转状态。医院内非常拥挤,流程包括挂号、就诊、开具检查单(如CT、核磁)、预约、缴费,再到不同楼层取药,效率低下。如果日接诊量从设计5000人次增至1万,拥挤程度可想而知。但若设计容量为5万,实际接诊1万,流程就会顺畅许多。这说明,通过大数据分析进行流程重塑,医院管理可以非常到位。
例如,完全可以借助自助机、手机预约平台,将预约就诊时间精确到10-15分钟,避免病人上下楼奔波。病人看完病可直接回家,药品随后送达。未来,医院甚至可能取消药房,因为这些并非医院核心业务。让我能专注于看病,这种流程重塑特别有赖于大数据的挖掘和人工智能在各管理环节的优化。
因此,我们与智源研究院的签约,其深远意义不仅在于专业领域,更在于医院管理。我每周仍进行一两天手术。如今手术的内涵,与二三十年前已天壤之别。二三十年前,为病人做腹腔镜胆囊切除手术,需要花费一小时解释为何不开大刀。如今,若建议开大刀,反而需要两小时去说服病人。这就是科技进步,是人工智能与大数据带给诊疗行为的变化。过去的不可能,今天已成为可能,明天将成为常规。这就是日新月异的变化。
作为临床专业人士,听完刚才几位专家关于大模型与数据的分享,我深有感触。特别期待我们与在座各位,尤其是与智源研究院进行深入的战略合作。我相信,这对我们双方将是共赢,最终将汇聚成大众健康,惠及广大患者。再次感谢大家,祝贺大会圆满成功。
谢谢杨院长的精彩发言,也对AI领域提出了更高的展望。下面有请北京智源人工智能研究院院长王仲远发表致辞。
感谢杨院长热情洋溢的致辞。杨院长对于大模型、对于AI的拥抱态度,让我印象非常深刻。
智源研究院是国内最早从事大模型技术研发的团队之一。早在2020年,我们就成立了百余人的技术攻关团队,并发布了悟道系列1.0、2.0、3.0大模型,它们曾是当年中国最早、全球参数规模最大的大模型之一。同时,我们也孵化了一系列大模型创新创业公司,包括国内多家大家耳熟能详的大模型企业。
今天,在AI理工与医学论坛上,智源研究院与北大第一医院携手达成战略合作,令人非常高兴。实际上,在今天早晨的开幕式上,我们已经预告了与北京大学的战略合作。
北大第一医院在临床、科研及数据资源方面都有非常深厚的积淀。我们非常期待与这样一流的医学机构强强联合,围绕智慧医疗系统,共同开展协同创新,攻克瓶颈难题,探索AI与医学深度融合的可持续发展路径。希望通过两个机构广泛而深入的合作,能够推动人工智能真正走入临床一线,服务人民健康,贡献医工交叉的“中国范式”。
我们对未来充满信心,也期待与大家一道,携手向前,共创未来。谢谢大家。
本节课中,我们一起学习了北京智源人工智能研究院与北京大学第一医院战略合作签约仪式的全过程。我们了解到,此次合作基于国家战略与双方优势,旨在通过优势互补、资源共享、协同创新的原则,共同推进智慧医疗系统发展。双方领导在致辞中强调了人工智能与大数据在提升诊疗效率、优化医院管理、赋能临床科研方面的巨大潜力,并展望了通过深度合作服务人民健康、贡献中国方案的共同愿景。
AI+理工&医学-p06-心血管病长期管理中AI的应用及功能定位:吴永健
在本节课中,我们将从一位资深心血管病临床医生的视角出发,探讨人工智能在心血管病长期管理中的应用现状、功能定位以及未来展望。我们将了解医生如何看待AI,AI在医疗中的实际作用与挑战,以及一些具体的实践案例。
感谢大会的邀请。今天我与团队一同来学习。当前时代,每个行业都在拥抱人工智能。如果不参与其中,就会落后。我与建平院长、朱天刚教授都是资深医生。刘华医生则相对年轻。今天在座的各位可能来自理工科或医疗领域。我作为这个领域的一名初学者,分享近几年的感受。
医生如何看待人工智能
上一节我们提到了时代背景,本节中我们来看看医生群体如何具体看待人工智能技术。医生不能仅停留在观察层面,必须亲自实践,才有持续的动力。
以下是当前医疗系统中人工智能的几个主要方向:
-
大语言模型:每个人都希望利用语言模型解决医疗问题。中国人可能更青睐人工智能,某种程度上将其视为一种“高级算命”工具,用于解答不确定的问题。例如,人们希望AI能像预报天气一样,预测个人未来的患病风险,以便提前准备。这是大语言模型吸引人的地方之一。
-
为医生减负:AI的目标是减轻医生负担,而非让医生变得懒惰或不再思考。例如,学习解读心电图、听诊心音、分析超声图像都需要多年训练。现在,人工智能可以辅助完成这些工作。但这也引出一个问题:未来人工智能是否会让医生变得不再需要专业判断?
-
传统机器学习:我们需要建立自己的多种预测或诊断模型。
以上是我作为一名医生对人工智能的初步理解。今天的学习可能会改变这些认知。
人工智能在医疗中的热闹与挑战
上一节我们介绍了医生对AI的几种看法,本节中我们来看看AI在医疗领域发展的现实情况。
在人工智能领域,学习与应用非常活跃。然而,当我们审视过去几年开发的各种模型时,会发现没有一个模型能让人完全放心地依靠它来看病。这是不可能的。因此,我们不能完全依赖这些大模型。我们需要为这些模型进行功能定位,思考医生和病人未来应如何使用它们。这是当前必须考虑的问题。
医疗模型的“上市”与规范
上一节我们讨论了AI模型的实际可靠性问题,本节中我们来探讨其作为医疗工具应遵循的规范。
过去,医生主要依靠医疗器械和药品来治病。没有这些,医生只能诊断,难以治疗。如今,除了药品和器械,出现了“第三方”——医疗AI模型。医生需要像学习新药一样,学习每一个新模型的作用、副作用和适用场景。
但是,一个新药的研发需要遵循严格的流程:从药物发现、动物实验、临床前研究到临床试验,最终获得国家审批。那么,一个医疗AI模型是否也需要经过类似审批才能“上市”?因为医疗行为需要负责,不能像算命一样随意。对于医生而言,模型必须走类似的合规流程,获得国家认可,证明其具备专科医生的诊断水平,才能用于临床。否则,如果没有获得三类医疗器械证,它就无法上市,其商业模式和可持续性也将成为问题。
因此,未来AI在医疗中的应用必须遵循医疗行业的客观规律。
人工智能在心血管领域的功能定位与实践
上一节我们探讨了医疗AI的规范问题,本节中我们具体看看AI在心血管领域可以发挥哪些作用。
我认为AI的功能定位主要体现在“提质”和“增效”两个方面。
-
提质:例如,利用计算生理学(如FFRct)评估冠状动脉病变是否具有临床意义,辅助诊断分型,以及评估手术质量。
-
增效:例如,在影像判读方面,AI可能比某些资深医生看得更准,并能自动生成报告。
以下是我们在心血管领域的一些具体实践案例:
-
专科大模型:近期出现了专注于心血管领域的“关心”大模型等。这些模型基于指南、共识、教程和过往病例训练而成,目前相当于医学本科生的水平。它们缺乏互动性。通过持续的前瞻性学习和互动训练,未来有望达到住院医师或主治医师的水平。为每位医生配备这样一个AI助手,是我们当前的目标。
-
人脸识别辅助诊断冠心病:与清华大学合作,在患者进行冠状动脉造影前,通过正面和侧面两个摄像头进行面部识别,辅助预测冠心病。目前敏感性尚可,但需考虑患者术前紧张情绪对表情的影响。
-
智能听诊器:听诊是一项需要终身学习的技能。我们开发了智能听诊器,旨在从人群中筛查出心脏异常者,类似于在人群中识别目标。此外,还有与协和医院合作开发的小型设备,可无听诊式检测主动脉瓣狭窄或关闭不全,该产品已商业化。
-
心电图诊断瓣膜病:通常瓣膜病依赖超声诊断。我们尝试通过心电图来辅助判断,类似于“高级算命”,目前该工作仍在验证中。
-
冠脉介入手术辅助系统:与航空航天大学合作,希望将AI系统整合进手术室,实时提示病变情况、手术策略及预后,目前处于验证阶段。
-
瓣膜手术术前模拟:在柳叶刀子刊上发表的研究,通过术前模拟瓣膜植入的位置和型号,来指导复杂的经导管主动脉瓣置换术(TAVR)手术。
-
冠状动脉风险分层:我们希望利用AI对患者进行未来的风险分层。例如,预测冠心病患者植入支架出院后,再发事件的风险和时间。我院第一阶段工作已完成,结果即将发表。
高质量医疗AI面临的挑战与未来方向
上一节我们列举了多项实践,本节中我们来看看要做出高质量的医疗AI所必须克服的核心挑战。
-
数据质量与来源:这是所有大模型面临的最大问题——局限性与风险。我们需要真实、高质量的数据,而这往往需要巨大投入。例如,要构建一个高质量的冠心病对话模型,需要将医患对话自动转写为文本并进行标注,成本高昂。中国要做出真正高质量的医疗大模型,需要巨大的资金和人力投入。
-
建设国家级专病数据库:科研中数据收集困难,患者配合度可能只有30%。作为国家心脏中心冠心病中心主任,我认为必须建立中国的冠心病专病数据库。我们已获得多项资金支持,正在推进“隔壁导管室”项目,实现全国导管室互联互通,自动采集手术中的图像、语音并生成结构化数据。
-
安全性问题:医疗AI涉及大量患者隐私和安全问题,需要逐一解决。
-
应用场景展望:我设想了一个未来场景——“数字专家”。这不是我个人,而是被AI赋能的“数字吴永健”。它整合了多学科(心内、内分泌、呼吸等)知识,连接患者的可穿戴设备,管理其历史健康档案,与患者互动,实现主动健康管理和自我管理。目标是提升患者心脏健康指数,减少80%的非必要就诊。最终,医生只需处理最复杂的20%病例,从而大幅提高效率。这是我们希望实现的目标,并且未来会为此类AI系统申请三类医疗器械证。
总结
本节课中,我们一起学习了临床医生对人工智能在心血管病管理中的应用视角。我们探讨了AI在提质增效方面的潜力,也直面了其在数据质量、规范审批和实际可靠性方面的挑战。通过人脸识别、智能听诊、手术辅助、风险分层等多个具体案例,我们看到了AI落地的多种可能性。最终,我们展望了AI赋能下的“数字专家”场景,这代表了心血管病长期管理的一个未来方向——更高效、更个性化、更以患者为中心的主动健康管理模式。实现这一愿景,需要医学与人工智能领域的深度融合与持续探索。
AI+理工&医学-p07-基于大模型的心血管专业模型及下游产品研发:何怡华
在本节课中,我们将学习如何研发一个覆盖全生命周期的心血管疾病超声诊断大语言模型。我们将从行业现状与挑战出发,逐步了解模型构建的数据基础、技术架构、训练方法,并最终看到其产品形态与应用场景。
概述:心血管疾病的挑战与AI机遇
心血管疾病与妇产新生儿疾病的负担位居全球首位,且发病率逐年上升。心血管疾病导致的死亡给人类带来了严重压力。最新数据显示,中国70%的心血管疾病事件发生在院前。因此,我们需要明确现状,并思考如何借助科技革命浪潮,应用人工智能技术来解决医疗问题。
行业现状与核心问题
上一节我们概述了心血管疾病的严峻形势,本节中我们来看看当前医疗实践,特别是超声诊断领域面临的具体挑战。
通过对现状的梳理,我们归纳出以下几个核心问题:
-
诊断不精准与延迟:现有诊断流程存在准确性和时效性问题。
-
治疗方案规划个体化不足:对于特定疾病(如瓣膜介入治疗),缺乏个性化的手术方案规划支持。
-
院前快速识别困难:疾病在院前阶段无法被快速识别和判断。
-
国民不良生活习惯:普遍存在的不良生活习惯加剧了疾病负担。
这些问题共同导致了心血管疾病死亡率与发病率居高不下。当前,针对关键防治节点的人工智能产品研发,以及利用大语言模型整合各类小模型于整个医疗流程中,被认为能发挥重要作用。
聚焦超声诊断:从单点技术到体系化突破
在了解了普遍性挑战后,我们将目光聚焦到心血管超声诊断这一具体领域。当前,顶尖学术期刊中关于超声人工智能的研发,大多仍局限于单技术、单点的突破。
例如,对心脏功能心内膜的自动描记与测量,在整个心脏超声诊断决策涉及的数十甚至上百个参数与技术点中,仅占其一。因此,我们的核心问题转变为:如何应用人工智能技术及大语言模型,来解决超声诊疗整个体系中的工作?
医疗大语言模型的应用现状与未来
刚才我们聚焦于心脏超声的研究现状,现在将视角扩大到整个医疗领域的大语言模型应用。
根据《美国医学会杂志》(JAMA)的相关评测研究,基于真实临床数据构建的大语言模型目前仍然非常少。多数模型是基于指南、文献等进行建模。这些模型的应用集中在医疗服务领域较多,在医疗管理领域则相对较少。此外,针对整个医疗流程的评价体系尚不健全。
未来的发展方向十分明确。大语言模型已在临床决策支持、报告生成、医学教育、辅助机器人、药物研发等多个领域开始应用。未来,无论是在“诊”还是“疗”的环节,大模型在提质增效方面都有巨大的发展空间,例如提供个性化治疗建议、管理患者护理质量等,潜力巨大。
安贞医院的实践:全生命周期心血管诊断大模型
接下来,我们看看北京安贞医院团队在此方向上的具体实践。该团队最大的特点是覆盖了从胎儿到成人的全生命周期心血管疾病,包括胎儿期百余种、成人期上百种疾病。
团队以诊断为基石,第一步工作是使用真实数据,并结合多模态信息与专家知识库驱动,来构建心血管诊断大模型。
其技术演进路径规划如下:
-
通用大语言模型基座:学习可公开获取的数据。
-
医疗垂域大模型:在通用基座上融入医疗专业知识。
-
心血管专病大模型:进一步聚焦于心血管疾病领域。
-
心脏超声大模型:当前实现的第一代细分模型。
-
未来方向:融合CT、核磁等多模态影像的多模态大模型及下游产品。
第一代产品形态是智能超声报告生成系统。该系统通过融合疾病影像、语义(文本)和语音等多模态信息,构建心血管诊断大模型。
模型构建:数据、训练与知识体系
我们已经了解了项目的目标和产品形态,本节将深入探讨模型是如何构建起来的。这需要坚实的数据基础、科学的训练方法和丰富的知识体系。
数据基础
模型使用了300万例真实世界数据,其中包括:
-
疾病谱系广泛:涵盖108种胎儿先天性心脏病和160种成人心脏病。
-
多模态数据:包括超声影像、结构参数、电子病历等。
-
深度标注数据:例如,10万例胎儿心脏病病例,每例均包含300多项母体风险因素及2000个遗传位点信息。
-
自主研发标注系统:针对胎儿心脏病、瓣膜病、危重冠心病等不同疾病体系开发。
数据标注流程包含初标团队、外包团队和审核专家团队,确保质量控制。并非所有300万数据都用于影像模型训练,系统首先基于300万份报告数据和数十万影像数据,构建了多模态融合的智能报告系统。
训练方法
模型训练主要分为以下几个步骤:
-
基座模型训练:在通用大语言模型基座上进行训练。
-
强化学习与精标微调:使用高质量标注数据进行强化学习和精细微调。
专家知识体系构建
这是模型实现准确诊断推理的核心。团队为50多种常见疾病构建了专家知识决策树。决策树定义了当模型识别到特定指征时,应进一步检查什么、后续步骤如何。这相当于为模型注入了专家的诊断逻辑。
知识来源有三个维度:
-
专家知识体系:结构化的临床决策路径。
-
文献学习:从海量医学文献中汲取最新知识。
-
真实数据:从300万真实病例中学习模式。
整个模型训练框架基于:大模型基座 + 心血管专家知识体系 + 核心技术。核心技术包括医学知识检索增强、大模型的复杂诊疗推理、个性化交互问诊以及语音识别与多模态技术。
产品实现与应用场景
经过上述构建过程,模型最终实现了怎样的产品功能?又将在何处发挥作用呢?
产品功能与形态
第一代智能超声报告系统实现了以下功能:
-
影像自动识别:在操作过程中自动识别超声切面。
-
参数自动测量:对识别出的切面进行自动化结构测量。
-
特征描述与推理:根据预设的提示词(如“二尖瓣有无钙化”、“运动幅度如何”),引导医生描述影像特征,最终自动推理生成诊断结果和结构化报告。
目前,该模型对近300种心血管疾病的平均诊断准确率达到90%。对于一些罕见病(如数据量较少的肥厚型心肌病),诊断准确率较低,需要通过投入更多数据强化训练来提升。
应用场景与部署
产品设计应用于以下场景:
-
医院内部署:目前已在安贞医院内网,与PACS(影像归档系统)和HIS(医院信息系统)集成部署。
-
赋能现有设备:大模型可嵌入已获二类医疗器械认证的先天性心脏病小模型产品中,在诊室内实现影像自动抓取,并结合语音交互。
-
胎儿心脏病决策支持:不仅诊断疾病,还能对先天性心脏病(如法洛四联症)进行分层诊断,提供预后评估和专家决策建议,这对产科和出生缺陷防控系统至关重要。
关于部署方式,考虑到算力成本、数据安全及不同地区的公平性,完全远程调用大模型的方案尚未实施。团队希望依托国家人工智能基地,先在北京全覆盖,再于全国试点单位部署试用,在过程中持续优化迭代。
总结
本节课中,我们一起学习了基于大语言模型研发全生命周期心血管超声诊断模型的完整过程。我们从心血管疾病诊断的现状与挑战出发,探讨了将AI技术体系化应用于超声诊疗的必然性。通过了解安贞医院的具体实践,我们看到了如何利用海量、多模态的真实数据,结合专家知识体系,训练出能够实现自动识别、测量、描述和推理的诊断大模型。该模型以智能报告系统为产品形态,旨在集成到医院工作流中,最终目标是为超声诊断带来数字化、智能化与人机交互的变革,从而为降低心血管疾病负担贡献力量。
AI+理工&医学-p08-演讲主题:李栋
在本节课中,我们将学习李栋博士关于医疗领域大模型应用的深度分享。课程将从数据角度切入,分析大模型(如DeepSeek)在医疗场景下的可行部署模式、面临的挑战与机遇,并探讨如何利用大模型驱动智慧医疗创新。
大模型在医疗场景的部署模式
更多推荐



所有评论(0)