近日,在计算机视觉顶级会议ICCV 2025举办的HANDS 2025挑战赛上,由肖阳教授、曹治国教授指导,研究生徐航、姜昌龙、况昊鸿及本科生邓扬帆、周启航组成的HCB-Hand团队,在“Dexterous HO Tracker”赛道中脱颖而出,荣获冠军!

图1 HCB-Hand团队获奖证书
本次挑战赛直指“具身智能”的核心难题之一——“灵巧鸿沟”:由于人手与灵巧机械手在物理结构、关节和自由度上存在巨大差异(即“形态鸿沟”),我们无法将人类的灵巧操控能力直接复制到机器人上。因此,如何让灵巧手不仅仅是“形似”地复现动作,更能“神似”地理解并完成任务(如开瓶盖、插U盘),成为业界公认的巨大挑战。本次挑战赛核心任务正是面向这一难题:算法需要将带有噪声的人类手物体交互运动捕捉序列,迁移到模拟环境中的灵巧机械手上,完成指定任务并实现物理上合理的交互。这不仅是简单的动作模仿,更是一个复杂的高维策略学习问题:算法必须能输出一系列精准的灵巧手动作,才能在克服形态差异和数据噪声的双重挑战下,成功完成这些高难度的交互任务。
挑战赛的官方基线ManipTrans是一个强大的两阶段迁移框架:首先通过一个预训练的“手部动作模仿器”来模仿人手的运动轨迹,再通过一个残差策略网络来精调动作以适应手和物体的物理交互。然而,HCB-Hand 团队敏锐地发现,基线方法依赖于单一的策略网络。面对真实世界中复杂的交互状态和充满噪声的动作捕捉数据,这个“单一全能”的网络在处理高度复杂和多变的动态过程时,显得力不从心。为此,HCB-Hand 团队采用了一个关键方案:混合残差专家。如果说基线方法是“一个全科医生”,那么HCB-Hand的混合残差专家架构就是一支“专家会诊团队”。这种“分而治之”的精妙设计,允许不同的专家专注于处理它们各自擅长的手物体交互模式,从而将一个极其复杂的高维策略问题分解为多个更专业、更易于管理的子问题。
HCB-Hand团队在官方评估序列上取得了骄人战绩,成功攻克了高难度的单手及双手操作挑战,荣获挑战赛第一名。如图3所示,无论是用勺子从杯中取出粉末、还是用笔在白板上书写,团队的算法都能将人类的动作捕捉数据成功迁移到灵巧手上,并准确地完成指定任务。专家激活模式可视化结果也证实了专家设计构想。从图4的激活热力图中可以清晰地看到,在任务执行过程中,系统会根据当前状态(states)的不同,智能地激活相应的专家,相似的交互模式会由同一位专家处理,不同的交互模式会由不同专家处理,真正实现了“术业有专攻”,这正是团队方案有效运行的关键所在。

图2 动作捕捉数据迁移灵巧手可视化结果

图3 混合专家激活可视化