我国学者在行为视觉理解领域取得进展
图 主体姿态行为感知(左);视觉交互行为认知推理(中);行为神经机制溯因(右)
随着“以人为中心”的具身智能技术的发展,智能体被要求拥有类似于人类的观察和理解日常行为的能力,这催生了“行为视觉理解”这一科学问题的产生。该方向的研究对于智能装备、智慧城市、服务机器人、虚拟现实、人机交互、健康医疗等领域有举足轻重的作用,同时对具身智能和通用机器人研究发展有关键性推动效应。
在国家自然科学基金项目(批准号:61772332)等资助下,上海交通大学卢策吾教授项目组在行为视觉理解的理论与应用研究中取得了突破性成果。项目组从主体行为感知、交互行为认知推理、神经机制溯因(图)三个方面入手,开展了深入研究。面对主体姿态行为感知的挑战,设计了多重自适应结构约束下的跨尺度联合优化框架,该框架可有效应对密集遮挡、个体姿态估计以及人体关节扭动量估计等问题,提升了复杂动态场景主体行为理解的性能;针对复杂交互行为推理难题,提出了混合行为基元概念提取和逻辑推理机制,提升了行为理解在复杂场景交互推理行为方面的性能;项目组提出了机器视觉驱动的行为脑神经机理解析工具和方法,构建了连接行为检测与脑神经信号的系统,并建立了二者之间深层的相关性。提出的一系列算法使得行为主体(小鼠)的复杂社会行为检测准确率达到人类水平,保证了行为神经机制溯因系统的有效性。项目组在主体姿态行为感知领域开发和维护的开源系统Alpha Pose展现了实用价值,与国际14家企业签署商用授权合同。
项目组的研究成果发表在《自然》(Nature)、《自然机器智能》(Nature Machine Intelligence)、《IEEE 模式分析与机器智能汇刊》(TPAMI)、《IEEE 机器人汇刊》(T-RO)等国际顶级期刊上。同时,获得2024年中国人工智能学会“吴文俊”自然科学奖一等奖、2023年科学探索奖、2022年教育部青年科学奖和2019年度《麻省理工科技评论》中国35岁以下科技创新35人(MIT TR35)等。