摘要:显著提升了视觉计算性能
当下以图像和视频为主的视觉数据占互联网流量90%以上,人工智能正是凭借视觉计算,拥有“看”世界的能力。
最近十几年来视觉计算取得了较大进展,但对于复杂动态视觉数据的理解仍极具挑战。复旦大学计算机科学技术学院姜育刚教授、吴祖煊副教授、薛向阳教授与大数据学院付彦伟教授等共同完成的项目“多元协同的视觉计算理论与方法”,解决了传统方法难以应对复杂动态视觉数据的难题,显著提升了视觉计算性能。
6月24日,该研究成果获国家自然科学奖二等奖。
【动态视觉数据的理解极具挑战】
视觉计算通过对海量图像、视频等视觉数据进行智能分析,提取物体、场景、运动、交互等重要信息,是人工智能领域的核心研究方向,也是社会治安防控、网络内容安全等国家战略应用的重大需求。
“在众多关键应用中,视觉计算处理的都是动态视觉数据。因此,动态视觉数据的计算非常重要,是视觉计算的核心问题。”姜育刚告诉解放日报·上观新闻记者。
姜育刚
然而动态视觉数据的理解仍极具挑战。以视频数据为例,不同于静态图像,其多了“时间”这个维度,蕴含丰富多样的信息,这些信息交织在一起给动态视觉数据的理解带来极大挑战。具体来讲,同一物体在不同时刻可能会因遮挡等原因存在较大的外观差异,这样的变化会给计算带来极大困难;物体在运动时的场景、轨迹、声音等信息,对于理解这是什么样的运动十分重要,因此视觉计算需要全面刻画这些多模态信息;很多物体的动作和事件在视觉上十分相似,比如说“竞走”和“跑步”,若是不能很好地区分这些细微的差异,会导致视觉计算的性能受限。
【多元信息的关系挖掘与利用】
姜育刚团队历经十余年攻关,揭示了视觉计算在数据层、特征层、语义层不同形式的多元特性,提出了适应各层特性并逐层解耦的协同建模方法,形成了多元协同视觉计算理论体系。研究成果得到了国内外学者的广泛认可,引发了大量跟踪研究,带动了相关学科领域研究与应用的新发展。
这一研究最核心的创新点,是视觉计算中多元信息的关联挖掘与利用。这一想法独立于视觉计算架构本身,无论计算架构如何演进,从过去的统计机器学习方法,到卷积神经网络,再到最新的多模态大模型,都可以深入挖掘视觉数据的多元特性并进行关联建模。
这一研究可以显著提升视觉计算性能,进而支撑海量视觉数据的检索与管理,还可以助力机器人更好地感知环境,这正是当下炙手可热的“具身智能”的核心技术。
【解决实际应用中的痛点问题】
基于项目理论成果,团队多次服务国家重大需求,比如大幅提升了高铁关键部件的故障检测精度。对于轨道扣件、电务线缆等的传统检测方式是人工巡检,不仅效率低,还经常出现漏检。姜育刚团队与铁道科学研究院基础设施检测研究所联合攻关,解决了轨道扣件等高铁设施的故障检测难题,多次发现并排除重大安全隐患。
团队还致力于解决企业应用场景中的痛点问题。比如,与华为联合研发了融合视觉与语言的多模态检索技术,方便用户更快地从海量相册中找到自己感兴趣的图像、视频,以及拍照中的AI消除等功能,均已在华为旗舰手机中得到应用。
【在全球公开评测中取得领先成绩】
十余年攻关,最困难的是在“无人区”趟出一条路。
由于视频数据的量特别大,相比图像需要的计算资源也更多,使用传统的CPU进行计算比较慢,“我们是最早用GPU对视频数据进行处理的团队之一,那时候没有特别成熟的开源框架,只能一次次不断测试优化。”姜育刚告诉解放日报·上观新闻记者。
从2008年至今,他们的方法在面向全球的公开评测中都取得了领先成绩。在美国国家标准与技术研究院主办的视觉语义识别国际评测中,分别在2008年、2010年获第一名;在欧洲MediaEval(多媒体评测)评测中,2014年、2015年蝉联暴力场景视觉语义识别任务第一名;在2019年谷歌公司举办的全球最大规模视频识别挑战赛中,获得全球第二、亚洲第一;在刚刚结束的国际计算机视觉与模式识别大会上(CVPR),在大规模开放词汇目标检测等三个挑战赛中斩获第一名。
大规模数据集是视觉计算至关重要的组成部分,对于模型的训练和性能提升起着至关重要的作用。数据集也可以作为基准测试工具,用于公正、客观地比较不同方法的性能优劣,进而来衡量一个研究领域的整体进展。姜育刚团队致力于大规模数据集的开放共享,从2008年至今与美国哥伦比亚大学、中佛罗里达大学、谷歌公司等研究团队联合构建的数据集,如FCVID、CCV、THUMOS等,被斯坦福大学、加州大学伯克利分校、微软等千余家机构广泛采用。