valse 2022 会议手册，点击下载。

目录

VALSE 2022 欢迎您 .......................................................................................................................... 1大会组委会 ......................................................................................................................................... 2VALSE 2022 会场分布 ..................................................................................................................... 3会议总体日程 ..................................................................................................................................... 5Tutorial与Workshop日程一览 ........................................................................................................8大会报告及讲者简介 .......................................................................................................................18年度进展评述（APR）及讲者简介 ..............................................................................................21Tutorial报告及讲者简介 .................................................................................................................27Workshops报告及讲者简介 ........................................................................................................... 31Workshop 1: Transformers for Vision Tasks ................................................................................... 31Workshop 2: 视觉情感计算 ............................................................................................................35Workshop 3: 多模态认知计算 ....................................................................................................... 40Workshop 4: 计算摄像研究与应用具身智能视觉 ...................................................................... 45Workshop 5: 开放环境下机器学习及应用 ...................................................................................49Workshop 6: 智能三维视觉内容生成与分析 .............................................................................. 53Workshop 7：智能底层视觉的趋势与挑战 ..................................................................................57Workshop 8: 目标检测、分割与跟踪 ...........................................................................................61Workshop 9: 可解释的深度学习算法与视觉应用 ...................................................................... 66Workshop 10: 医学数据分析中的深度学习方法 ........................................................................ 70Workshop 11: 视频行为理解 ..........................................................................................................75Workshop 12: 针对弱监督数据的鲁棒学习方法 ........................................................................ 79Workshop 13: 计算机视觉与工业应用 .........................................................................................83Workshop 14: 视觉预训练 ..............................................................................................................87Workshop 15：具身智能 .................................................................................................................92Workshop 16：鲁棒安全的机器学习和视觉计算 ....................................................................... 97Workshop 17：AI+X......................................................................................................................101Workshop 18：边缘计算与视觉智能 .......................................................................................... 105Poster交流论文一览表 ................................................................................................................. 109赞助商简介 ..................................................................................................................................... 122部分组织单位简介 .........................................................................................................................134VALSE——学术华尔兹 ................................................................................................................135VALSE在线活动参与方法介绍 .................................................................................................. 137VALSE 2021-2022年度 Webinar报告一览表 ............................................................................138VALSE 2021-2022年度 Student Webinar 报告一览表 ............................................................141VALSE各委员会 ........................................................................................................................... 143交通路线及防疫政策 .................................................................................................................... 146

1

VALSE 2022欢迎您

欢迎大家来到天津，享受VALSE给大家带来的学术盛宴。

VALSE发起于2011年，是Vision And Learning SEminar的简写，取法语“华尔兹舞”之意。旨在为计算机视觉、图像处理、模式识别与机器学习研究领域的华人青年学者提供一

个自由、平等、低成本的深度学术交流舞台。在这个舞台上，我们恪守并倡导理性批判、

勇于探索、实证、创新等科学精神；在这个舞台上，我们倡导自由平等原则下、理性而纯

学术的百家争鸣和思想交锋；在这个舞台上，我们期望欣赏到国内青年学者越来越优美的

学术华尔兹（VALSE）。通过这个舞台，我们期望促进国内青年学者的思想交流和学术合

作，从而在相关领域做出重量级的学术贡献，提升中国学者在国际学术舞台上的学术和影

响力。

围绕上述目标，过去十一年来，VALSE逐渐形成了自己的特色社区文化、找准了自己

的使命，包括：

1) 创造深层次学术交流与合作的新模式；

2) 搭建经济实用的在线学术交流舞台；

3) 构筑连接学术界和工业界间的桥梁；

4) 践行国际学术规范，倡导先进科研理念。

第十二届VALSE大会于2022年8月22-24日在天津举行。届时将延续历年传统，呈上5个大会特邀报告、12个APR报告、2场Tutorial、18场Workshop、200+篇顶会顶刊Poster，合计共有百余位知名青年学者共同带来CVPR、ML领域的又一次学术盛宴。此外，在会场

赞助商展台区还将展示赞助商精彩的演示。

鉴于VALSE不向参会者收取任何费用，故特别感谢图森未来、AutoDL、OPPO、真格

基金、华为、SK集团、思谋科技、美团、闪马智能、腾讯优图、传音控股、百度、极视

角科技、金山办公、Nreal、腾讯ARC Lab、地平线、奥比中光、美图、鉴智机器人、精测

电子、坤前计算机、瑞莱智慧、首都在线、思腾合力、平安科技、天津泰达等企业对本次

会议提供的赞助与大力支持。

VALSE 2022 组委会

2

大会组委会大会主席 (General Chairs) 程序委员会主席 (Program Chairs)胡清华天津大学

章国锋浙江大学

程明明南开大学

冯伟天津大学

张敏灵东南大学

张利军南京大学

Tutorial Chairs Poster Chairs王楠楠西安电子科技大学

夏勇西北工业大学

王福田安徽大学

张长青天津大学

Demo Charis Website Chair王栋大连理工大学

侯淇彬南开大学

郑海永中国海洋大学

Finance Chairs Registration Chairs王旗龙天津大学郭宗辉中科院计算所

刘夏雷南开大学

崔兆鹏浙江大学

Publicity Chairs Sponsorship Chairs贾伟合肥工业大学

郭春乐南开大学

山世光中科院计算所

姬艳丽电子科技大学

Workshop Chairs APR Chairs苏航清华大学

朱鹏飞天津大学

杨巨峰南开大学

刘日升大连理工大学

刘偲北京航空航天大学

郭裕兰国防科技大学

魏秀参南京理工大学

任文琦中科院信工所

宫辰南京理工大学

赵洲浙江大学

汤进安徽大学

韩琥中科院计算所

张乐电子科技大学

王琦西北工业大学

本地主席本地主席

宋丽梅天津工业大学

杨巨成天津科技大学

李坤天津大学

3

VALSE 2022 会场分布S16馆主会场

4

S16馆 2楼会场平面图

5

会议总体日程

8月 22日时间内容地点

08:30-08:45 开幕式

一层 S16 + 二

层 27、32

08:45-09:15大会特邀报告-1

报告人：卢湖川（大连理工大学）

报告题目：一网通吃：跟踪与分割大一统

09:15-09:45大会特邀报告-2

报告人：张磊（OPPO研究院）

报告题目：深度神经网络优化技术探索

09:45-10:10

铂金企业宣讲

图森未来宣讲报告：

题目：图森未来在重卡自动驾驶的最新落地与实践

宣讲人：王乃岩

华为宣讲报告：

题目：华为在 CV及 AI领域的探索和应用

宣讲人：徐航

10:10-10:40大会特邀报告-3

报告人：张拳石（上海交通大学）

报告题目：深度学习从经验主义到去芜存菁

10:40-12:10年度进展评述

（一）

讲者：胡瀚

题目：Vision Transformer讲者：刘禹良

题目：文档智能

讲者：韩军伟

题目：微小目标检测

讲者：赵行

题目：视觉为主的自动驾驶

讲者：彭宇新

题目：视觉-语言理解与生成

讲者：许岚

题目：神经网络渲染

12:10-13:30 午休

13:30-14:00大会特邀报告-4

报告人：王立威（北京大学）

报告题目：Towards Certified Robustness with Lipschitz Networks 一层 S16 + 二

层 27、3214:00-14:30

大会特邀报告-5报告人：周晓巍（浙江大学）

报告题目：多视图三维重建：基于表示学习的方法

14:30-15:10铂金企业宣讲

真格基金宣讲报告：

题目：科技创业的第一性原理

一层 S16 + 二

层 27、32

6

宣讲人：尹乐

OPPO宣讲报告：

题目：端侧智能共建智慧懂你生态

宣讲人：刘京鑫

AutoDL宣讲报告：

题目：破解用卡难、复现难新方案

宣讲人：代岸玻

15:10-16:40 年度进展评述

（二）

讲者：郑乾

题目：类脑视觉

讲者：章国锋

题目：视觉 SLAM 技术

讲者：王琦

题目：人群分析

讲者：童咏昕

题目：联邦学习

讲者：孙宁

题目：仿生气动人工肌肉机器人智能控制及应用

讲者：张道强

题目：医学人工智能

16:40-18:30 Poster

二楼 27号会议

室、32号会议

室、二楼会议室

外走廊

18:30-20:00 VIP晚宴

8月 23日

08:30-12:15

Tutorial 1：深度连续学习 27号会议室

Workshop 6：智能三维视觉内容生成与分析 28号会议室

Workshop 1：Transformers for Vision Tasks 29号会议室

Workshop 2：视觉情感计算 30号会议室

Workshop 3：多模态认知计算 32号会议室

12:15-13:30 午休

13:30-17:15

Workshop 4：计算摄像研究与应用 27号会议室

Workshop 5：开放环境下机器学习及应用 28号会议室

Tutorial 2：基于神经表示的三维重建与生成 29号会议室

Workshop 7：智能底层视觉的趋势与挑战 30号会议室

Workshop 8：目标检测、分割与跟踪 32号会议室

8月 24日08:30-12:15

08:30-12:15

Workshop 9：可解释的深度学习算法与视觉应用 27号会议室

Workshop 10：医学数据分析中的深度学习方法 28号会议室

Workshop 11：视频行为理解 29号会议室

Workshop 12：针对弱监督数据的鲁棒学习方法 30号会议室

7

Workshop 13：计算机视觉与工业应用 32号会议室

学生论坛 25号会议室

12:15-13:30 午休

13:30-17:15

Workshop 14：视觉预训练 27号会议室

Workshop 15：具身智能 (Embodied AI) 28号会议室

Workshop 16：鲁棒安全的机器学习和视觉计算 29号会议室

Workshop 17：AI+X 30号会议室

Workshop 18：边缘计算与视觉智能 32号会议室

8

Tutorial与Workshop日程一览

时间地点报告与讲者信息

Tutorial 1:深度连续学习8月 23日8:30-12:1527号会议室

讲者：洪晓鹏（哈尔滨工业大学）

题目：深度连续学习

讲者：刘夏雷（南开大学）

题目：深度连续学习

Tutorial 2:基于神经表示的三维

重建与生成8月 23日13:30-17:1529号会议室

讲者：周晓巍（浙江大学）

题目：基于神经表示的三维重建与生成

讲者：廖依伊（浙江大学）


讲者：崔兆鹏（浙江大学）


Workshop 1：Transformers forVision Tasks8月 23日8:30-12:1529号会议室

主席：胡瀚（微软亚洲研究院）程明明（南开大学）张力（复旦大

学）

讲者：黄高（清华大学）

题目：面向视觉 Transformer的动态网络设计

讲者：王栋（大连理工大学）

题目：基于 Transformer的视觉跟踪算法探索

讲者：王兴刚（华中科技大学）

题目：释放 Transformer在目标检测和分割中的巨大潜能

讲者：沈为（上海交通大学）

题目：Computationally Efficient Vision Transformers

百度宣讲报告：

题目：百度大视觉团队及技术业务简介

宣讲人：何栋梁

讲者：侯淇彬（南开大学）

题目：探索 Transformer在图像识别任务中的潜力

Panel 嘉宾：黄高，王栋，王兴刚，沈为，侯淇彬

Workshop 2：视觉情感计算8月 23日8:30-12:1530号会议室

主席：杨巨峰（南开大学）赵思成（哥伦比亚大学）山世光（中科

院计算所）

讲者：邓伟洪（北京邮电大学）

题目：真实世界人脸表情识别

讲者：王甦菁（中科院心理所）

题目：微表情分析

9


讲者：李雷达（西安电子科技大学）

题目：视觉情感与个性化美学计算

讲者：王上飞（中国科学技术大学）

题目：视频情感内容分析

讲者：金琴（中国人民大学）

题目：多模态情感识别

讲者：黄民烈（清华大学）

题目：对话系统中的情绪智能

深度研讨：视觉情感计算的前沿进展、未来趋势、发展机遇

Panel 嘉宾：邓伟洪，黄民烈，李雷达，金琴，王上飞，王甦菁

Workshop 3：多模态认知计算

8月 23日8:30-12:1532号会议室

主席：李学龙（西北工业大学）姬艳丽（电子科技大学）田亚鹏（德

州大学达拉斯分校）

讲者：张长青（天津大学）

题目：可信多模态融合方法及应用

讲者：谢伟迪（上海交通大学）

题目：Learning from Fewer Annotations讲者：易冉（上海交通大学）

题目：语音驱动的虚拟人视频生成

讲者：赵行（清华大学）

题目：神经网络配音器

讲者：胡迪（中国人民大学）

题目：多模态场景的高效学习与理解方法探究

讲者：胡建芳（中山大学）

题目：视频中粒度预测：运动物体轮廓形状预测

Panel 嘉宾：张长青，谢伟迪，易冉，赵行，胡迪，胡建芳

Workshop 4：计算摄像研究与应用

8月 23日13:30-17:1527号会议室

主席：曹汛（南京大学）董伟生（西安电子科技大学）罗晓燕（北

京航空航天大学）

讲者：施柏鑫（北京大学）

题目：神经形态融合传统图像的计算摄像

讲者：索津莉（清华大学）

题目：视觉数据低带宽采集与传输

讲者：付莹（北京理工大学）

题目：基于物理成像过程的噪声建模与图像重建

讲者：胡浩丰（天津大学）

题目：面向复杂环境的偏振成像技术

10


传音控股宣讲报告：

题目：移动终端计算摄影技术发展与应用

宣讲人：肖龙安

讲者：左超（南京理工大学）

题目：深度学习下的光学计量——以结构光三维成像为例

Panel 嘉宾：施柏鑫，索津莉，付莹，胡浩丰，左超

Workshop 5：开放环境下机器学习

及应用8月 23日13:30-17:1528号会议室

主席：刘宇（大连理工大学）洪晓鹏（哈尔滨工业大学）刘夏雷（南

开大学）

讲者：崔鹏（清华大学）

题目：面向分布外泛化的稳定学习和 NICO Challenge

讲者：刘祥龙（北京航空航天大学）

题目：开放环境下的复杂目标检测方法研究

讲者：朱政（鉴智机器人）

题目：以视觉为中心的自动驾驶感知研究与实践

讲者：胡鹏（四川大学）

题目：跨模态噪声关联学习：一种新的噪声标签学习范式

思谋科技宣讲报告：

题目：专注智能制造与数智创新

宣讲人：姚恒志

讲者：查正军（中国科学技术大学）

题目：真实场景低质视觉增强与分析

Panel 嘉宾：崔鹏，刘祥龙，朱政，胡鹏，查正军

Workshop 6：智能三维视觉内容生

成与分析8月 23日8:30-12:1528号会议室

主席：弋力（清华大学）崔兆鹏（浙江大学）周晓巍（浙江大学）

讲者：刘烨斌（清华大学）

题目：三维数字人生成：交互性、沉浸性与创造性

讲者：韩晓光（香港中文大学(深圳)）题目：基于单张图像的衣物三维重建

讲者：张举勇（中国科学技术大学）

题目：便捷、高效、高保真数字人建模与驱动

讲者：胡瑞珍（深圳大学）

题目：三维交互的几何表达与生成

NREAL 宣讲报告：题目：AR（增强现实）场景下的三维视觉表征及应用宣讲人：王志成

讲者：徐凯（国防科技大学）

题目：面向高自由度抓取的几何表征学习

11


讲者：李弘扬（上海人工智能实验室）

题目：自动驾驶三维道路结构认知研究

Panel 嘉宾：刘烨斌，韩晓光，张举勇，胡瑞珍，徐凯，李弘扬

Workshop 7：智能底层视觉的趋势

与挑战8月 23日13:30-17:1530号会议室

主席：杨敬钰（天津大学）潘金山（南京理工大学）王楠楠（西安

电子科技大学）熊志伟（中国科学技术大学）

讲者：方乐缘（湖南大学）

题目：Weakly supervised OCT Image Reconstruction and Analysis

讲者：贾旭（大连理工大学）

题目：数据高效的图像视频增强

讲者：张越一（中国科学技术大学）

题目：事件相机的研究进展与应用

奥比中光宣讲报告：

题目：消费级深度相机与应用

宣讲人：徐玉华

讲者：彭春蕾（西安电子科技大学）

题目：跨域人脸生成与鉴别

讲者：岳焕景（天津大学）

题目：面向实际降质的 Raw图像/视频复原

Panel 嘉宾：方乐缘，贾旭，彭春蕾，张越一，岳焕景

Workshop 8：目标检测、分割与跟

踪8月 23日13:30-17:1532号会议室

主席：朱鹏飞（天津大学）王兴刚（华中科技大学）阚美娜（中国

科学院计算所）

讲者：胡卫明（中国科学院自动化研究所）

题目：神经科学启发的深度学习模型及其在视觉时空信息感知与理解

中的应用

讲者：代季峰（清华大学）

题目：BEVFormer: 一种新的自动驾驶环视感知方案

讲者：魏云超（北京交通大学）

题目：面向视频的像素理解

讲者：张鼎文（西北工业大学）

题目：面向目标检测与视频动作定位的弱监督时空特征学习方法

极视角宣讲报告：

题目：极市平台——25万 AI开发者的共同选择

宣讲人：陈柯志

讲者：王鑫龙（北京智源人工智能研究院）

题目：简单高效的实例分割算法：建模框架和学习方法

12


讲者：王立君（大连理工大学）

题目：鲁棒单目深度估计与 RGB-D 显著目标检测

Panel 嘉宾：胡卫明，代季峰，魏云超，张鼎文，王鑫龙，王立君

Workshop 9：可解释的深度学习算

法与视觉应用8月 24日08:30-12:1527号会议室

主席：任传贤（中山大学）赵健（军事科学院）张长青（天津大学）

讲者：彭宇新（北京大学）

题目：面向可解释的细粒度视觉分类与检索

讲者：雷震（中科院自动化所）

题目：基于层次解析胶囊网络的无监督人脸部件发现

讲者：钱建军（南京理工大学）

题目：从多样性和近邻性的视角探讨视觉信息的稳健表示

讲者：陈云鹏（美图影像研究院）

题目：视觉生成在人像美化中的应用

金山办公宣讲报告：

题目：复杂场景下的表格还原

宣讲人：熊龙飞

讲者：熊昊一（百度研究院大数据实验室）

题目：InterpretDL：深度学习可解释性

Panel 嘉宾：彭宇新，雷震，钱建军，陈云鹏，熊昊一

Workshop 10：医学数据分析中的深

度学习方法8月 24日08:30-12:1528号会议室

主席：李镇（香港中文大学（深圳））窦琪（香港中文大学）于乐

全（香港大学）张瑞茂（香港中文大学（深圳））

讲者：徐军（南京信息工程大学人工智能学院）

题目：计算病理及其对疾病精准诊疗和预后的贡献

讲者：王晟（智峪生科）

题目：工程化与算法提速带来的超高通量蛋白计算平台峪云 ZCloud

讲者：高智凡（中山大学）

题目：基于机器学习的心脏影像分析

讲者：俞江帆（香港中文大学（深圳））

题目：生物医疗导向的微纳机器人集群

讲者：温泉（中国科学技术大学）

题目：Rapid detection and recognition of whole brain activity in a roamingCaenorhabditis elegans

讲者：万亮（天津大学）

题目：面向多模态 MRIs 的脑肿瘤分割及分类研究

Panel 嘉宾：徐军，王晟，高智凡，俞江帆，温泉，万亮，李冠彬

13


Workshop 11：视频行为理解8月 24日08:30-12:1529号会议室

主席：王利民（南京大学）涂志刚（武汉大学）刘俊（新加坡科技

设计大学）

讲者：林巍峣（上海交通大学）

题目：基于少样本与多模态的视频行为理解与编码

讲者：王楠楠（西安电子科技大学）

题目：视频行为定位与识别

讲者：高盛华（上海科技大学）

题目：序列动作视频和重复动作视频理解

讲者：吴祖煊（复旦大学）

题目：基于 Transformer的视频内容理解

美团宣讲报告：

题目：美团的计算机视觉研究

宣讲人：揭泽群

讲者：王亚立（中国科学院深圳先进技术研究院）

题目：复杂视频表征学习与理解

Panel 嘉宾：林巍峣，王楠楠，高盛华，吴祖煊，王亚立

Workshop 12：针对弱监督数据的鲁

棒学习方法8月 24日08:30-12:1530号会议室

主席：孟德宇（西安交通大学）胡清华（天津大学）张鼎文（西北

工业大学）

讲者：左旺孟（哈尔滨工业大学）

题目：小样本 Transformer分类和小样本图像生成

讲者：张兆翔（中国科学院自动化研究）

题目：少标注下的视觉场景感知模型学习

讲者：龙明盛（清华大学）

题目：预训练模型的高效迁移学习

讲者：朱鹏飞（天津大学）

题目：基于伪标签的弱半监督学习

讲者：曹相湧（西安交通大学）

题目：基于噪声标签矫正的高光谱图像分类算法

Panel 嘉宾：左旺孟，张兆翔，龙明盛，朱鹏飞，曹相湧

Workshop 13：计算机视觉与工业应

用8月 24日08:30-12:1532号会议室

主席：周瑜（华中科技大学）郭晓杰（天津大学）刘枢（思谋科技）

讲者：贾奎（华南理工大学）

题目：视觉三维感知中的数据域适应问题

讲者：徐明亮（郑州大学）

题目：工业智能质检技术与应用

14


讲者：李冠彬（中山大学）

题目：面向非完美半监督学习的视觉识别方法

讲者：张晓鹏（华为）

题目：视觉预训练模型进展及在工业视觉应用

腾讯优图宣讲报告：

题目：腾讯优图实验室工业 AI近期成果分享

宣讲人：龚星

讲者：张胜森（精测电子）

题目：无监督异常检测在工业视觉检测的应用

讲者：姚恒志（思谋科技）

题目：计算机视觉与工业应用

Panel 嘉宾：贾奎，徐明亮，李冠彬，张晓鹏，张胜森，姚恒志

Workshop 14：视觉预训练8月 24日13:30-17:1527号会议室

主席：曹越（微软亚洲研究院）黄高（清华大学）

讲者：王井东（百度）

题目：Context Autoencoder for Scalable Self-Supervised RepresentationPretraining

讲者：解振达（清华大学）

题目：自监督预训练之图像掩码预测：方法、机理与数据可扩展性

讲者：张祥雨（旷视科技）

题目：理解Masked Image Modeling：现状与挑战

讲者：董力（微软亚洲研究院）

题目：Generative Pretraining of Image and Multimodal Transformers

腾讯 ARC 宣讲报告：

题目：腾讯 ARC：算法实践的沃土

宣讲人：葛艺潇

讲者：刘知远（清华大学）

题目：Delta Tuning：大模型的小参数高效微调

讲者：谢凌曦（华为）

题目：语言引导的视觉预训练&语言驱动的按需视觉识别

讲者：朱锡洲（商汤科技）

题目：视觉感知的自监督与多模态多任务预训练

Panel 嘉宾：王井东，解振达，张祥雨，董力，刘知远，谢凌曦，朱锡

洲

主席：刘偲（北京航空航天大学）吴琦（阿德莱德大学）弋力（清

华大学）

15


Workshop 15：具身智能 (Embodied

AI)8月 24日13:30-17:1528号会议室

讲者：卢策吾（上海交通大学）

题目：行为具身智能

讲者：王鹤（北京大学）

题目：以仿真赋能机器人三维视觉与物体操控

讲者：高阳（清华大学）

题目：高样本效率强化学习与模仿学习

讲者：蒋树强（中国科学院计算技术研究所）

题目：目标驱动的视觉导航

讲者：刘华平（清华大学）

题目：具身感知与学习

讲者：郭彦东（OPPO）题目：数字孪生与具象智能的双轮驱动

Panel 嘉宾：卢策吾，王鹤，高阳，蒋树强，刘华平，郭彦东

Workshop 16：鲁棒安全的机器学习

和视觉计算8月 24日13:30-17:1529号会议室

主席：韦星星（北京航空航天大学）操晓春（中国科学院大学）韩

亚洪（天津大学）李京知（中科院信工所）

讲者：赫然（中国科学院大学）

题目：人脸图像深度合成和鉴别

讲者：沈超（西安交通大学）

题目：智能系统可信安全与测试

讲者：胡晓林（清华大学）

题目：针对物理世界行人检测系统的“隐身”方案

讲者：黄晓霖（上海交通大学）

题目：神经网络的动态低维结构与稳健性提升

讲者：吴保元（香港中文大学（深圳））

题目：后门学习概述与最新进展

讲者：陈静静（复旦大学）

题目：深度伪造视频鉴别：进展与挑战

Panel 嘉宾：赫然，沈超，胡晓林，黄晓霖，吴保元，陈静静

Workshop 17：AI+X

8月 24日13:30-17:1530号会议室

主席：宫辰（南京理工大学）刘昊（宁夏大学）

讲者：刘偲（北京航空航天大学）

题目：人工智能+艺术

讲者：曾湘祥（湖南大学）

题目：Deep Graph Learning for Drug Discovery

讲者：张帅（中国农业大学）

题目：智能养猪业的发展现状与未来

16


讲者：金鑫（北京电子科技学院）

题目：视觉美学度量

闪马智能宣讲报告：

题目：打造视频智能分析和时空数据管理的新一代 AI中台

宣讲人：赵之健

讲者：魏乐义（山东大学）

题目：智能算法驱动的多肽药物研发

Panel 嘉宾：刘偲，曾湘祥，张帅，金鑫，魏乐义

Workshop 18：边缘计算与视觉智能

8月 24日13:30-17:1532号会议室

主席：王晓飞（天津大学）胡清华（天津大学）

讲者：纪荣嵘（厦门大学）

题目：神经网络结构搜索

讲者：吴帆（上海交通大学）

题目：移动端智能计算

讲者：彭国政（中国电力科学院）

题目：考虑复杂场景和资源共享的电力边缘智能关键技术及应用研究

讲者：付彦伟（复旦大学）

题目：数据与模型的稀疏化学习算法研究

地平线宣讲报告：

题目：基于征程 5中央计算平台的自动驾驶感知方案研发与实践

宣讲人：张骞

讲者：徐梦炜（北京邮电大学）

题目：通向泛在学习的系统软件之路

讲者：仇超（天津大学）

题目：云边端泛在协同人工智能

Panel 嘉宾：纪荣嵘，吴帆，彭国政，付彦伟，徐梦炜，仇超

17


学生论坛8月 24日08:30-12:1525号会议室

主席：刘偲（北京航空航天大学）王锴（新加坡国立大学）赵洁（大

连理工大学）谢斌辉（北京理工大学）秦浩桐（北京航空航天大学）

V-Show：处于不同阶段的优秀学生讲者分享最新工作及科研点滴

刘泽：Swin Transformer: Hierarchical Vision Transformer using ShifiedWindows (ICCV 2021 Marr Prize)夏卓凡：Vision Transformer with Deformable Attention (CVPR 2022Finalist)孙建新：AnyFace: Free-style Text-to-Face Synthesis and Manipulation(CVPR 2022 Finalist)田值： Fully Convolutional Instance-level Visual Recognition (单篇

Google引用 2000+)许鸿斌： Self-Supervised Multi-View Stereo via EffectiveCo-Segmentation and Data-Augmentation (AAAI 2021 DistinguishedPaper)彭思达：Neural Body: Implicit Neural Representations with StructuredLatent Codes for Novel View Synthesis of Dynamic Humans (CVPR 2021Finalist )丁霄汉：The Story Bchind the Structural Re-parameterization Universe(RepVGG 等重参数化工作的背后)

V-Communication：优秀学生讲者们交流科研背后的认识、感悟、经验

V-Talk：学生根据兴趣选择导师，定向分组进行师生面对面交流

V-Tea：Long coffee break（师生自由交流环节）

V-Gift：小礼品之星颁奖坏节

V-Panel：导师总结与话题探讨

18

大会报告及讲者简介

卢湖川大连理工大学

报告题目：一网通吃：跟踪与分割大一统

报告摘要：通用人工智能（AGI）是想达成 1个网络完成多个不同的任务，即在不改变网

络结构和参数的情况下，实现多任务处理，可以更好的挖掘模型特性、泛化能力，是未来

发展趋势。本报告将分别介绍我们团队在单目标跟踪(SOT)、分割(VOS)、多目标跟踪(MOT)与分割(MOTS)四个方向上的最新成果，最后，讲述我们围绕多任务通用视觉模型 Unicorn，实现的单目标跟踪(SOT)与分割(VOS)，多目标跟踪(MOT)与分割(MOTS)四个任务的大一

统，实现 1网通吃。

讲者简介：卢湖川教授，国家杰出青年基金获得者、科技部中青

年创新领军人才，大连理工大学创新学院院长。研究方向为计算

机视觉、机器学习、模式识别。发表顶级会议论文

（CVPR/ICCV/ECCV）100篇，Google Scholar引用 3万余次，以

第一完成人获得教育部自然科学二等奖 2项。获得多项国际学术

奖，包括 CVPR2020 Best Paper Award Nominee, ICCV2011 MostRemembered Poster等。2017-2022 年，在国际目标跟踪权威评测

VOT竞赛中，其团队连续在多个赛道获得多个冠军，多次担任

CVPR/ICCV/ECCV领域主席。

王立威北京大学

报告题目：Towards Certified Robustness with Lipschitz Networks报告摘要：It is well-known that standard neural networks, even with a high classificationaccuracy, are vulnerable to small ℓ∞-norm bounded adversarial perturbations. Although manyattempts have been made, most previous works either can only provide empirical verification ofthe defense to a particular attack method, or can only develop a certified guarantee of the modelrobustness in limited scenarios. In this paper, we seek for a new approach to develop atheoretically principled neural network that inherently resists ℓ∞ perturbations. In particular, wedesign a novel neuron that uses ℓ∞-distance as its basic operation (which we call ℓ∞-distneuron), and show that any neural network constructed with ℓ∞-dist neurons (called ℓ∞-dist net)is naturally a 1-Lipschitz function with respect to ℓ∞-norm. This directly provides a rigorousguarantee of the certified robustness based on the margin of prediction outputs. We also provethat such networks have enough expressive power to approximate any 1-Lipschitz function withrobust generalization guarantee. Our experimental results show that the proposed network ispromising. Using ℓ∞-dist nets as the basic building blocks, we consistently achievestate-of-the-art performance on commonly used datasets: 93.09% certified accuracy on MNIST(ϵ=0.3), 79.23% on Fashion MNIST (ϵ=0.1) and 35.10% on CIFAR-10 (ϵ=8/255).

19

讲者简介：王立威北京大学教授。长期从事机器学习理论研究。

在机器学习国际权威期刊会议发表高水平论文 150 余篇。担任机

器学习与计算机视觉顶级期刊 IEEE TPAMI编委。多次担任国际

机器学习旗舰会议 NeurIPS，ICML，ICLR 领域主席与高级领域

主席。入选 AI’s 10 to Watch，是该奖项自设立以来首位获此荣

誉的中国学者。

张磊 OPPO研究院

报告题目：深度神经网络优化技术探索

报告摘要：深度学习已经在诸多行业得到成功应用，我们处在一个“万物皆 AI”的时代，

这在很大程度上得益于深度神经网络（DNN）优化技术的发展，本讲座简单介绍我们在

DNN优化技术上的探索。首先，我们提出了一种简单有效的梯度集中化（GC）方法，只

需一行代码将梯度向量归一化到零均值，便可加速训练过程、提高泛化性能以及微调预训

练模型。其次，目前基于权重梯度下降的方法会将特征限制到相对低维的空间，降低特征

学习的效率。我们提出了特征随机梯度下降（FSGD），改善了特征空间的奇异性，增强了

特征学习的功效。最后，在自适应学习率方法上，我们提出了一个带有约束的全矩阵预处

理梯度的一般性 regret bound，通过引入合适的约束条件，显著降低全矩阵预处理梯度方

法所需的内存和计算量，所提出的优化方法（AdaBK）在分类、检测和分割等任务上展现

了先进的性能。

讲者简介：张磊教授（IEEE Fellow）于 2006 年加入香港理工大

学电子计算学系，2017 年起任职讲座教授。张磊教授长期致力于

计算机视觉、图像处理、模式识别等方向的研究，是底层视觉方

面的国际权威学者。张教授是 IEEE Trans. on Image Processing（TIP）的高级编委，IEEE Trans. on Pattern Analysis and MachineIntelligence（TPAMI）、SIAM Journal of Imaging Sciences 等多个国

际期刊的编委。从 2015年至 2022 年，张教授连续被评为 ClarivateAnalytics Highly Cited Researcher。张磊教授目前也任职于 OPPO

研究院，从事 AI影像前沿技术的研发。

张拳石上海交通大学

报告题目：深度学习从经验主义到去芜存菁

报告摘要：深度神经网络的可解释性研究近年来受到大家越来越多的关注，但是深度学习

中一些根本性的问题尚未得到有效解释，比如神经网络的泛化性和鲁棒性，神经网络的概

念表征特点与表征瓶颈，以及神经网络优化中的潜在障碍，等等。因此，目前相当部分的

深度学习算法往往侧重于经验主义的工程性实现，而缺少基于统一的理论解释，影响了算

法的严谨性，阻碍了领域的进一步发展。在本次演讲中，报告人将介绍其团队近年来在构

建神经网络可解释性理论方向的众多研究，即如何在博弈交互的理论框架下，统一大量前

人算法，证明不同经验性研究内在的公共数学机理。具体地，从概念表征层面解释神经网

20

络的泛化性和鲁棒性，统一解释 14种神经网络的归因算法的内在机理，统一证明 12种对

抗迁移性算法的内在公共机理，证明神经网络的表征瓶颈，证明神经网络的优化瓶颈，解

释神经网络的概念表征特点。

讲者简介：张拳石，上海交通大学约翰霍普克罗夫特计算机科学

中心长聘教轨副教授，博士生导师，入选国家级海外高层次人才

引进计划，获 ACM China新星奖。他于 2014 年获得日本东京大

学博士学位，于 2014-2018 年在加州大学洛杉矶分校（UCLA）从

事博士后研究，主要研究方向包括机器学习和计算机视觉。其研

究工作主要发表在计算机视觉、人工智能、机器学习等不同领域

的顶级期刊和会议上（包括 IEEE T-PAMI、ICML、ICLR、CVPR、ICCV、AAAI、KDD、ICRA等）。近年来，张拳石在神经网络可

解释性方向取得了多项具有国际影响力的创新性成果。张拳石承

担了 ICPR 2020 的领域主席，CCF-A 类会议 IJCAI 2020 和 IJCAI 2021的可解释性方向的

Tutorial，并先后担任了 AAAI 2019, CVPR 2019, ICML 2021 大会可解释性方向的分论坛主

席。

周晓巍浙江大学

报告题目：多视图三维重建：基于表示学习的方法

报告摘要：基于多视点图像的三维重建是计算机视觉研究中的经典问题，也是 VR/AR、机器人、数字孪生等众多应用中的关键技术。传统的多视几何重建理论与方法虽已日趋成

熟，但仍难以处理弱纹理表面、强光照变化、非刚性结构、动态场景等复杂情况。本报告

将分析传统方法的技术局限，介绍本课题组针对这些挑战所做的最新工作，包括基于表示

学习的图像特征匹配、基于隐式神经表示的三维场景建模、动态人体建模与渲染等，并探

讨该领域未来的发展方向。

讲者简介：周晓巍，浙江大学“百人计划”研究员，国家级青年

人才项目入选者。研究方向主要包括计算机视觉、图形学及其在混

合现实、机器人等领域的应用。担任国际顶级期刊 IJCV编委、顶

级会议 CVPR 2021 和 ICCV 2021领域主席，中国图象图形学报青

年编委，图形学与混合现实研讨会（GAMES）执行委员会主席，

CSIG 三维视觉专委会常务委员。相关工作十余次获得视觉顶级会

议口头报告，多次入选 CVPR 最佳论文候选。曾获得“陆增镛

CAD&CG高科技奖”一等奖，中国计算机学会 CAD&CG图形开

源贡献奖。

21

年度进展评述（APR）及讲者简介

胡瀚微软亚洲研究院

报告题目：Vision Transformer报告摘要：用于计算机视觉各种任务的神经网络主要由两个部分组成，一是骨干网络，它

主要负责从图像或视频中提取视觉特征，二是任务网络，它主要负责将骨干网络提取的视

觉特征解译为具体任务需要的输出。在过去的两年中，这两部分网络均逐渐迁移到基于

Transformer的方法，其中前者对应 Transformer编码器部分，后者对应 Transformer解码器

部分。本次报告将概述过去一年视觉 Transformer的主要进展，包括 Transformer骨干网络

的改进，主要视觉问题中 Transformer的应用进展，视觉 Transformer模型的扩展和稀疏化，

轻量视觉 Transformer网络，以及适用于视觉 Transformer的自监督学习方法等等。

讲者简介：胡瀚，微软亚洲研究院视觉计算组研究员，西安交大

兼职博导。主要研究兴趣包括视觉神经网络设计，自监督表征学

习，以及视觉-语言联合表征学习等等。其论文 Swin Transformer荣获 ICCV2021最佳论文奖（马尔奖），并被学界和业界广泛使

用。他于 2014年和 2008 年在清华大学自动化系分别获得博士和

本科学位，博士论文获得中国人工智能学会优博奖。曾担任

CVPR 2021 和 CVPR 2022 领域主席。

刘禹良华中科技大学

报告题目：文档智能

报告摘要：文档智能是计算机视觉中一个重要问题，涵盖视觉中一系列任务，包括场景文

字检测（STD）、场景文字识别（STR）、图像/视频端到端文字检测及识别（STS）、文档板

式分析（Layout Analysis）、文字视觉问答（Text VQA）、关键信息抽取（KIE）、文档超像

素/恢复重建及数字化、视觉富文档（VIE）、文字擦除/编辑（STE）、文字风格转换与生成、

跨模态文字引导下的场景理解、智能符号设计与推荐、文字索引、文字导航、篡改文字检

测等，本次报告将概述过去一年文档智能取得的主要进展，包括文档预训练方法的改进，

主要视觉问题中文档智能的应用进展，轻量化及多任务文档智能网络，以及适用于多模态

结合的文档智能方法等等。

讲者简介：刘禹良，华中科技大学研究员。主要研究兴趣包括文

档智能，遥感图像处理，以及图像文本-语言联合表征学习等等。

其论文 ABCNet荣获 CVPR2020 满分评审，并被学界和业界广泛

使用。他于 2016 年和 2020 年在华南理工大学分别获得本科和博

士学位，博士论文获得中国图象图形学会优博奖。担任中国图象

图形学报专题编委会编委，IJCAI2021高级程序委员会委员。

22

韩军伟西北工业大学

报告题目：微小目标检测

报告摘要：微小目标检测是专注于检测小尺寸目标的一项视觉任务，在监控视频理解、行

人检测、交通目标检测以及遥感影像分析等领域应用广泛。但是，由于目标区域有限且视

觉结构不清晰，以及目前尚缺乏可用于训练和验证小目标检测算法的数据集，导致基于深

度学习检测范式的小目标检测模型性能羸弱。本报告首先结合近年来该领域的研究进展对

小目标检测算法进行分类和概述，然后重点汇报我们团队推出的专注于多类别小目标检测

任务的大规模数据集 SODA及其数据特性，最后展望了小目标检测的未来发展趋势。

讲者简介：韩军伟，西北工业大学自动化学院教授，陕西省科技

创新团队负责人。科睿唯安全球“高被引科学家”，爱思唯尔中国

“高被引学者”。主要研究方向是人工智能、模式识别、类脑计算、

遥感影像解译等。在领域顶级期刊/会议如：Proceedings of theIEEE，IEEE TPAMI，CVPR，MICCAI等发表学术论文 150 余篇，

论文被引用近 2 万次。3篇论文入选年度中国百篇最具影响国际

学术论文。获 2021 年度 IEEE GRSS Highest Impact Paper Award（IEEE地球科学与遥感学会最有影响力论文奖）、国际期刊 IEEE

TCSVT 2021 最佳论文奖、国际会议 IEEE BIBM 2018 最佳论文奖，国际会议 ACMMultimedia 2010，MICCAI 2011 和 ICME 2016 最佳学生论文奖提名。培养多名博士生/博士后获得中国图象图形学学会优秀博士论文奖、陕西省优秀博士论文奖、博士后创新人才

支持计划、国家级青年人才计划、高被引科学家等。获陕西省科学技术一等奖（排名第一）

等 6项省部级科技奖。担任 IEEE TPAMI、IEEE TMM、《中国科学：信息科学》等多个国

内外期刊编委，任国际会议如：CVPR, ICPR, ACCV等的领域主席。

赵行清华大学交叉信息研究院

报告题目：视觉为主的自动驾驶

报告摘要：从去年以来，随着高级辅助驾驶的应用落地，视觉为主的自动驾驶感知技术受

到了学术界和工业界的广泛关注。

视觉为主的自动驾驶感知技术有着数据易于获取、泛化性强等优势，然而相比其他三维传

感器，其检测和识别精度还有着很大的距离，有待进一步的技术探索。本报告将总结和归

纳近一年来自动驾驶感知领域的最新研究工作，会主要讲述视觉为主的技术进展，包括基

于视觉的 3D物体检测，多物体 3D 跟踪，运动预测，地图构建等。此外，报告还将对自

动驾驶感知未来的发展方向进行探讨。

个人简介：赵行，清华交叉信息院助理教授，博士生导师。赵行

在 MIT 取得了博士学位，师从 MIT AI&D 系主任 AntonioTorralba 教授，是多模态深度学习的开创者之一；后于谷歌无人

车项目 Waymo 担任研究科学家，提出了自动驾驶预测领域的一

系列框架性工作。赵行的工作曾被 BBC、NBC、麻省理工科技评

论等主流科技媒体报道。他的论文获得了 2015 年 ICCP 最佳论

文奖。他本人入选了 2020 年福布斯中国 U30 科学榜。

23

彭宇新北京大学

报告题目：视觉+语言

报告摘要：视觉-语言理解与生成面临“异构鸿沟”和“语义鸿沟”两大难题。“异构鸿沟”

是指视觉与语言的数据表征不一致，难以关联理解；“语义鸿沟”是指视觉与语言的数据

表征形式与人类认知之间存在巨大差异，难以语义分析。如何克服上述难题，使计算机能

够正确理解视觉与语言数据，实现视觉-语言检索、推理、生成等跨模态任务，受到了学

术界和工业界的广泛关注。本报告将介绍视觉-语言理解与生成的最新研究进展，并对未

来发展方向及趋势进行简要讨论和展望。

个人简介：彭宇新，北京大学二级教授、博雅特聘教授、国家杰

出青年科学基金获得者、国家万人计划科技创新领军人才、科技

部中青年科技创新领军人才、863 项目首席专家、中国人工智能

产业创新联盟专家委员会主任、中国工程院“人工智能 2.0”规划

专家委员会专家、北京图象图形学学会副理事长、中国图象图形

学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方

向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人

工智能。以第一完成人获 2016 年北京市科学技术一等奖和 2020年中国电子学会科技进步一等奖，2008 年获北京大学宝钢奖教金

优秀奖，2017 年获北京大学教学优秀奖。主持了 863、国家自然科学基金重点等 20多个

项目，发表论文 160 多篇，包括 ACM/IEEE Trans和 CCF A类论文 70多篇。多次参加由

美国国家标准技术局 NIST 举办的国际评测 TRECVID 视频样例搜索比赛，均获第一名。

主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视

总局等单位。担任 IEEE TCSVT等期刊编委。

许岚上海科技大学

报告题目：神经网络渲染年度进展

报告摘要：随着深度学习和神经表示技术的发展，图形图像渲染领域也迎来了重要的发展

变革机遇。其中，神经辐射场的技术发展，在轻量级、高质量的动静态场景重建和高真实

渲染等方面取得了突破性进展。并且进一步随着 5G网络、虚拟数字人、元宇宙等应用场

景的蓄势待发，其需求也变得越发迫切。本次报告回国了过去一年可微神经渲染的主要进

展，重点探讨神经辐射场和渲染技术，关注快速、轻量级和高精度的数字资产和人体的动

态重建，最后展望基于神经网络建模和渲染技术对图形图像渲染的影响和未来发展方向。

讲者简介：许岚,上海科技大学终身助理教授。2015 年从浙江大学

毕业后于 2020 年在香港科技大学获得博士学位。许岚博士，上

海科技大学信息科学与技术学院助理教授、研究员、博士生导师，

MARS实验室主任。在浙江大学信息与电子工程学系获学士学位；

在香港科技大学电子与计算机工程获博士学位，后加入上海科技

大学任教至今。他的研究方向聚焦于计算机视觉、计算机图形学

和计算摄像学，致力于光场智能重建理论与技术的研究，突破了

动态神经辐照场和虚拟数字人的一批核心关键技术，率团队研制

了系列光场装置，为新一代人工智能推动的轻量化超写实数字人提供了新范式，研究成果

24

在多家明星初创公司得到应用，研制装备部署于北京东奥。在 CVPR、SIGGRAPH、IEEETPAMI等顶级刊物发表数十篇文章，并多次担任人工智能顶级会议 CVPR、ICCV、AAAI等领域主席。

郑乾浙江大学

报告题目：类脑视觉年度进展

报告摘要：类脑计算致力于借鉴生物神经系统并构建“人造超级大脑”的新型计算形态，

人工智能的发展离不开对大脑的研究与模拟。而计算机视觉由于其巨大的应用潜力，是人

工智能最热门的子领域之一。类脑计算和计算机视觉的碰撞会擦出怎样的火花呢？本次报

告将简要回顾类脑视觉最近的研究进展并对其发展趋势进行讨论。

讲者简介：郑乾，浙江大学“百人计划”研究员、博士生导师。

分别于 2011年和 2017年获得浙江大学学士和博士学位，2018 至

2022 年在新加坡南洋理工大学 ROSE 实验室从事博士后研究。

2022年入选国家高层次青年人才引才计划并加入浙江大学。研究

方向主要为类脑计算和人工智能在计算摄像等领域的应用。在

CCF A类期刊/会议上发表论文 20余篇。担任国际期刊 Frontiers inNeuroscience Neuroprosthetics 的客座编辑，CVPR，ICCV，ECCV，SIGGRAPH，NeurIPS、IJCV、TIP等国际期刊/会议审稿人。

章国锋浙江大学

报告题目：视觉 SLAM 技术年度进展概述

报告摘要：同步定位与地图构建（SLAM）能够在未知环境中定位自身方位并同时构建环

境的三维地图，是 VR/AR、机器人、自动驾驶等领域的关键技术。本报告主要从不同传

感器组合和端-云协同以及几何与学习融合的角度对过去一年的视觉 SLAM 技术关键进展

进行简要的概述，并对未来的发展趋势进行展望。

讲者简介：章国锋，浙江大学 CAD&CG 国家重点实验室教授，

博导，国家优秀青年科学基金获得者。主要从事三维视觉与增强

现实方面的研究，尤其在同步定位与地图构建（SLAM）和三维

重建方面取得了一系列重要成果，研制了一系列相关软件

(http://www.zjucvg.net)，并开源了一系列 SfM/SLAM 系统或关键

模块算法的源代码(https://github.com/zju3dv/)。获全国百篇优秀博

士学位论文奖、计算机学会优秀博士学位论文奖、教育部高等学

校科学研究优秀成果奖科学技术进步奖一等奖（排名第 4）、浙江

省技术发明奖一等奖（排名第 4）以及混合现实和增强现实领域

国际顶级会议 ISMAR 2020 唯一最佳论文奖。目前为《VirtualReality & Intelligent Hardware》和《应用科学学报》编委，《中国图象图形学报》青年编委，

中国图象图形学学会三维视觉专委会副主任，浙江省人工智能学会增强现实分会副会长；

担任 VALSE 2019、2021 大会程序委员会主席，ChinaVR 2021 大会程序委员会主席，CVPR2021 领域主席，ISMAR 2019-2022以及 VR 2021-2022 程序委员会委员。

25

王琦西北工业大学

报告题目：人群分析

报告摘要：人群分析旨在利用计算机视觉和模式识别技术，智能化地对人类群体性场景进

行分析理解。目前人群分析领域主要的两个任务为人群计数与人群定位，前者对给定场景

下的人群总数进行计算，后者对人群中每一个体的位置进行估计。本报告将从人群分析任

务的背景出发，介绍人群计数与人群定位任务的研究现状，并对发展趋势进行展望。

讲者简介：王琦，西北工业大学教授/博导，光电与智能研究院副

院长，入选国家级青年人才、科睿唯安全球高被引科学家、爱思

唯尔中国高被引学者、IET/BCS Fellow。针对图像/视频/大数据分

析与理解的具体应用（智能交通/驾驶、安防、遥感对地观测、视

觉测量、工业数据分析等），从事计算机视觉、图像处理、模式识

别、机器学习等相关领域的研究。发表 IEEE汇刊论文近 70篇，

ESI 热点论文/高被引论文 40 篇，并获多个国际会议最佳论文奖/最佳论文提名奖/最佳学生论文奖、吴文俊人工智能优秀青年奖、

陕西省杰出青年科学基金、陕西省科学技术一等奖等。担任 IEEET-SMC:Systems、IEEE T-GRS、IEEE T-CSVT、PR等国际期刊编

委。相关成果在多个国防军事重要任务中得到了验证示范，解决了一系列技术难题，显著

提升了基于视觉影像的检测、识别、跟踪、分类等工程任务的性能指标，产生了积极的社

会经济效益。

童咏昕北京航空航天大学

报告题目：联邦学习年度进展概述

报告摘要：数据孤岛与隐私保护问题对当下人工智能应用的落地产生了巨大的挑战。近年

来以“数据不动计算动、数据可用不可见”为核心理念的联邦学习正在成为隐私保护下联

合多方共同建模从而打破数据壁垒的关键学习技术。本报告探讨并总结了近一年来联邦学

习技术的最新研究成果与研究趋势，从隐私安全、数据异质与开源平台三个角度介绍了联

邦学习研究前沿与热点，并对未来挑战进行了展望。

讲者简介：童咏昕，北京航空航天大学计算机学院教授，博士生

导师，国家自然科学基金优秀青年基金获得者。2014 年于香港科

技大学获计算机科学与工程学博士学位，随后留校担任研究助理

教授，2015 年入选北京航空航天大学“卓越百人计划”。目前主

要研究方向包括：联邦学习、时空大数据挖掘分析、数据库技术

与群体智能等。近年来，先后主持国家自然基金重点项目、国家

重点研发计划课题等科研项目。共发表学术论文百余篇，其中以

第一/通讯作者发表 CCF-A类论文 60 余篇。曾获中国电子学会自

然科学一等奖（排名一）、首届阿里巴巴达摩院“青橙奖”、数据

库领域 CCF-A 类会议 VLDB 2014“杰出演示系统奖”和数据挖

掘领域国际顶级竞赛 KDD Cup 2020 冠军；担任《IEEE TKDE》与《IEEE TBD》等国际

期刊的编委和多个 CCF-A类会议程序委员会领域主席（PC Area Chair），并长期作为多个

国际顶级会议的高级程序委员会委员（Senior PC）；也是 CCF杰出讲者、CCF 会员与分部

工委副主任、CCF走进高校工作组组长。

26

孙宁南开大学

报告题目：仿生气动人工肌肉机器人智能控制及应用

报告摘要：随着医疗康复机器人的快速发展和人机交互需求的不断增加，气动人工肌肉机

器人的建模与智能控制日益受到广大学者的关注。气动人工肌肉具有质轻、安全、功率体

积比大等优点，与此同时也存在着高非线性、迟滞性、时变性等固有缺陷，为其驱动的机

器人建模和精准控制带来了巨大挑战。因此，实现气动人工肌肉机器人的精确建模和智能

控制，具有重要的理论与实际价值。在本次报告中，将汇报一下本团队在气动机器人动力

学建模、分析、感知、智能控制等方面取得的一些成果；随后，对仿生气动人工肌肉机器

人未来的研究方向和发展趋势进行展望；最后，将进一步汇报本团队在其它机器人系统上

的研究进展情况。

讲者简介：孙宁，南开大学人工智能学院教授、博导，教育部“青

年长江学者”，南开大学“百名青年学科带头人”，IEEE SeniorMember，曾获日本学术振兴会（JSPS）外籍特别研究员基金资助。

从事机器人的智能控制与应用领域的教学和科研工作，主持国家

自然科学基金（联合）重点项目、国家重点研发计划课题等 10多个基金。获多个期刊/会议杰出/最佳论文奖、Machines 2021Young Investigator Award、2021 年中国产学研合作创新奖（个人）、

2019年吴文俊人工智能优秀青年奖、2019 年中国智能制造十大科

技进展（排名二）、天津市自然科学一等奖（排名二）、吴文俊人

工智能自然科学一等奖（排名二）、2项天津市专利奖（分别排名

一、二）、ICCAR 2022 Young Scientist Award 等。担任 SCI 期刊 Measurement and Control的 Executive Editor，IEEE Transactions on Industrial Electronics等期刊编委，以及机器人与

自动控制顶级会议 IEEE ICRA、IEEE IROS、ACC、IEEE CDC的编委。

张道强南京航空航天大学

报告题目：医学人工智能

报告摘要：医学大数据中有超过 80%的数据来自于医学影像，人工智能赋能医学影像将进

一步释放影像大数据临床及科研价值。本报告将重点介绍人工智能在医学影像重建、分割、

诊断等方面的最新进展。此外，我们将以脑影像和肿瘤病理为例，介绍多模态脑影像融合、

脑影像基因关联分析、肿瘤病理基因联合预后预测等方面的最新进展。

讲者简介：张道强，南京航空航天大学教授、博导、副院长。入

选“万人计划”科技创新领军人才、“万人计划”青年拔尖人才、

国际模式识别学会会士（IAPR Fellow），获国家自然科学基金优

青和重点项目等资助。任《Pattern Recognition》、《 IntelligentMedicine》、《自动化学报》等期刊编委。主要研究方向为人工智

能，机器学习，医学图像分析，脑机接口等，发表学术论文 200余篇，被引 15000 余次。获国家自然科学二等奖 1 项、教育部自

然科学一等奖和二等奖各 1项。2014-2021 连续 8年入选 Elsevier中国高被引学者榜。

27

Tutorial报告及讲者简介

时间内容地点

8月 23日（周二）8:30-12:15

Tutorial 1: 深度连续学习

27号会议

室

报告题目：深度连续学习

讲者：洪晓鹏（哈尔滨工业大学）


讲者：刘夏雷（南开大学）

8月 23日（周二）13:30-17:15

Tutorial 2: 基于神经表示的三维重建与生成

29号会议

室

报告题目：基于神经表示的三维重建与生成

讲者：周晓巍（浙江大学）


讲者：廖依伊（浙江大学）


讲者：崔兆鹏（浙江大学）

28

Tutorial 1: 深度连续学习

洪晓鹏哈尔滨工业大学

刘夏雷南开大学


报告摘要：尽管深度学习在很多应用上都取得了成功，但大量研究表明，当对新的任务或

类别进行学习时，深度神经网络往往会覆盖过去所学的知识，从而导致模型在历史任务上

的性能严重下降，产生“灾难性遗忘”现象。因此，研究连续学习的理论、方法与技术，

使深度学习模型可以像人类一样学习，在动态变化的环境中不断学习新知识的同时，避免

灾难性遗忘旧知识，实现模型的可持续学习，是一个开放并极具挑战的科学问题，也是新

一代人工智能系统的必备技能之一。本课程将重点介绍该领域的基础知识和代表性工作，

并探讨最新研究进展、未来发展方向和典型应用。

讲者简介：洪晓鹏，哈尔滨工业大学教授，博导。在深度增量学

习、视频监控、多机器人策略分配和脸部微小运动分析等方面开

展了多年研究。先后主持国家重点研发计划课题、面上基金等项

目。在 IEEE会刊和 CCF A类会议上发表论文 50余篇。在面部微

小运动分析方面的相关工作见诸美国《麻省理工技术评论》等权

威媒体专文报道并获 IEEE 芬兰区最佳学生会议论文奖。带队获

多项重要国内外比赛的冠亚军。CSIG 情感计算与理解专委会副秘

书长，VALSE执行领域主席。PRL和 SIVP等期刊的客座编委和

IJCAI、AAAI、ACM MM 等国际会议的领域主席或资深程序委员。

讲者简介：刘夏雷，南开大学计算机学院副教授，硕士生导师。

2019年博士毕业于西班牙巴塞罗那自治大学，获 Cum Laude优秀

博士论文奖。 CVPR 2020年 Doctoral Consortium 获得者。曾在美

国西雅图亚马逊 AWS AI LAB 担任应用科学家实习生。博士后工

作于英国爱丁堡大学。长期从事连续学习、无监督学习、小样本

学习等面向开放环境的机器学习和图像感知。共发表学术论文 20余篇，包含 TPAMI、NeurIPS、CVPR、ICCV 等。担任多个顶级

期刊和会议审稿人、VALSE 2022年注册主席。

29

Tutorial 2: 基于神经表示的三维重建与生成


廖依伊浙江大学

崔兆鹏浙江大学


报告摘要：近年来，以 NeRF为代表的基于神经表示的三维建模与渲染方法得到了学术界

的广泛关注。相比于传统的点云、网格等表示方式，神经表示在细节表达能力、模型紧致

性、渲染真实感达到了新的高度，并被成功应用到了物体、人体、场景的三维重建与内容

生成之中。本课程将重点介绍该领域的基础知识和代表性工作，并探讨最新研究进展和未

来发展方向。

讲者简介：周晓巍，浙江大学“百人计划”研究员、博士生导师，

国家级青年人才项目入选者。研究方向主要是三维视觉及其在混

合现实、机器人等领域的应用。代表作包括 NeuralBody,NeuralRecon, DeepSnake, PVNet, LoFTR 等，多次入选 CVPR 最佳

论文候选，并被麻省理工科技评论等知名媒体报道。曾获得“陆

增镛 CAD&CG高科技奖”一等奖，中国计算机学会 CAD&CG 图

形开源贡献奖。担任计算机视觉顶级期刊 IJCV 编委、顶级会议

CVPR21/ICCV21 领域主席。

讲者简介：廖依伊，浙江大学信电学院特聘研究员，浙江大学首

届启真优秀青年学者。分别于西安交通大学和浙江大学获得学士

与博士学位，并在德国马克思普朗克智能系统研究所及德国图宾

根大学从事三年博士后研究。长期从事三维视觉研究，包括三维

重建、场景语义理解、可控图像生成等，在重要国际期刊和会议

上发表学术论文 20 篇。作为第一负责人搭建了国际上首个包含

大规模二维及三维、语义及样例稠密标签，面向自动驾驶感知的

近 1TB开源数据集 KITTI-360及其在线测试平台。

讲者简介：崔兆鹏，浙江大学“百人计划”研究员、博士生导师，

国家级青年人才项目入选者, 浙江大学首届启真优秀青年学者。研

究方向为三维计算机视觉，主要从事基于视觉信息的三维感知与

理解，具体包括三维重建、SFM、多视角立体几何、三维场景理

解、SLAM 等。应邀担任机器人领域顶级会议 IROS 2021 和 2022副编委、3DV 2022 领域主席，人工智能领域顶级会议 AAAI 2021

30

和 2022 高级程序委员会委员，以及 The Visual Computer编委。曾获机器人领域顶级会议

ICRA 2020 机器视觉最佳论文提名和 IROS 2021 安全、安保和救援机器人最佳论文提名。

31

Workshops报告及讲者简介Workshop 1: Transformers for Vision Tasks

主席：胡瀚（微软亚洲研究院），程明明（南开大学），张力（复旦大学）

时间：8 月 23日（周二）08:30-12:15 地点：29号会议室

时间主持人内容

8:30-8:40

胡瀚

研讨会介绍

08:40-09:10 讲者：黄高（清华大学）

题目：面向视觉 Transformer的动态网络设计

09:10-09:40 讲者：王栋（大连理工大学）

题目：基于 Transformer的视觉跟踪算法探索

09:40-10:10

程明明

讲者：王兴刚（华中科技大学）

题目：释放 Transformer在目标检测和分割中的巨大潜能

10:10-10:40 讲者：沈为（上海交通大学）

题目：Computationally Efficient Vision Transformers

10:40-10:50百度宣讲报告：

题目：百度大视觉团队及技术业务简介

宣讲人：何栋梁

10:50-11:20张力

讲者：侯淇彬（南开大学）

题目：探索 Transformer在图像识别任务中的潜力

11:20-12:15 Panel嘉宾：黄高，王栋，王兴刚，沈为，侯淇彬

32

黄高清华大学

报告题目：面向视觉 Transformer的动态网络设计

报告摘要：Transformer已经成为计算机视觉领域被广泛研究和采用的深度学习模型。全局

注意力机制是 Transformer区别于卷积网络的重要属性，一方面带来了更强的表达能力，

但同时也显著增加了模型的计算开销和过拟合风险。本报告将从动态计算的角度，介绍如

何通过样本自适应推理、空间自适应推理提升 Transformer在部署阶段的计算效率和泛化

性能。此外，报告还将讨论卷积与注意力模块的内在相似性，并通过一种高效简洁的两阶

段计算模式实现两者的无缝融合，在几乎不额外增加计算开销的前提下，提升主流

Transformer或 CNN 模型在 ImageNet分类和下游检测、分割等任务上的表现。

讲者简介：黄高，清华大学自动化系副教授，博士生导师。2015年获清华大学博士学位，2015年至 2018 年在美国康奈尔大学计算

机系从事博士后科研工作。主要研究领域为深度学习和计算机视

觉，提出了主流卷积网络模型 DenseNet。目前在 NeurIPS，ICML，CVPR 等国际顶级会议及 IEEE 多个汇刊共计发表学术论文 70 余

篇，被引 30000 余次，最高单篇引用超过 2 万次。获国家优青、

CVPR 最佳论文奖、达摩院青橙奖、世界人工智能大会 SAIL 先锋

奖、中国自动化学会优秀博士学位论文、中国百篇最具影响国际学术论文、中国人工智能

学会自然科学一等奖和吴文俊优秀青年奖等荣誉，入选北京智源学者、AI 2000 人工智能

最具影响力学者、《麻省理工科技评论》亚太区“35岁以下科技创新 35人”。

王栋大连理工大学

报告题目：基于 Transformer的视觉跟踪算法探索

报告摘要：本报告简述 Transformer模型在目标跟踪方面的进展，以及团队利用 Transformer模型在单目标跟踪方面尝试。首先，团队提出了基于 Transformer的特征融合模型，通过

建立非线性语义融合和挖掘远距离特征关联有效聚合目标和搜索区域的全局信息，显著提

升了跟踪算法的精度。其次，团队提出了基于编码器-译码器 Transformer的跟踪框架。其

中编码器建模待跟踪目标与搜索区域之间的全局时空特征关联，译码器学习一个查询表示

来预测待跟踪目标的空间位置。该算法在短时跟踪、长时跟踪数据集上均取得了 SOTA的

结果。最后，本报告将简述 Transformer在单目标跟踪方面的前沿进展及其未来发展趋势。

讲者简介：王栋, 大连理工大学, 信息与通信工程学院教授, 研究

方向为视觉目标感知与跟踪。迄今在本领域顶级会议(CVPR/ICCV)及期刊(TPAMI/TIP)发表论文 40 余篇, 谷歌学术引用 6000 余次；

获得国际视觉目标跟踪竞赛VOT冠军(7次), CCF自然科学二等奖,教育部自然科学二等奖, CVPR2020最佳论文提名等学术奖励；获

批国家自然科学基金优秀青年科学基金、面上项目等。

33

王兴刚华中科技大学

报告题目：释放 Transformer在目标检测和分割中的巨大潜能

报告摘要：近期的研究进展表明 Transformer在视觉目标检测和分割任务有着巨大的发展

空间，本次报告中将介绍我们围绕如何释放预训练的经典/朴素 Transformer在检测分割中

的巨大潜力[YOLOS, NeurIPS 2021; MIMDet, arXiv 2022]，如何利用 Transformer完成高效

率、高精度的实例分割 [QueryInst, ICCV 2021; SparseInst, CVPR 2022]，以及如何利用

Transformer 来高效建模视频中的时序上下文信息以完成准确的视频目标分割[TeViT,CVPR 2022]。

讲者简介：王兴刚，华中科技大学，电信学院，教授，博士生导

师。主要研究方向为视觉目标检测与分割，在 IEEE TPAMI、IJCV、CVPR、ICML 等顶级期刊会议发表学术论文 50 余篇，谷歌学术

引用次数 12000 余次，在计算机视觉领域首次提出了空间稀疏自

注意力机制（CCNet），该机制在 Deepmind AlphaFold中应用，对

应的论文在 ICCV19 最具影响力榜单上排名第五，引用超过 1000次。担任 CVPR 2022 领域主席，Pattern Recognition、Image andVision Computing 期刊编委。入选了国家青年人才计划，中国科

协青年人才托举工程，获吴文俊人工智能优秀青年奖，CVMJ 2021最佳论文奖，湖北省自然科学二等奖等。

沈为上海交通大学

报告题目：Computationally Efficient Vision Transformers报告摘要：Vision transformers have started to revolutionize the filed of computer vision.Thanks to their strong ability to model long-range dependencies, they lead to superiorperformance than CNNs in various computer vision tasks. However, the advantages of visiontransformers also come with a price: their core module, i.e., self-attention, has a quadraticcomplexity to the input sequence length. In this talk I will introduce our recent works on how toachieve computationally efficient vision transformers by designing local window attentionmechanisms: 1) A vision transformer with adaptively-dilated windows, which serves as a strongbackbone and achieves superior performance on various typical vision tasks; 2) A visiontransformer with irregular windows specially designed for human-object interaction detection.

讲者简介：沈为，现就职于上海交通大学人工智能研究院，任长

聘教轨副教授，博士生导师。曾任约翰霍普金斯大学计算机系助

理研究教授。研究方向为计算机视觉、深度学习与医学图像处理。

在相关领域的顶级学术会议和期刊上发表论文 30 余篇，总学术引

用 5000 多次。主持国家自然科学基金三项。担任 CVPR 2022、ACCV 2022 领域主席和 Neurocomputing 编委。

34

候淇彬南开大学

报告题目：探索 Transformer在图像识别任务中的潜力

报告摘要：近年来，视觉 Transformer快速推动了视觉中多项识别任务的发展。在多数视

觉任务中，基于 Transformer的网络结构在性能方面已逐渐优于传统的 CNN网络。在本次

报告中，我们将介绍如何借助 CNN 能够精准定位目标物体的能力进一步提升视觉

Transformer的性能，如何设计有效局部注意力机制提升视觉 Transformer的识别能力，同

时探究 Transformer在大规模图像分类任务中的潜力。

讲者简介：侯淇彬，副教授，南开大学“百青计划”入选者。于

2019年在南开大学获得博士学位，之后在新加坡国立大学从事博

士后研究工作，主要研究方向为计算机视觉与深度学习。目前已

在 IEEE TPAMI / NeurIPS / CVPR / ICCV 等国际顶级期刊及会议

上发表论文 20余篇，Google Scholar引用 4000余次，单篇最高引

用 1100+，研究成果应用于华为旗舰手机智能拍照系统中并获得

了华为公司 2017 年度优秀合作成果奖，入选中国科协青年人才托

举计划。

35

Workshop2: 视觉情感计算

主席：杨巨峰（南开大学），赵思成（哥伦比亚大学），山世光（中科院计算所）

时间：8 月 23日（周二）8:30-12:15 地点：30号会议室


8:30-8:40

杨巨峰

研讨会介绍

08:40-09:05讲者：邓伟洪（北京邮电大学）

题目：真实世界人脸表情识别

09:05-09:30讲者：王甦菁（中科院心理所）

题目：微表情分析

09:30-09:55

赵思成

讲者：李雷达（西安电子科技大学）

题目：视觉情感与个性化美学计算

09:55-10:20讲者：王上飞（中国科学技术大学）

题目：视频情感内容分析

10:20-10:30 中场休息

10:30-10:55

山世光

讲者：金琴（中国人民大学）

题目：多模态情感识别

10:55-11:20讲者：黄民烈（清华大学）

题目：对话系统中的情绪智能

11:20-12:15深度研讨：视觉情感计算的前沿进展、未来趋势、发展机遇

Panel嘉宾：邓伟洪，黄民烈，李雷达，金琴，王上飞，王甦菁

36

邓伟洪北京邮电大学

报告题目：真实世界人脸表情识别

报告摘要：表情识别是计算机视觉、情感计算、虚拟现实、心理学等领域的重要研究课题。

面向真实世界表情识别问题，本报告将介绍四个方面的研究进展：1. 众包标注与标签估计：

面向主观性的图像标注，提出了基于期望最大化的标签鲁棒估计算法，构建了知名的系列

表情数据集 RAF-DB 、RAF-ML、RAF-AU。2. 细粒度特征学习：解耦姿态、身份和情绪

特征，对齐表情标签流形与特征流形，对细粒度表情进行有效分析。3. 不确定性学习：通

过表情标签的不确定性估计，实现噪声标签下的鲁棒大规模半监督学习。4. 跨域和公平性

特征学习：在特征自适应的同时抵消了表情不平衡分布的影响，通过特征解耦或连续学习

增强特征的公平性。

讲者简介：邓伟洪，北京邮电大学“鸿雁人才”特聘教授，研究

方向为生物特征识别、可信人工智能、情感计算、多模态学习。

近年来主持国家重点研发计划课题、国家自然科学基金等项目 20余项，在 IEEE TPAMI、IJCV、TIP、TIFS、TNNLS 等国际期刊

以及 ICCV、CVPR、ECCV、NIPS、KDD 等国际会议发表论文

100多篇，曾担任 ECCV、ACMMM、IJCAI、ICPR、ICME等国

际会议领域主席，入选北京市优秀博士学位论文、北京市科技新

星、教育部新世纪优秀人才、教育部青年长江学者、Elsevier中国

高被引学者等。

王甦菁中科院心理所

报告题目：微表情分析

报告摘要：微表情是一种持续时间极短、不易被察觉的面部动作，它往往能反映出个体真

实的情绪。是理解人类真实情绪的重要窗口，可以用于非接触无感知的欺骗检测。此次报

告将结合心理学研究和计算机视觉技术对微表情分析研究进展进行报告。首先我们将介绍

基于神经生理学和认知心理学，利用脑电和肌电等生理信号对微表情面部活动的开拓性研

究；然后展示结合信号处理、机器学习等技术的微表情检测与识别的当前主要数据库和方

法；最后针对微表情标准困难以及小样本问题进行讨论，探索多模态研究以及无监督学习

等方法在微表情分析中的应用。

37

讲者简介：王甦菁，中国科学院心理研究所副研究员，博士生导

师。2012年 6月博士毕业于吉林大学计算机科学与技术学院，2012年 8 月至 2015 年 6 月在中国科学院心理研究所做博士后工作。

2015年 7月加入中国科学院心理研究所。主要研究方向为模式识

别与机器学习，特别是微表情识别。在国内外重要期刊和学术会

议上发表五十余篇论文，包括 TPAMI、TIP、TNN、ECCV 等。

2014 年起担任 Neurocomputing 期刊的 Associate Editor。CCF 杰

出会员，IEEE高级会员，中国计算机学会计算机视觉专业委员会

委员，中国人工智能学会人工心理与人工情感专业委员会委员，中国图象图形学学会机器

视觉专业委员会委员。主持国家自然科学基金面上项目 2项，北京市自然科学基金面上项

目 1项，中国博士后基金 2项。获 2018 年第八届吴文俊人工智能科学技术奖一等奖。入

选 2020 全球前 2%顶尖科学家“年度影响力”榜单。被新华社称为“中国版霍金”。

李雷达西安电子科技大学

报告题目：视觉情感与个性化美学计算

报告摘要：情感与审美是人类与生俱来的高级技能，也是人类区别于其他动物的重要特点，

“情绪”与“情感”计算也被认为是人工智能的下一个春天。情感与审美是人类的高层次

认知行为，相比于已经得到广泛研究的视觉感知计算，视觉情感与美学计算更加抽象、更

加主观，因此研究的挑战性也更大，在研究的广度与深度上都远远不足。本次报告中，我

们将重点针对视觉情感与审美的高度抽象性、主观性特点，介绍图像的情感分类与回归、

图像与文本多模态情感分析、用户性格建模与个性化图像美学评价等领域的最新研究进展，

并对未来的研究方向进行分析和展望。

讲者简介：李雷达，西安电子科技大学人工智能学院教授、博士

生导师。博士毕业于西安电子科技大学，曾任新加坡南洋理工大

学高级研究员；入选国家“万人计划”青年拔尖人才、陕西省高

层次人才引进计划等。主要研究方向为图像质量评价、计算美学

与视觉情感分析，在 IEEE TIP、TCYB、TMM、TCSVT、CVPR、ICCV 等发表论文 100 余篇，含中科院一区期刊和 CCF A 类会议

论文 50余篇，Google引用 4000 余次，SCI他引 1000 余次。主持

国家自然科学基金 4项，腾讯、OPPO合作项目等共十余项。担任

国际期刊 Journal of Visual Communication and Image Representation副主编 (2021年最佳编辑奖)。获陕西省自然科学奖一等奖、山西省科学技术奖二等奖等。

38

王上飞中国科学技术大学

报告题目：视频情感内容分析

报告摘要：随着便携式摄像设备的普及，以及优酷、哔哩哔哩等视频网站的蓬勃发展，视

频已经成为人们交流娱乐的重要媒介。视频在传播信息的同时，无可避免地影响着观众的

情感状态。因此，视频的情感内容分析研究已成为近年来的研究热点。视频情感分析研究

可以分为两种：直接标注（direct tagging）和隐式标注（implicit tagging）。前者侧重于建

立视频内容和情感词之间的直接映射关系；而后者则通过对用户观看视频时的各种生理和

行为反应的分析，识别用户的情感状态，从而间接地对视频进行情感分类和识别；本报告

将介绍视频情感内容分析的研究现状和最新进展。

讲者简介：王上飞教授，毕业于中国科学技术大大学，博士后工

作于日本九州大学，曾赴美国伦斯勒理工学院访学。现为中国科

学技术大学计算机科学与技术学院教授、博士生导师。她长期从

事情感计算、计算机视觉和多媒体技术研究，在国内外重要学术

期刊和学术会议上发表论文百余篇。发表的论文成为 IEEE Trans.热点论文百余次。2019 年起，担任 IEEE TAC和 ACM TOMM 副

主编。指导的研究生获得 GOOGLE 女性科学家奖、GOOGLE 奖

学金、中科院院长奖、国家奖学金和优秀毕业生等多个奖项。

金琴中国人民大学

报告题目：多模态情感识别

报告摘要：理解人的情感是建立具备情感交互能力的人工智能系统的重要步骤。人类情感

表达的行为信号是多模态的，例如包括声音、表情、肢体动作等。因此我们的研究工作侧

重于融合多模态信息进行情感感知和识别。本次报告将介绍我们在多模态情感识别方面的

近期工作，包括：为适应实际应用场景中复杂的不确定模态缺失情况，探索利用多个模态

之间情感表达的相互关系，学习鲁棒的多模态情感联合表示；以及为摆脱有监督情感标注

数据的局限，探索基于大规模无监督的多模态视频数据和自监督预训练的方法，学习高效

且泛化的多模态情感特征等。

讲者简介：金琴教授，于清华大学计算机系获得学士和硕士学位，

美国卡内基梅隆大学计算机学院获得博士学位，现为中国人民大

学信息学院学院教授、博士生导师。长期从事多媒体智能计算、

人机交互等相关研究，发表国际顶级学术会议期刊论文百余篇；

主持多项国家自然科学基金、北京市自然科学基金、国家重点研

发计划等项目或课题。在多模态情感计算、跨模态交互等研究与

应用中取得了突出成果，获得多项国际权威竞赛冠军，包括：蝉

联 2017-2019年 ACM Multimedia AVEC情感计算国际竞赛冠军、

2018-2020 年 CVPR ActivityNet Dense Video Captioning 冠军、

2017-2021年 TRECVID 视频描述(VTT)冠军，以及 2019 年之江杯

39

全球人工智能大赛视频内容描述生成冠军等。

黄民烈清华大学

报告题目：对话系统中的情绪智能

报告摘要：情绪智能是指“监控自己和他人情绪，区分并合适地标记不同情绪，进而用情

绪信息指导思考和行为的能力”。情绪智能是人类关键的智能行为之一，早在 1966年 MIT就开发了具有心理咨询功能的对话系统 ELIZA。经过近 60年的技术发展，今天的对话系

统是否具有情绪智能？对话系统能否完成类似情绪疏导、情感抚慰之类的复杂任务？讲者

将围绕对话系统如何表达情绪（而不是冷冰冰的机器），表达共情，甚至进行情绪疏导之

类的高级任务；并进而探索，对话系统进行心理咨询的可能性。

讲者简介：黄民烈博士，清华大学计算机科学与技术系长聘副教

授，中文信息学会自然语言生成与智能写作专委会副主任，CCF学术工委主任助理。获国家杰出青年基金、自然科学基金重点项

目资助。他的研究领域为自然语言处理，特别是自然语言生成、

对话系统、阅读理解等，著有《现代自然语言生成》一书。曾获

得中国人工智能学会吴文俊人工智能科技进步奖一等奖（第一完

成人），中文信息学会汉王青年创新奖，阿里巴巴创新合作研究奖。

在国际顶级会议和期刊发表论文 100 多篇，多次获得国际主流会

议的最佳论文或提名（IJCAI、ACL、SIGDIAL 等）。研发对话系

统平台 ConvLab、ConvLab2，世界上最大的开源中文开放域对话模型 EVA，情感聊天机

器人 Emohaa。担任顶级期刊 TNNLS、TACL、CL编委，多次担任自然语言处理领域顶级

会议 ACL/EMNLP 领域主席。他的主页位于 http://coai.cs.tsinghua.edu.cn/hml/。

40

Workshop 3: 多模态认知计算

主席：李学龙（西北工业大学），姬艳丽（电子科技大学），田亚鹏（德州大学达拉斯分

校）

时间：8月 23日（周二） 08:30-12:15 地点：30号会议室


8:30-8:40

李学龙

研讨会介绍

08:40-09:05讲者：张长青（天津大学）

题目：可信多模态融合方法及应用

09:05-09:30 讲者：谢伟迪（上海交通大学）

题目：Learning from Fewer Annotations

09:30-09:55

姬艳丽

讲者：易冉（上海交通大学）

题目：语音驱动的虚拟人视频生成

09:55-10:20 讲者：赵行（清华大学）

题目：神经网络配音器

10:20-10:30 中场休息

10:30-10:55

田亚鹏

讲者：胡迪（中国人民大学）

题目：多模态场景的高效学习与理解方法探究

10:55-11:20 讲者：胡建芳（中山大学）

题目：视频中粒度预测：运动物体轮廓形状预测

11:20-12:15 Panel嘉宾：张长青，谢伟迪，易冉，赵行，胡迪，胡建芳

41

张长青天津大学

报告题目：可信多模态融合方法及应用

报告摘要：多模态人工智能技术正在被广泛应用到智能医疗、机器人感知、信息安全等重

要领域。精准、可靠的多模态机器学习成为支持重要应用的关键技术。多模态数据为智能

系统决策提供了丰富信息，使得多模态智能系统可以“兼听则明”，提高分类和预测准确

性。然而，在许多代价敏感场景中多模态融合及决策的可信性往往更加重要。本报告将介

绍基于不确定性估计的可信融合技术，重点介绍端到端的可信多模态融合，在多模态协同

学习（兼听则明）时，对不同模态进行证据估计（信而有征），从而支持融合及决策的可

靠性和稳定性，并介绍可信多模态融合的典型应用案例。

讲者简介：张长青，天津大学智能与计算学部副教授、博士生导

师。其主要研究方向为机器学习、计算机视觉、智能医疗。

2017-2018年在北卡罗拉纳大学教堂山分校担任研究员。在 IEEETPAMI/IJCV/NeurIPS/ICLR 等期刊和国际会议上发表论文 90 余

篇，14篇论文单篇引用超过 100 次，4篇论文入选 CVPR/NeurIPS口头报告或亮点论文，4篇论文入选 ESI 高被引或 ESI 热点论文。

Google Scholar引用 4300余次。获得重要国际会议论文奖 3项。

担任 IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS、ICML、ICLR等期刊和会议审稿人/PC/SPC。主持和参与多项国家自然基金面上项目/重点项目、国家重

点研发计划项目。

谢伟迪上海交通大学

报告题目：Learning from Fewer Annotations报告摘要：Recent methods based on self-supervised learning have shown remarkable progress,matching or surpassing those trained with supervised learning. However, the research focus ison learning transferable representations from i.i.d data, e.g., images. To be applicable, thenetworks are still required to finetune with manual annotations on downstream tasks, which isalways not satisfactory. In this talk, I will cover self-supervised visual representation learningfrom videos and explain why I think videos are the perfect data source for self-supervisedlearning. Specifically, I will present our recent efforts in visual learning representation (fromvideos) that can benefit semantic downstream tasks, exploiting the rich information in videos,e.g., temporal information, motions, audios, narrations, spatial-temporal coherence, etc. Apartfrom evaluating the transferability, representation learned from videos can directly generalize todownstream tasks with zero annotations! As a conclusion, I would like to summarize theshortcomings of our works and some preliminary thoughts on how they may be addressed topush the community forward.

42

讲者简介：上海交通大学副教授，博士毕业于英国牛津大学 VGG实验室，现为上海交通大学电子信息与电气工程学院副教授、博

士生导师，主要从事计算机视觉方面研究。个人主页：

https://weidixie.github.io

易冉上海交通大学

报告题目：语音驱动的虚拟人视频生成

报告摘要：数字虚拟人是具有数字化外形的虚拟人物，借助计算机图形学、计算机视觉、

深度学习等领域的技术生成。根据不同的呈现形式，虚拟人可分为真人、拟人和动漫等风

格。如何构建具有自然神态与动作的虚拟人是近年来的研究热点。其中一个重要的分支是

如何基于语音信号生成面部表情、口型和头部姿势自然变化的说话虚拟人形象。近年来基

于深度学习的方法在语音信号驱动的说话人生成方面取得快速的进展，但现有语音驱动方

法大多研究真实感的说话人生成，此次报告将介绍我们在卡通等非真实感风格上语音驱动

说话人生成方面的相关研究工作。

讲者简介：易冉，上海交通大学计算机科学与工程系助理教授。

2016年获得清华大学工学学士学位，2021 年获得清华大学工学博

士学位。她的研究方向包括计算机图形学、计算机视觉和计算几

何。近五年共发表录用 20 余篇论文于 IEEE PAMI、ACM TOG、TVCG、CVPR、ICCV、AAAI等国际期刊和会议。获得 2021 年

度中国图象图形学学会石青云女科学家奖（青英组）、中国计算机

学会计算机视觉专委会学术新锐奖、第十六届图像图形技术与应

用学术会议（IGTA2021）论文竞赛一等奖、北京市图象图形学学

会优秀博士论文、清华大学优秀博士学位论文、微软学者提名奖

等学术奖项。担任中国图象图形学学会智能图形专委会、动画与数字娱乐专委会委员，

PAMI、IJCV、TIP、CVPR、ICCV、NeurIPS、ICLR、AAAI、VR、TMM、TCSVT 等重

要期刊会议审稿人。

https://weidixie.github.io

43

赵行清华大学

报告题目：神经网络配音器

报告摘要：影视配音是一项技术含量很高的专业技能，广泛用于电影和视频的后期制作，

具体指的是在安静的环境中重新录制演员对话的后期制作过程。我们开发的 AI模型也有

望自动实现这种能力：根据配音台词，自动生成与画面节奏同步的高质量配音。在本次报

告中，将分享神经网络配音的任务定义，模型设计，研究展望等。

讲者简介：赵行，清华大学交叉信息研究院助理教授，博士生导

师。他的主要研究兴趣包括多模态机器学习，自动驾驶，计算机

视觉等。在此之前，赵行在麻省理工学院MIT 取得了博士学位，

后于谷歌无人车项目Waymo担任研究科学家。赵行博士的工作曾

被多家主流科技媒体报道，如 BBC, NBC, 麻省理工科技评论等。

他的工作获得了 2015 年 ICCP 最佳论文奖。他本人入选了 2020年福布斯中国 U30 科学精英榜。

胡迪中国人民大学

报告题目：多模态场景的高效学习与理解方法探究

报告摘要：认知神经科学中被予以广泛研究的“多通道知觉”告诉我们，当多种感觉（如

视觉，听觉，触觉等）同时呈现刺激时，大脑中某些神经元的反应要大于这些感觉刺激单

独呈现时的反应。换言之，大脑能高效的整合不同的感官信息并提升对外界的理解和任务

执行表现。自然地，我们也期望机器模型也能具备类似的能力。为此，在本报告中，我们

将从多模态认知的一些现象出发，尝试探讨其带给机器多模态学习的一些思考；并在相关

思考的启发下，探究面向真实多模态场景内容的高效协同学习手段和理解方法，进而提升

在相关多模态任务上的执行表现。

讲者简介：胡迪，现任中国人民大学高瓴人工智能学院准聘助理

教授，博导，受中国科协青年人才托举工程资助。主要研究方向

为机器多模态感知与学习，以主要作者身份在领域顶级国际会议

及期刊上发表论文 20 余篇，如 TPAMI、NeurIPS、CVPR、ICCV、ECCV等。荣获 2019 ACM XI’AN 优博奖，2020 中国人工智能

学会优博奖；入选中国人民大学“杰出学者”计划，百度全球顶

尖人工智能人才计划等。受邀为多个国际高水平会议及期刊审稿，

并主办/协办多场国际顶级会议讲习班。部分研究成果正同产业应

用相结合以发挥其社会价值，如利用机器辅助手段提升视障人士的感知能力等。

44

胡建芳中山大学

报告题目：视频中粒度预测：运动物体轮廓形状预测

报告摘要：本报告将结合课题组近两年的研究，从计算机视觉的角度解读“未来是否可预

测”这个哲学问题。具体地，本次报告将侧重介绍课题组在中粒度预测（预测运动物体的

轮廓与形状）方面的研究成果。为了准确预测运动物体的轮廓形状，课题组从视频时空单

元动态特征提取和时空单元依赖关系建模两个层面展开具体研究，提出了一系列的深度学

习模型框架，使提取的视频特征更适合未来预测任务，不同单元特征间的时空依赖关系更

加精确，从而提升相关的视频预测结果。在三个公共数据库的实验结果表明，我们的方法

能够较好地预测运动物体轮廓形状。特别在自动驾驶场景数据，该方法能够实现提前 0.5秒的预测。

讲者简介：胡建芳博士，现为中山大学计算机学院副教授、博士

生导师。2016 年 12 月博士毕业于中山大学。他专注于研究解决

不同应用场景下的视频分析与理解问题，包括视频行为识别、行

为预测和视频分割等。在 IEEE TPAMI和 CVPR 等国际权威刊物

上发表多篇相关研究成果。获 2022 年广东省杰出青年基金支持，

2020 年广东省自然科学奖二等奖和 2017 年中国图象图形学学会

优秀博士论文奖。

45

Workshop 4: 计算摄像研究与应用具身智能视觉

主席：曹汛（南京大学），董伟生（西安电子科技大学），罗晓燕（北京航空航天大学）

时间：8月 23日（周二）13:30-17:15 地点：27号会议室


13:30-13:40

曹汛

研讨会介绍

13:40-14:10 讲者：施柏鑫（北京大学）

题目：神经形态融合传统图像的计算摄像

14:10-14:40讲者：索津莉（清华大学）

题目：视觉数据低带宽采集与传输

14:40-15:10

董伟生

讲者：付莹（北京理工大学）

题目：基于物理成像过程的噪声建模与图像重建

15:10-15:40 讲者：胡浩丰（天津大学）

题目：面向复杂环境的偏振成像技术

15:40-15:50传音控股宣讲报告：

题目：移动终端计算摄影技术发展与应用

宣讲人：肖龙安

15:50-16:20罗晓燕

讲者：左超（南京理工大学）

题目：深度学习下的光学计量——以结构光三维成像为例

16:20-17:15 Panel嘉宾：施柏鑫，索津莉，付莹，胡浩丰，左超

46

施柏鑫北京大学报告题目：神经形态融合传统图像的计算摄像报告摘要：脉冲相机、事件相机等神经形态相机，对比逐帧成像的普通相机，拥有独特的优势，尤其是其对于高速运动物体和高动态范围场景的感知能力。本报告将介绍神经形态与传统相机融合的计算摄像方法。通过将神经形态相机的高速、高动态特性与普通相机在分辨率、噪声抑制以及色彩方面的优势进行互补，实现对于图像强度和事件（或脉冲）信号的联合滤波，呈现高分辨率、对噪声鲁棒的神经形态信号以及具有真实色彩表观的高动态范围影像。

讲者简介：施柏鑫，北京大学计算机学院数字媒体研究所研究员、博士生导师（“博雅青年学者”）；北京大学人工智能研究院院长助理；北京智源人工智能研究院青年科学家。东京大学博士、麻省理工学院媒体实验室博士后。从事计算摄像学与计算机视觉研究，发表论文 120 余篇。论文获评国际计算摄像会议（ICCP）2015 年Best Paper Runner-Up、入选 IJCV 专刊 Best Papers from ICCV2015，2021年获得日本大川研究助成奖。主持科技创新2030—“新一代人工智能”重大项目、国家自然科学基金重点、国家级青年人才等多个项目。担任 International Journal of Computer Vision（IJCV）等期刊编委，CVPR、ICCV 等国际会议领域主席。IEEE

高级会员。

索津莉清华大学报告题目：视觉数据低带宽采集与传输报告摘要：高通量视觉数据是高质量完成视觉任务的基础，也为数据采集与传输带来巨大挑战。利用视觉信号内在冗余性进行编码摄像或者数据压缩可有效节省采集与传输带宽。本报告将汇报课题组在视觉数据低带宽采集与传输方面的进展。对于低带宽采集，现有压缩成像技术受限于编码器件和重建复杂度，局限于百万像素级采集。为此，我们提出了千万像素编码摄像方法和大规模数据解码重建算法。对于海量的医学数据，由于其采集设备基本固定，且缺乏专用的压缩算法，导致传输带宽高。为了高效传输高通量医学数据，我们提出了基于深层神经网络的压缩算法。

讲者简介：索津莉博士，毕业于中国科学院研究生院，于清华大学博士后流动站出站后留校工作至今，现为自动化系副教授、博士生导师。她长期从事计算摄像关键技术研究，在 NaturePhotonics、IEEE TPAMI、OSA Optica 等学术期刊或会议上发表了超过 60 篇论文；先后主持国家自然科学基金面上、优青、重点项目，科技部国家重点研发计划子课题，北京市自然科学基金重点项目；曾荣获国家科技进步二等奖 1 项（序 3）、省部级奖励 2 项（序 2）；担任国际期刊 IEEE TCI、OSA JOSA A 主编。

付莹北京理工大学

报告题目：基于物理成像过程的噪声建模与图像重建报告摘要：从不完整及低信噪比的观测数据中重构出清晰图像是底层视觉研究中的一项重要任务，其在遥感、生物光学、诊断医学等领域有着广泛的应用。图像重构质量很大程度

47

上取决于所采用的噪声模型以及图像先验的准确性，本次报告将从成像传感器的物理特性出发，建模从光子到数字信号的电子成像物理过程中所涉及到的各类噪声源，并提出一种免调试即插即用的近端优化算法用于图像重构。以突破传统成像系统的限制，并在极暗光成像、压缩感知核磁共振成像、相干衍射成像等任务中展示了优越的性能。

讲者简介：付莹，北京理工大学教授，博士生导师。2009 年获西安电子科技大学电子信息工程专业学士学位，2012 年获清华大学自动化专业硕士学位，2015 年博士毕业于东京大学信息科学与技术专业。2016 年加入北京理工大学计算机学院，2017 年入选国家级高层次人才计划。主要从事计算机视觉、计算摄像、图像/视频处理等相关领域研究，已在 IEEE TPAMI、IJCV、TIP 等国际期刊和 ICCV、CVPR、ICML 等国际会议发表论文 30 余篇，曾获得ICML2020，PRCV2019 最佳论文奖。

胡浩丰天津大学

报告题目：面向复杂环境的偏振成像技术报告摘要：偏振成像技术基于偏振信息的获取和处理可以有效抑制成像环境的干扰，对于复杂环境下的光学成像探测具有独特优势。我们提出了散射、低信噪比、强反射等复杂环境下诸多偏振信息处理新方法，显著提升了偏振成像对比度和可视距离，尤其是实现了散射环境下的超视距偏振成像和微光环境中极低信噪比偏振成像，有效解决复杂环境中“看不远、看不清”的瓶颈问题。基于上述技术，研发了水下偏振成像系统、偏振去雾成像系统、微光偏振成像系统等多类偏振成像工程化样机，服务于中电科集团、中船集团等多家单位。

讲者简介：胡浩丰，天津大学教授，博士生导师。2006 年和 2011年获南开大学学士和博士学位。致力于光学成像、偏振光学和海洋光学领域的研究。担任中国仪器仪表学会图像科学与工程分会理事、中国光学学会全息与光信息处理专委会委员、中国光学工程学会计算成像专委会委员、天津市光学学会理事，担任国际SCI 期刊 Frontiers in Physics（IF=3.560）专题编辑。入选中国科协“青年人才托举工程”、天津市首批“青年人才托举工程”、天津市“青年科技优秀人才”，获中国仪器仪表学会金国藩青年学子奖学金、法中应用科学基金会博士后奖学金。以第一/通讯作者发表SCI 论文 51 篇，其中 Optics Letters 和 Optics Express 论文 24 篇，

相关工作被美国光学学会遴选为 News Releases 和 Image of the Week 在主页进行报导，被 Optics Express 和英国物理学会遴选为编辑优选论文。

左超南京理工大学

报告题目：深度学习下的光学计量——以结构光三维成像为例报告摘要：暨激光器的发明实现光干涉测量、CCD 相机的发明实现数字光记录，深度学习为光学测量技术的下一轮革命创造了新的机会。近年来，以深度学习为代表的人工智能技术已在机器视觉、语音识别、自动驾驶、医疗诊断等众多领域带来巨大的变革，且已逐渐“渗透”进了计算成像与光学测量这一学科中。在本次报告中，我将会向大家展示深度学习与光学测量的结合将如何为结构光三维成像这一“传统”领域带来新的“生机”。相比较传统

48

方法，深度学习在条纹分析、相位展开、图像相关、误差补偿等方面展现出令人惊叹的性能以及强大的应用潜力。在此基础上，我们发展出一系列基于深度学习的“单帧”高精度无歧义结构光三维成像技术，首次实现了速度高达 10 万帧/秒瞬态三维成像，并展示了其在高速、高精度、超快三维成像方面的应用潜力。

讲者简介：左超，教授、博士生导师。南京理工大学智能计算成像实验室（SCILab: www.scilaboratory.com）学术带头人。研究方向为计算光学成像与光信息处理技术，在非干涉定量相位显微成像、高速结构光三维传感等领域取得系列研究成果。已在 SCI 源刊上发表论文 180 余篇，其中 20 篇论文被选作 Light、Optica 等期刊封面论文，17 篇论文入选 ESI 高被引/热点论文，论文被引超过 9000 次。入选国家“优青”、江苏省“杰青”、Elsevier 中国高被引学者，获中国光学工程学会技术发明一等奖、江苏省科学技术奖基础类一等奖、日内瓦国际发明展 “特别嘉许金奖”等。现任 Opticsand Lasers in Engineering、PhotoniX、Microwave and Optical

Technology Letters、《激光与光电子学进展》等期刊编辑，《红外与激光工程》、中国激光杂志社青年编委等。

49

Workshop 5: 开放环境下机器学习及应用

主席：刘宇（大连理工大学），洪晓鹏（哈尔滨工业大学），刘夏雷（南开大学）

时间：8月 23日（周二）13:30-17:15 地点：28号会议室


13:30-13:40

刘宇

研讨会介绍

13:40-14:10 讲者：崔鹏（清华大学）

题目：面向分布外泛化的稳定学习和 NICO Challenge

14:10-14:40 讲者：刘祥龙（北京航空航天大学）

题目：开放环境下的复杂目标检测方法研究

14:40-15:10

刘夏雷

讲者：朱政（鉴智机器人）

题目：以视觉为中心的自动驾驶感知研究与实践

15:10-15:40 讲者：胡鹏（四川大学）

题目：跨模态噪声关联学习：一种新的噪声标签学习范式

15:40-15:50思谋科技宣讲报告：

题目：专注智能制造与数智创新

宣讲人：姚恒志

15:50-16:20洪晓鹏

讲者：查正军（中国科学技术大学）

题目：真实场景低质视觉增强与分析

16:20-17:15 Panel嘉宾：崔鹏，刘祥龙，朱政，胡鹏，查正军

50

崔鹏清华大学

报告题目：面向分布外泛化的稳定学习和 NICO Challenge报告摘要：主流机器学习模型的基本假设是训练和测试数据的独立同分布（IID），导致其

缺乏对分布外数据的泛化能力（Out-Of-Distribution Generalization），使得当前模型在真实、

开放场景下的预测性能无法保证，是当前机器学习研究的公认重要难题之一。本报告将重

点介绍面向分布外泛化的稳定学习最新研究进展，并针对首届分布外泛化图像分类挑战赛

NICO Challenge 进行全面介绍和技术分析。

讲者简介：崔鹏，清华大学计算机系长聘副教授，博士生导师。

研究兴趣聚焦于大数据驱动的因果推理和稳定预测、大规模网络

表征学习等。在数据挖掘及人工智能领域顶级国际会议发表论文

100 余篇，先后 5次获得顶级国际会议或期刊论文奖，并先后两次

入选数据挖掘领域顶级国际会议 KDD 最佳论文专刊。担任 IEEETKDE、ACM TOMM、ACM TIST、IEEE TBD 等国际顶级期刊编

委，ICML、NeurIPS、KDD、AAAI、UAI等顶级国际会议 Area Chair。曾获得国家自然科学二等奖、教育部自然科学一等奖、电子学会自然科学一等奖、北京市

科技进步一等奖、中国计算机学会青年科学家奖、国际计算机协会（ACM）杰出科学家。

刘祥龙北京航空航天大学

报告题目：开放环境下的复杂目标检测方法研究

报告摘要：目标检测是计算机视觉领域重要技术方向，可广泛应用于视觉导航、智能安防、

工业检测等诸多领域，具有重要的应用价值和现实意义。然而，当前基于深度学习的目标

检测算法极度依赖于大量的数据和计算资源，在开放环境下面临目标信号微弱、训练样本

稀少、计算资源有限等挑战。针对上述挑战，本报告从表征高效、数据高效、计算高效三

个角度，分别介绍弱语义增强、小数据学习、低比特加速等目标检测优化策略，以及团队

发布的基于 X光危险品检测场景的目标检测数据基准集，最后探讨开放环境下目标检测的

发展方向。

讲者简介：刘祥龙，北京航空航天大学教授，博士生导师，国家

优秀青年科学基金获得者。现任北京航空航天大学软件开发环境

国家重点实验室副主任、计算机学院院长助理，主要研究大规模

视觉分析、可信赖深度学习。近年来，主持国家自然科学基金、

国防科技创新重点项目、科技创新 2030重大项目等多项国家课题；

发表 IEEECVPR、ICCV 等国际顶级会议及期刊论文 80余篇。担

任 Pattern Recognition等 SCI期刊编委，ACM MM、AAAI 等国际

会议领域主席，国家新一代人工智能产业创新联盟启智开源开放

平台技术委员会委员。曾获陕西省自然科学一等奖、北京市科技

新星、微软铸星计划、中国计算机学会青年人才发展计划、中国计算机学会优秀博士学位

论文等。

51

朱政鉴智机器人

报告题目：以视觉为中心的自动驾驶感知研究与实践

报告摘要：近年来，自动驾驶感知受到了学术界和工业界的极大关注，并被认为是开放环

境下最困难的机器学习问题之一。相比较更加昂贵的激光雷达，如何利用视觉传感器实现

高性能的感知与运动预测，是一项相当具有挑战性的工作。在本次报告中，讲者将系统性

回顾全球学界和业界在自动驾驶开放环境下视觉感知的最新研究进展，涵盖时空三维目标

检测、在线地图构建、多视角深度恢复、运动预测、端到端自动驾驶等。同时，讲者也将

分享鉴智机器人在上述方向中的探索和实践。

讲者简介：朱政，现任鉴智机器人研究总监、科学家。2019 年博

士毕业于中国科学院自动化研究所，2019 年至 2021 年在清华大学

自动化系从事博士后研究。研究内容包括自动驾驶感知、人脸识

别与分析、视觉目标跟踪等，在

TPAMI/CVPR/ICCV/ECCV/NeurIPS 等顶级期刊和会议上发表论

文二十余篇，代表作包括业界广泛使用的

SiamRPN/DaSiamRPN/WebFace260M 等，文章总引用 4000 余次

（Google Citations），多项工作被集成进 OpenCV。在 ICCV2021上组织戴口罩人脸识别研讨会和比赛，吸引超过 400支队伍参加，提交结果超过 10000 次。

曾在 nuScenes/KITTI/NIST-FRVT等权威榜单上排名第一，并获得过 COCO和 VOT等顶级

视觉竞赛冠军。

胡鹏四川大学

报告题目：跨模态噪声关联学习：一种新的噪声标签学习范式

报告摘要：深度神经网络的成功依赖于高质量标记的训练数据，而收集良好标注的大规模

跨模态数据的成本高昂。为了降低数据收集的高成本，可从互联网上收集同时出现的跨模

态对（例如图像和文本）作为大规模的跨模态数据集。然而，这将不可避免地会在训练数

据中引入噪声（即不匹配的对），称为噪声关联。毫无疑问，这种噪声会使监督信息不可

靠/不确定，并显著降低性能。针对这一问题，本次报告将汇报一种新的噪声标签学习范

式，称为噪声关联学习（Learning with Noisy Correspondence）。传统的噪声标签学习主要

围绕分类任务展开，旨在消除训练样本的错误类别标签所带来的负面影响。不同于标准的

噪声标签学习，噪声关联学习旨在削弱甚至消除成对训练数据中的错误关联关系造成的影

响，例如多模态训练数据中的图文不匹配，对话系统中的答非所问等。具体地，本次报告

将详细汇报一种广义的深度证据跨模态学习框架。该框架将基于跨模态相似性的双向证据

建模并参数化为 Dirichlet 分布，以捕获噪声关联引起的不确定性，这不仅提供了准确的不

确定性估计，而且还赋予了对噪声关联扰动的弹性。

讲者简介：胡鹏，四川大学副研究员。2019 年毕业于四川大学并

获得博士学位。2019 至 2020 年在新加坡信息通信研究所（I2R,A*STAR）担任研究员。主要研究兴趣包括表示学习及其在多媒体

分析、图像处理等领域中的应用，目前在 IEEE TPAMI, IEEE TIP,CVPR, NeurIPS, AAAI, ACM MM 等国际期刊和会议上发表论文

20余篇。

52

查正军中国科学技术大学

报告题目：真实场景低质视觉增强与分析

报告摘要：在诸多真实应用场景下，视觉数据在产生和获取的过程中受多种因素干扰而导

致复杂的质量退化现象。低质量视觉数据严重影响视觉系统的性能和应用。本报告将介绍

研究团队在真实场景低质量视觉数据增强和分析方面开展的研究，主要包括鲁棒视觉质量

增强方法、轻量神经网络模型、泛化视觉分析技术等。

讲者简介：查正军中国科学技术大学类脑智能国家工程实验室执

行主任、教授、博士生导师。主要研究领域包括图像视频分析与

理解、智能视觉感知与计算、脑启发式视觉计算等。研究成果发

表于百余篇 IEEE TPAMI、NeurIPS、CVPR 等 IEEE/ACM 汇刊和

CCF A类国际会议论文。主持科技部创新 2030-新一代人工智能重

大项目、基金委联合重点基金等多项科研项目。多次获得国际会

议论文奖励，包括 A 类国际会议 ACM Multimedia 最佳论文奖、

最佳学生论文奖等。担任 IEEE TCSVT、IEEE TMM、ACM TOMM等国际期刊编委。

53

Workshop 6: 智能三维视觉内容生成与分析

主席：弋力（清华大学），崔兆鹏（浙江大学），周晓巍（浙江大学）

时间：8 月 23日（周二）8:30-12:15 地点：28号会议室


08:30-08:40

弋力

研讨会介绍

08:40-09:05讲者：刘烨斌（清华大学）

题目：三维数字人生成：交互性、沉浸性与创造性

09:05-09:30讲者：韩晓光（香港中文大学(深圳)）题目：基于单张图像的衣物三维重建

09:30-09:55

崔兆鹏

讲者：张举勇（中国科学技术大学）

题目：便捷、高效、高保真数字人建模与驱动

09:55-10:20 讲者：胡瑞珍（深圳大学）

题目：三维交互的几何表达与生成

10:20-10:30NREAL 宣讲报告：

题目：AR（增强现实）场景下的三维视觉表征及应用

宣讲人：王志成

10:30-10:55

周晓巍

讲者：徐凯（国防科技大学）

题目：面向高自由度抓取的几何表征学习

10:55-11:20 讲者：李弘扬（上海人工智能实验室）

题目：自动驾驶三维道路结构认知研究

11:20-12:15 Panel嘉宾：刘烨斌，韩晓光，张举勇，胡瑞珍，徐凯，李弘扬

54

刘烨斌清华大学

报告题目：三维数字人生成：交互性、沉浸性与创造性

报告摘要：当前元宇宙和人工智能热潮下，基于神经网络的数字人重建与生成技术受到学

术界和产业界的广泛关注。围绕真实人物对象的三维重建、运动捕捉和智能生成成为构建

现实世界和虚拟世界间的桥梁技术。本报告围绕智能数字人的 3I 技术，即人的行为感知

实现交互性（Interaction），人的外观重建实现沉浸性（Immersion），赋予人的思想实现

创作性（Imagination）分别介绍报告人在人体运动捕捉、人体动态三维重建、人体视频

高质量生成等三方面科研工作，涵盖人体、人脸、人手的相关视觉图形学前沿。报告同时

对沉浸式全息通信技术、AI 数字人等热点前沿进行展望和探讨。

讲者简介：刘烨斌教授，分别于 2002 年和 2009 年在北京邮电大

学、清华大学自动化系获得工学学士和工学博士学位。现为清华

大学自动化系长聘副教授、博士生导师，主要研究方向为三维视

觉。发表 PAMI/ SIGGRAPH/CVPR/ICCV/ECCV 等论文近 50 篇，其中

CVPR/ICCV 口头报告论文 10 篇。任中国图象图形学会三维视觉专

委会副主任，人工智能学会人机融合智能专委会副秘书长。获

2012 年国家技术发明一等奖（排名 3），2019 年中国电子学会技

术发明一等奖（排名 1）。2015 年获国家基金委优青，2021 年获

国家基金委杰青。

韩晓光香港中文大学(深圳)报告题目：基于单张图像的衣物三维重建

报告摘要：随着元宇宙热度的不断上升，虚拟人技术备受关注。其中一个非常重要的问题

是如何快速的获得高质量的三维人脸、头发以及人体模型。近年来，在深度学习技术的推

动下该方向获得了非常迅速的发展。然而，作为日常生活中极为重要的衣服，其三维重建

却仍然面临巨大的挑战。这其中主要的原因在于衣服具有高度的几何和拓扑复杂性。本报

告将主要分享我们近年来在该方向的探索，即如何基于单张图像对衣服进行高质量三维重

建。相关工作发表于 ECCV2020（Oral）与 CVPR2022。

讲者简介：韩晓光博士，香港中文大学(深圳)理工学院与未来智

联网络研究院助理教授，校长青年学者，同时兼任深圳市大数据

研究院研究科学家。他于 2017 年获得香港大学计算机科学专业博

士学位。研究方向包括计算机视觉和计算机图形学等，在该方向

著名国际期刊和会议发表论文 40 余篇，包括顶级会议和期刊

SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE

TPAMI 等。他获得 2021 年度吴文俊人工智能科学技术奖-优秀青

年奖，他的工作还曾获得 CCF 图形开源数据集奖（DeepFashion3D），

2019年和 2020年连续两年入选计算机视觉顶级会议CVPR最佳论

文列表（入选率分别为 0.8%和 0.4%)，IEEE VR 2021 最佳论文荣

誉提名, 计算机图形学顶级会议 Siggraph Asia 2013 新兴技术最佳演示奖。更多细节详

见 https://mypage.cuhk.edu.cn/academics/hanxiaoguang/。

55

张举勇中国科学技术大学

报告题目：便捷、高效、高保真数字人建模与驱动

报告摘要：高效高保真三维数字内容生成是计算机图形学、三维视觉等领域的核心研究问

题。传统的建模与驱动方法依赖昂贵的采集设备、复杂的制作流程、并需要专业人士的大

量手工交互，这极大限制了应用群体与应用范围。近年来，报告人课题组围绕单目视频输

入下的高保真数字人建模与驱动开展了多方面的研究工作，包括：可驱动的高精度三维头

部建模、穿衣人体建模与驱动、语音驱动的数字人等方面的工作。

讲者简介：张举勇，中国科学技术大学数学科学学院特任教授，

博士生导师，国家基金委优秀青年基金获得者。2011 年博士毕业

于新加坡南洋理工大学，2011 年至 2012 年于瑞士联邦理工学院

洛桑分校从事博士后研究。研究领域为三维视觉与计算机图形学，

具体研究内容为对真实物理世界的高效高保真三维数字化、高真

实感虚拟世界的创建生成。

胡瑞珍深圳大学

报告题目：三维交互的几何表达与生成.

报告摘要：人类智能是在和环境交互中进化的，因此对三维交互进行有效表达、分析和处

理是实现类人智能的关键。本报告将介绍一种三维交互的几何表达方法，并在其基础上进

行的一系列交互分析和生成方法，细致描述并准确识别了多层级交互(从场景到物体再到

部件)，定位了交互相关的几何特征，刻画了同一对象的不同交互方式，规划了交互的动

态执行过程，实现了对三维交互的高层次理解和优化.

讲者简介：胡瑞珍副教授，毕业于浙江大学，现为深圳大学计算

机与软件学院副教授。她长期从事智能几何建模与处理方面的研

究，以第一作者发表 ACM SIGGRAPH/TOG 论文十余篇；获广东省

杰出青年项目资助，入选中科协青年人才托举工程；曾荣获亚洲

图形学协会青年学者奖、几何设计与计算青年学者奖、时谛智能

CAD&CG 青年学者奖；担任 SCI 期刊 IEEE CG&A 和 The Visual

Computer 编委；曾担任国际会议 SMI 2020 程序委员会共同主席，

多次担任 SIGGRAPH 等大会程序委员会委员。

56

徐凯国防科技大学教授

报告题目：面向高自由度抓取的几何表征学习

报告摘要：高自由度抓取是机器人灵巧操作的重要研究问题，具有广阔的应用前景。我们

提出基于几何表征学习来实现高自由度灵巧抓取。本报告将汇报我们在该方向的三项工作，

重点介绍在动态交互表征学习方面的最新成果。我们将机械手与物体之间的夹取交互表示

为交互二分面（Interaction Bisector Surface (IBS)，源于生物信息学领域，近年被引

入图形学领域用于几何建模），用于建模和学习抓取过程中手和物体间的动态交互。我们

发现，IBS 可以很好地刻画高自由度机械手的每一个手指与物体之间的细粒度空间关系，

是一种非常有效的交互状态表示。结合深度强化学习，可以较高的样本效率学习高自由度

抓取控制模型，且习得的模型具有动态适应性和跨类别泛化性。

讲者简介：徐凯，国防科技大学教授。国家优青，湖南省杰青。

普林斯顿大学访问学者，西蒙弗雷泽大学客座教授。研究方向为

数据驱动的三维感知与建模、三维视觉及其机器人应用等。发表

CCF A 类论文 60 余篇，其中包括领域顶级会议和期刊 ACM

SIGGRAPH/Transactions on Graphics 论文 27 篇。担任 ACM

Transactions on Graphics，以及重要期刊 Computer Graphics

Forum、Computers and Graphics 和 The Visual Computer 等的

编委。担任 GMP 2023 等国际会议的论文共同主席，以及 SIGGRAPH、

Eurographics 等会议的程序委员。担任中国图象图形学会三维视

觉专委会副主任，中国工业与应用数学学会几何设计与计算专委会秘书长、中国图学学会

理事。获湖南省自然科学一等奖、中国计算机学会自然科学一等奖、军队科技进步二等奖

等。

李弘扬上海人工智能实验室

报告题目：自动驾驶三维道路结构认知研究

报告摘要：三维道路结构认知是自动驾驶感知的重要研究问题，准确的三维道路结构感知

可以提升下游规划控制模块的性能。传统的道路结构认知依赖于高精地图，需要进行离线

数据采集与人工标注，且无法做到实时更新，极大的限制了其应用范围。本课题组对利用

车载传感器数据进行端到端三维道路感知及重建进行了探索。本报告将分享本组在三维道

路结构认知方面的研究，包括三维车道线，车道拓扑以及道路要素关系感知等。

讲者简介：李弘扬博士，上海人工智能实验室青年科学家。研究

方向为通用视觉下游应用研发、自动驾驶感知与决策算法研发等。

香港中文大学博士学位，博士期间荣获香港政府奖学金。以第一

作者身份完成的相关成果，发表于顶级国际会议如

CVPR/ICCV/NeurIPS/ICML 等，累计 Google Scholar 引用率 1300

余次，专利授权 10 余项。2021 年至今，担任清华大学研究生课

程高等计算机视觉主讲人。带领团队斩获自动驾驶国际挑战赛

Waymo Open Challenge 2022 第一名，在纯视觉、激光雷达等赛

道上取得国际领先地位，提出的 BEVFormer 工作为自动驾驶量产落地提供了实际解决方案。

57

Workshop 7：智能底层视觉的趋势与挑战

主席：杨敬钰（天津大学），潘金山（南京理工大学），王楠楠（西安电子科技大学），

熊志伟（中国科学技术大学）

时间：8月 23日（周二）13:30-17:15 地点：30号会议室


13:30-13:40

杨敬钰

研讨会介绍

13:40-14:10 讲者：方乐缘（湖南大学）

题目：Weakly supervised OCT Image Reconstruction and Analysis

14:10-14:40 讲者：贾旭（大连理工大学）

题目：数据高效的图像视频增强

14:40-15:10

潘金山

讲者：张越一（中国科学技术大学）

题目：事件相机的研究进展与应用

15:10-15:20奥比中光宣讲报告：

题目：消费级深度相机与应用

宣讲人：徐玉华

15:20-15:50讲者：彭春蕾（西安电子科技大学）

题目：跨域人脸生成与鉴别

15:50-16:20王楠楠

讲者：岳焕景（天津大学）

题目：面向实际降质的 Raw图像/视频复原

16:20-17:15 Panel嘉宾：方乐缘，贾旭，彭春蕾，张越一，岳焕景

58

方乐缘湖南大学

报告题目：Weakly supervised OCT Image Reconstruction and Analysis

报告摘要：深度学习已在多种图像应用领域获得突破性进展，在医学影像领域的突出成果

尤其令人振奋，表明医学人工智能已经进入了新时代。目前，深度学习在各个领域都开展

了火热的研究，但现有深度学习方法仍有可以改进的方面，如需大量的数据与标签，难以

训练与收敛，泛用性差等。本报告围绕分布式学习、弱监督学习、图像智能等新型深度学

习方法，介绍如何突破已有深度学习方法的局限。并针对人工智能在医学影像分析上的应

用，介绍深度学习方法如何与眼科 OCT 图像问题紧密结合，基于实际问题设计深度学习模

型解决多种眼科 OCT 图像分析中存在的临床问题。

讲者简介：方乐缘，湖南大学电气与信息工程学院教授，入选国

家“优秀青年基金”，全球高被引科学家，IEEE Senior Member。

获得国家自然科学二等奖（排名第二）、湖南省自然科学一等奖

（排名第二）、IEEE Transactions on Geoscience and Remote

Sensing 最佳审稿人等奖项。担任 SCI 期刊 IEEE Transactions on

Image Processing、IEEE Transactions on Geoscience and Remote

Sensing、Neurocomputing 编委。现主要从事深度学习、弱监督

学习、遥感和医学图像处理与分析等方面的研究。研究成果在国

际权威期刊和会议发表论文 130 余篇，其中 SCI 期刊发表论文 90

余篇（IEEE Transactions on Medical Imaging, IEEE

Transactions on Neural Networks and Learning Systems、IEEE Transactions on Image

Processing、IEEE Transactions on Geoscience and Remote Sensing 等本领域顶级 IEEE

汇刊论文 48 篇），国际权威会议论文 30 篇，Google shoclar 引用 8600 余次，ESI 高被

引（1%）17 篇，ESI 热点论文（0.1%）4 篇。申请/授权国家发明专利 10 余项。

贾旭大连理工大学

报告题目：数据高效的图像视频增强

报告摘要：随着深度学习方法的兴起，图像视频增强领域多个任务的表现有了大幅的提升。

深度学习作为数据驱动的方法，需要大量的高质量配对数据来训练相应的深度模型，然而

在真实场景下采集大量高质量数据并非易事，需要消耗大量的人力和物力，并且需要复杂

的后续处理。因此，研究数据高效的深度学习方法对于图像视频增强领域具有重要意义。

该报告将类比高层语义任务中的学习范式，从无监督学习和半监督学习的角度，介绍数据

高效的图像视频增强方法。

讲者简介：贾旭，大连理工大学人工智能学院长聘副教授，辽宁

省智能感知与理解人工智能重点实验室骨干成员，博士毕业于比

利时鲁汶大学，是从 Tinne Tuytelaars 教授和 Luc Van Gool 教

授。主要研究方向包括图像和视频的增强与生成、视觉目标检测

跟踪以及类脑视觉。迄今在计算机视觉和机器学习领域顶级会议

及期刊发表论文 30 余篇, Google Scholar 引用 4600 余次，申请

国内外专利 10 余项。曾在 Google Research，商汤科技，华为诺

亚方舟实验室等从事研究工作。主持并参与科技部科技创新 2030

重大项目、国家自然科学基金、科技委项目以及华为等企业合作

项目若干项。

59

彭春蕾西安电子科技大学

报告题目：跨域人脸生成与鉴别

报告摘要：跨域人脸主要指的是不同来源的人脸数据，例如近红外-可见光人脸、素描-

照片人脸等。跨域人脸在公共安全和网络信息内容安全等方面具有广泛的应用。本次报告

将围绕跨域人脸生成与鉴别问题展开介绍，涉及团队在跨域人脸合成、识别、鉴伪等方面

的最新进展。

讲者简介：彭春蕾，现为西安电子科技大学网络与信息安全学院

副教授，于 2017 年在西安电子科技大学获得博士学位，导师为高

新波教授。2016 年至 2017 年前往美国杜克大学联合培养。在国内

外权威刊物发表论文 30 余篇，获中国图象图形学学会自然科学二

等奖、陕西省优秀博士学位论文、中国图象图形学学会优秀博士

学位论文奖等。主要研究方向为视觉内容分析与安全，聚焦基于

图像和视频等可视数据的身份识别过程中所存在的挑战性问题，

例如可视数据被伪造、身份辨识有困难和识别结果不可靠等，开

展判断身份真假、辨识身份是谁、确保身份安全等方面研究。。

张越一中国科学技术大学

报告题目：事件相机的研究进展与应用

报告摘要：事件相机，又称为神经拟态相机，具有高时间分辨率，高动态范围，低延迟，

低功耗等特点，在计算机视觉，机器人等领域有着广泛的应用前景。比如对事件相机的信

号进行视频重建，进而观察高速运动的物体；用事件相机结合传统的成像设备实现视频插

帧等。本次报告将介绍事件相机在计算机视觉领域的最新研究进展，重点讲解我们团队近

期在事件相机领域所做的一些工作，包括基于事件相机的三维感知，图像增强，视频重建

等等。

讲者简介：张越一，中国科学技术大学信息科学技术学院特任副

研究员，在类脑智能技术及应用国家工程实验室从事计算机视觉，

类脑计算等方面的研究。2015 年获得工学博士学位，专业为信号

与信息处理。2015-2018 年间，在微软公司任职工程师，参与了

Office 软件多个核心模块的研发，后加入中国科学技术大学从事

科研工作。已在 IEEETransactions，CVPR/ICCV/ECCV 等学术期刊

会议上发表论文二十余篇。作为项目负责人承担国家自然科学基

金项目、安徽省自然科学基金项目等课题。

60

岳焕景天津大学

报告题目：面向实际降质的 Raw 图像/视频复原

报告摘要：基于 sRGB 域仿真降质的数据集训练的模型难以处理实际成像系统采集的降质

数据。相较于 sRGB 数据，传感器直出的 Raw 数据与拍摄场景的光度信息呈线性响应，保

留了更丰富的原始信息，更有利于降质因素的建模。在本次报告中，我将介绍我们课题组

在 Raw 图像/视频复原方面的一些进展，包括 Raw 视频去噪、超分辨率以及 Raw 图像去摩

尔纹等。

讲者简介：岳焕景，天津大学副教授。2010、2015 年在天津大学

获工学学士、工学博士学位。2011-2012， 2013-2015 年期间在微

软亚洲研究院网络多媒体组访问实习。2015 年入职天津大学，现

任天津大学电气自动化与信息工程学院副教授，博/硕士生导师。

2016.8-2017.8 在加州大学圣地亚哥分校(UCSD)公派访问。研究方

向为智能音视频复原与重建。在 TIP、TMM、TCSVT、CVPR、NeurIPS

等本领域权威期刊与会议中发表论文 30 余篇，获得 VCIP2016 最

佳 10%论文奖。获天津市技术发明一等奖（2016 年），入选微软学

者（2013 年），天津大学北洋学者青年骨干教师（2017 年），沈志

康奖教金（2018）等。担任 TCSVT 编委以及多个期刊与会议的审

稿人。

61

Workshop 8: 目标检测、分割与跟踪

主席：朱鹏飞（天津大学），王兴刚（华中科技大学），阚美娜（中国科学院计算所）

时间：8月 23日（周二）13:30-17:15 地点：32号会议室


13:30-13:40

朱鹏飞

研讨会介绍

13:40-14:05讲者：胡卫明（中国科学院自动化研究所）

题目：神经科学启发的深度学习模型及其在视觉时空信息感知与理

解中的应用

14:05-14:30 讲者：代季峰（清华大学）

题目：BEVFormer: 一种新的自动驾驶环视感知方案

14:30-14:55

王兴刚

讲者：魏云超（北京交通大学）

题目：面向视频的像素理解

14:55-15:20 讲者：张鼎文（西北工业大学）

题目：面向目标检测与视频动作定位的弱监督时空特征学习方法

15:20-15:30极视角宣讲报告：

题目：极市平台——25万 AI开发者的共同选择

宣讲人：陈柯志

15:30-15:55

阚美娜

讲者：王鑫龙（北京智源人工智能研究院）

题目：简单高效的实例分割算法：建模框架和学习方法

15:55-16:20 讲者：王立君（大连理工大学）题目：鲁棒单目图像深度估计

16:20-17:15 Panel嘉宾：胡卫明，代季峰，魏云超，张鼎文，王鑫龙，王立君

62

胡卫明中国科学院自动化研究所

报告题目：神经科学启发的深度学习模型及其在视觉时空信息感知与理解中的应用

报告摘要：分析神经科学与计算机视觉之间的关系。从以几方面总结神经科学对计算机视

觉的启发点：A) 基本视觉皮层的特征；B) 初级视皮层的原理扩展到高级区域；C) 顺向、

逆向、侧向联接；D) 视觉神经分层认知机制；E) 视觉神经系统的选择性注意机制；F) 动

态信息的选择性记忆机制。介绍本团队在基于各向异性膨胀网络的物体检测、基于深度时

空自组织神经网络的运动检测、基于编解码孪生神经网络的目标跟踪、基于时空金字塔注

意力神经网络的行为理解和长短时记忆序列卷积神经网络的行为语义描述等方面的研究

工作。介绍本团队在手机特定视频检测装备、互联网交换机端异质媒体监测设备和网络直

播智能审核系统等实际应用方面的工作。

讲者简介：胡卫明，中国科学院自动化研究所模式识别国家重点

实验室研究员(二级)、博士生导师、视频内容安全研究团队负责

人、人民中科智能技术有限公司创始人和首席科学家，国家杰出

青年科学基金获得者、中组部万人计划科技创新领军人才入选者、

科技部中青年科技创新领军人才入选者、人社部百千万人才工程

国家级人选、国家有突出贡献中青年专家、享受国务院政府特殊

津贴、国家 863 重点专项项目首席专家，IEEE Trans. on

Cybernetics 的 Associate Editor。目前研究方向为网络多媒体

敏感内容识别等，主持了国家自然科学基金重点项目、国家 863

重点专项项目、目标导向类课题等四十余项科研项目。已在 PAMI、

IJCV 等国际刊物、国内一级刊物以及 ICCV、ECCV、CVPR 等重要国际学术会议上发表论文

300 余篇，获授权发明专利 50 余项。带领团队完成的敏感多媒体识别等技术实际应用于五

十余家企事业单位，已在实战发挥作用，取得了显著的经济效益和社会效益。以第一完成

人获国家自然科学二等奖、北京市科学技术(技术发明类)一等奖、北京市发明专利一等奖

和吴文俊人工智能科学技术一等奖。

代季峰清华大学

报告题目：BEVFormer: 一种新的自动驾驶环视感知方案

报告摘要：随着智能驾驶落地应用场景不断延伸，系统信息表达的准确度要求进一步提升。

一个合格的智能驾驶系统，需要准确表示包括道路布局、车道结构、道路使用者等元素组

成的周围环境。然而，物体的距离、场景的深度信息在 2D 感知结果上并不能得到有效呈

现。这些信息才是智能驾驶系统对周围环境进行正确判断的关键。因此，3D 场景感知才

是智能驾驶视觉感知的优选。最近，基于多视角摄像头的 3D 目标检测在鸟瞰图下的感知

（Bird's-eye-view Perception, BEV Perception) 吸引了越来越多的注意力。一方面，

将不同视角在 BEV 下统一与表征是很自然的描述，方便后续规划控制模块任务；另一方

面，BEV 下的物体没有图像视角下的尺度和遮挡问题。如何优雅地得到一组 BEV 下的特征

描述，是提高检测性能的关键。我们提出 BEVFormer 环视感知的新框架，通过使用时空注

意力机制学习用以支撑多种自动驾驶任务的鸟瞰图视角下的环境表征。总体而言，

BEVFormer 通过使用预定义的格栅化的鸟瞰图查询来与时间和空间特征进行交互，从而获

取时空信息。为了聚合空间信息，设计了一种空间交叉注意力机制，每个鸟瞰图查询在相

机视角下的相关区域提取空间特征。对于时序信息，提出时序自注意力机制从历史鸟瞰图

特征中获取所需时序特征。在 nuScenes 数据集上达到了 56.9 % NDS，比之前的最好效果

高了 9.0% NDS。

63

讲者简介：代季峰博士，在清华大学自动化系于 2009 年和 2014

年分别获得学士和博士学位。2012 年至 2013 年间，他在加州大

学洛杉矶分校访学。2014 年至 2019 年间，他在微软亚洲研究院

（MSRA）视觉组工作，曾担任首席研究员、研究经理。2019 年至

2022 年，他在商汤科技研究院工作，担任基础视觉、通用智能两

个二级部门负责人，执行研究总监。他的研究兴趣为计算机视觉

中的通用物体识别算法和跨模态通用感知算法。他在领域顶级会

议和期刊上发表了 30 多篇论文，根据谷歌学术统计获得了 20000

多次引用。他于 2015、2016 年获得领域权威的 COCO 物体识别竞

赛一等奖，后续历届冠军系统也均使用了他提出的可变形卷积模

块。他在商汤科技工作期间，曾经担任本田-商汤自动驾驶研发项

目的技术负责人。他是 IJCV 的编委，CVPR 2021 和 ECCV 2020 的

领域主席，ICCV 2019 的公共事务主席，AAAI 2018 的高级 PC 成员，北京智源人工智能研

究院的青年科学家。

魏云超北京交通大学

报告题目：面向视频的像素理解

报告摘要：像素级理解是计算机视觉领域的核心研究方向，可被广泛应用到自动驾驶、机

器人、遥感图像、医学图像等任务当中。在此报告中，魏博士将主要介绍他在视频像素理

解方面的研究成果，涉及视频物体分割、视频语义分割、视频全景分割等。这些成果在国

际知名数据集上取得了国际领先的性能，包括 DAVIS2016/2017，Youtube VOS；并构建了

全球最大的视频语义分割数据集 VSPW 和视频全景分割数据集 VIPSeg。

讲者简介：魏云超，北京交通大学教授、博导。曾在新加坡国立

大学、美国伊利诺伊大学厄巴纳-香槟分校、悉尼科技大学从事研

究工作。入选 MIT TR35 China，百度 AI 华人青年学者榜单，国

家级青年人才计划，澳大利亚人 TOP 40 Rising Star，曾获澳大

利亚研究委员会青年研究奖，中国图象图形学学会科技技术奖一

等奖，ImageNet 目标检测冠军。主要研究方向包括面向非完美

数据的视觉感知和多模态数据分析。

张鼎文西北工业大学

报告题目：面向目标检测与视频动作定位的弱监督时空特征学习方法

报告摘要：目标检测和视频动作定位是计算机视觉领域的两大问题，也是基于视觉信息的

各类复杂任务的基石。学术界已经推出了一系列性能优异的检测及定位模型。然而，目前

大多数模型在应用于落地任务场景时将面临由数据标注缺失引起的效能瓶颈。为了应对这

个难题，课题组近两年在弱监督时空特征学习方法领域进行了一系列的尝试，探索出了若

干提升标注缺失条件下空域特征和时序特征表达能力的学习机制，有效服务于开放场景下

的图像目标检测与视频动作定位任务。

64

讲者简介：张鼎文，西北工业大学自动化学院教授、博导。曾赴

美国卡耐基梅隆大学计算机学院机器人系进行为期 2 年的访问研

究。致力于建立面向开放环境下、具备动态学习能力的新一代视

觉感知与学习框架。共发表/录用学术论文 60 余篇，20 篇论文入

选 ESI 高被引，11篇论文入选 ESI 热点论文。研究工作入选2021

IEEE TCSVT（中科院一区、TOP，多媒体信息处理领域国际顶级期

刊）最佳论文奖、中国图象图形学学会优秀博士论文奖、2018 年

中国百篇最具影响国际学术论文；陕西省自然科学优秀论文二等

奖奖励。入选中国博士后创新人才支持计划, 科睿唯安“全球高

被引科学家”，百度学术 AI 华人青年学者榜单，获吴文俊人工智能优秀青年奖。担任中

国图象图形学学会青工委副秘书长、中国图象图形学学会视觉大数据专委会委员、第六届

VALSE 执行领域主席委员会委员，担任 IEEE TMM 与 TCSVT 的客座主编，组织 ACM MM 及 ICCV

的专题研讨会。

王鑫龙北京智源人工智能研究院

报告题目：简单高效的实例分割算法：建模框架和学习方法

报告摘要：实例分割在视频分析、自动驾驶、医学影像等领域有广泛的应用。作为最有挑

战的视觉任务之一，其要求精确的识别和分割出图像中的每个目标物体。同时，实例分割

也是最耗费人工标注的任务之一，需要费时费力的分割掩码来学习像素级物体定位。在此

演讲中，我会从以上两个问题出发介绍我们近期的工作。1）介绍简单高性能的建模框架：

从图像到视频实例分割；2）介绍标签高效的学习方法：从强监督到弱监督、半监督和无

监督实例分割。此外，总结相关方向重要进展，并探讨未来研究方向。

讲者简介：王鑫龙，北京智源人工智能研究院视觉研究组负责人。

此前分别于同济大学和阿德莱德大学完成本科和博士的学习，师从

沈春华教授。研究兴趣主要是视觉感知和表征学习，具体课题包括

目标检测、实例分割、自监督学习等。代表性工作有 SOLO、SOLOv2、

DenseCL 和 FreeSOLO 等。曾获得 Google PhD Fellowship。个人主

页 xloong.wang。

王立君大连理工大学

报告题目：鲁棒单目图像深度估计

报告摘要：单目深度估计旨在通过智能视觉技术从单幅二维输入图像中恢复出三维场景的

深度信息。与基于硬件传感器的深度获取方式相比，单目深度估计技术极大降低了深度获

取的成本，并拓宽了使用场景，在自动驾驶、机器人、3D 拍照等诸多领域中具有广泛而重

要的应用。然而，单目深度估计问题本身是病态问题，复杂场景下精准的深度估计仍然面

临多项挑战。本报告将围绕深度估计任务分享本团队在网络架构设计、模型学习方法等层

面的最新研究成功，并简要介绍深度估计在其他相关视觉任务中的引用。

65

讲者简介：王立君，大连理工大学人工智能学院副教授，硕士生

导师，入选 2019 年“博士后创新人才支持计划”。主要研究方向

聚焦于图像深度估计、视觉目标跟踪与显著性目标检测等。在本

领域顶级学术会议和期刊（ IEEE CVPR, ICCV, ECCV,

TPAMI,IJCV,TOG, PR 等）发表论文数十篇，谷歌学术总引用量超

4500 次。相关研究成果获得教育部自然科学二等奖，中国图象图

形学学会优秀博士论文奖，以及辽宁省优秀博士论文奖。连续三

年获得 VOT 国际视觉目标跟踪竞赛 (2020, 2021, 2022) RGB-D

赛道冠军。担任多个国际顶级会议和期刊审稿人以及 VALSE 第六

届执行 AC 委员会 (EACC) 委员。

66

Workshop 9: 可解释的深度学习算法与视觉应用

主席：任传贤（中山大学），赵健（军事科学院），

张长青（天津大学）

时间：8月 24日（周三）8:30-12:15 地点：27号会议室


8:30-8:40

任传贤

研讨会介绍

08:40-09:10 讲者：彭宇新（北京大学）

题目：面向可解释的细粒度视觉分类与检索

09:10-09:40 讲者：雷震（中科院自动化所）

题目：基于层次解析胶囊网络的无监督人脸部件发现

09:40-10:10

赵健

讲者：钱建军（南京理工大学）

题目：从多样性和近邻性的视角探讨视觉信息的稳健表示

10:10-10:40 讲者：陈云鹏（美图影像研究院）

题目：视觉生成在人像美化中的应用

10:40-10:50金山办公宣讲报告：

题目：复杂场景下的表格还原

宣讲人：熊龙飞

10:50-11:20张长青

讲者：熊昊一（百度研究院大数据实验室）

题目：InterpretDL：深度学习可解释性

11:20-12:15 Panel嘉宾：彭宇新，雷震，钱建军，陈云鹏，熊昊一

67

彭宇新北京大学

报告题目：面向可解释的细粒度视觉分类与检索

报告摘要：与一般的视觉分类不同，细粒度视觉分类旨在对粗粒度的大类（如鸟、车等）

进行细粒度的子类划分（如大冠蝇霸鹟、阿卡迪亚霸鹟等鸟类子类别；奥迪 A6、A8等车

类子类别），其挑战在于外形、颜色等相似导致的不同类别差异小，姿态、视角等不同导

致的相同类别差异大。如何借鉴人脑的认知机理，模拟视觉注意力机制学习多粒度的辨识

性特征，从可解释的角度突破细粒度视觉分类难题，对于提高计算机的感知和认知能力至

关重要。本报告将介绍我们在细粒度视觉分类上的相关研究进展，包括空间拓扑注意力学

习、堆叠式深度强化学习、层次化深度增量迁移学习等方法，以及我们在细粒度跨媒体检

索上的探索，实现了由图像、视频到跨媒体的扩展，由分类到检索的扩展。

讲者简介：彭宇新，北京大学二级教授、博雅特聘教授、国家杰

出青年科学基金获得者、国家万人计划科技创新领军人才、科技

部中青年科技创新领军人才、863 项目首席专家、中国人工智能

产业创新联盟专家委员会主任、中国工程院“人工智能 2.0”规划

专家委员会专家、北京图象图形学学会副理事长、中国图象图形

学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方

向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人

工智能。以第一完成人获 2016 年北京市科学技术一等奖和 2020年中国电子学会科技进步一等奖，2008 年获北京大学宝钢奖教金

优秀奖，2017 年获北京大学教学优秀奖。主持了 863、国家自然科学基金重点等 20 多个

项目，发表论文 160 多篇，包括 ACM/IEEE Trans和 CCF A类论文 70 多篇。多次参加由

美国国家标准技术局 NIST 举办的国际评测 TRECVID 视频样例搜索比赛，均获第一名。

主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视

总局等单位。担任 IEEE TCSVT等期刊编委。

雷震中科院自动化所

报告题目：基于层次解析胶囊网络的无监督人脸部件发现

报告摘要：胶囊网络将物体描述为一系列的部件以及部件间的关系，与卷积神经网络不同，

胶囊网络中的信息节点是可解释的向量，这使得网络信息传递更加灵活且更具可解释性。

但是目前胶囊网络仅在手写数字等简单物体上表现出较好的性能，很难处理人脸等复杂物

体。针对上述问题，我们提出了一种层次解析胶囊网络(HP-Capsule)，用于无监督人脸部

件发现。基于大量没有标签的人脸图像，HP-Capsule 首先用一系列可解释的子部件胶囊对

常见模式进行编码，然后通过基于 Transformer的解析模块(TPM)融合子部件胶囊得到部件

胶囊，学习胶囊间的层次关系。HP-Capsule 将胶囊网络的应用从手写数字扩展到人脸，展

示了神经网络如何在没有人类干预的情况下理解人脸这类具有相同结构的物体，可用于无

监督人脸分割等任务。

68

讲者简介：雷震，男，博士，中国科学院自动化研究所研究员，

中国科学院大学人工智能学院岗位教授，香港理工大学客座教授，

博士生导师。他长期从事生物特征识别、图像视频分析与理解、

人工智能基础理论等研究工作，发表学术论文 200 余篇，GoogleScholar文章引用次数超 19000 次，H-index：67，曾荣获 2019 年

国际模式识别协会（IAPR）青年学者奖，2019 年国家科技进步奖

二等奖，2021 中国电子学会技术发明一等奖。16 次获得国际会议

最佳（学生）论文奖或国际视觉类任务竞赛第一名。

钱建军南京理工大学

报告题目：从多样性和近邻性的视角探讨视觉信息的稳健表示

报告摘要：近年来，如何设计有效的损失约束进而引导深度神经网络学习稳健的鉴别特征

吸引了众多学者的关注。本报告以 Softmax为例从几何的视角分析了其工作机理，并从模

式样本多样性和近邻性的视角探讨了基于 Softmax损失约束的系列方法，发现增强类内样

本近邻性的同时保持类内样本的多样性更有利于引导神经网络学习鉴别特征。然而，近邻

性和多样性二者之间往往又是此消彼长。针对这一问题，介绍如何约束深度神经网络，使

其能够有效获取鉴别特征。

讲者简介：钱建军，南京理工大学计算机科学与工程学院副教授，

博士生导师，2014 年在南京理工大学获模式识别与智能系统博士

学位，同年留校任教。研究方向为模式识别与视觉感知。相关研

究成果发表在 IEEE Trans. on Pattern Analysis and MachineIntelligence (PAMI), IEEE Trans. on Image Processing (TIP), IEEETrans. on Neural Networks and Learning Systems (TNNLS), PatternRecognition (PR)、CVPR/ICCV/AAAI/IJCAI等国际权威刊物和知

名国际会议 50余篇，其中包含中国科学院期刊分区一区或中国计

算机学会 A/B 类论文近三十篇（含 ESI 高被引论文一篇）。先后

主持国家自然科学基金青年项目 1项、面上项目 2项、企业课题多项，参与重点项目、军

委科技委预研项目多项。荣获江苏省科学技术一等奖 2项，甘肃省科技进步二等奖 1项。

2018 年入选“香江学者计划”；2020年获评南京理工大学优秀研究生指导教师；2021 年入

选江苏省“青蓝工程”优秀青年骨干教师；指导研究生的学位论文被评为 2020 年江苏省

优秀专业硕士学位论文。此外，担任 Neural Processing Letter和 The Computer Journal的客

座编辑以及多个高质量学术期刊和顶级会议的审稿人。

陈云鹏美图影像研究院

报告题目：视觉生成在人像美化中的应用

报告摘要：美图影像研究院（MT Lab, Meitu Imaging & Vision Lab）是美图公司致力于计

算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团

队。作为美图公司的视觉算法中枢，MT Lab 结合传统可解释的图形图像技术与最新深度

结合技术，落地了一系列围绕着让更多人变美的算法，从 C 端到 B 端，从图像处理到人

69

工智能，为公司赋能。讲座讲基于美图研究院最新落地的几项美颜美型算法，介绍如何在

深度学习算法缺乏足够的可解释性的前提下,实现匀肤、祛皱、仿妆等应用。

讲者简介：陈云鹏，新加坡国立大学博士，美图算法总监。主要

从事机器学习及计算机视觉相关研究，在 CVPR，ECCV，ICCV，NeurIPS，TPAMI等重要学术期刊已发表 40余篇学术论文，论文

累计引用量达到 3700 余次。研究课题涵盖神经网络结构设计，视

频图像理解与表征学习，内容创作与生成，等多个领域；曾荣获

PREMIA 最佳学生论文，ImageNet 国际图像挑战赛 ILSVRC 2017和 ILSVRC 2015 第一名，2020年 ACM MM“大规模复杂场景下

人体视频解析”第一名。

熊昊一百度研究院大数据实验室

报告题目：InterpretDL：深度学习可解释性

报告摘要：百度研究院大数据实验室致力于研究新一代『透明』人工智能，对深度学习模

型的可解释性进行探究，帮助分析黑盒人工智能的内部机制，提升其可靠性和安全性。以

深度学习模型为代表的人工智能，目前在图像识别、自然语言处理、语音识别等各任务上

表现优异，在实际场景中也开始广泛地应用。但是『黑盒』模型以堆积神经元为主要特征，

其中的决策过程缺乏足够的可解释性，人们无法直观地理解。我们希望从内部对深度学习

模型进行解释，发现其中问题并进行相应的改进，提升其性能和效率；也希望提升模型的

可靠性和安全性，让使用者更加信任人工智能。为此，我们调研了目前已有的可解释性算

法，开发了基于飞桨的可解释性算法开源库 InterpretDL，帮助分析黑盒人工智能的内部机

制，提升可靠性和安全性。InterpretDL遵循开箱即用『Plug-and-Play』的设计理念，用户

无需修改模型代码；所有算法使用统一 API接口，方便用户快速上手；目前已集成 17种主流的可解释性算法，包含类别广泛，适用不同任务下的各类模型；对每种算法都提供了

单独的教程与解析，帮助用户理解、选择合适的算法。InterpretDL支持飞桨生态，并且已

经集成于百度多个产品中，并将长期维护。

讲者简介：熊昊一博士毕业于法国巴黎第六大学与国立电信学院，

美国弗吉尼亚大学系统与信息工程系博士后。归国前曾任美国密

苏里大学罗拉终身序列助理教授。研究方向为物联网与自动化深

度学习，在 UbiComp、ICML、KDD、RTSS、AAAI、IJCAI 与IEEE/ACM Transactions 等学术会议与期刊上发表论文 70余篇。

2018年加入百度研究院，现担任百度大数据实验室主任研发架构

师。现在 CCF普适计算专委会常务委员、IEEE高级会员。获得

过法国国家科学中心 CNRS Samovar杰出博士论文奖、参与飞桨

团队中国电子学会科技进步一等奖、获得 IEEE TCSC Early Career Researcher Award。

70

Workshop 10: 医学数据分析中的深度学习方法

主席：李镇（香港中文大学（深圳）），窦琪（香港中文大学），

于乐全（香港大学），张瑞茂（香港中文大学（深圳））时间：8 月 24日（周三）08:30-12:15 地点：28号会议室


8:30-8:40

李镇

研讨会介绍

08:40-09:05 讲者：徐军（南京信息工程大学人工智能学院）

题目：计算病理及其对疾病精准诊疗和预后的贡献

09:05-09:30 讲者：王晟（智峪生科）

题目：工程化与算法提速带来的超高通量蛋白计算平台峪云 ZCloud

09:30-09:55窦琪

讲者：高智凡（中山大学）

题目：基于机器学习的心脏影像分析

09:55-10:20 讲者：俞江帆（香港中文大学（深圳））

题目：生物医疗导向的微纳机器人集群

10:20-10:30

于乐全

中场休息

10:30-10:55讲者：温泉（中国科学技术大学）

题目： Rapid detection and recognition of whole brain activity in aroaming Caenorhabditis elegans

10:55-11:20张瑞茂

讲者：万亮（天津大学）

题目：面向多模态MRIs 的脑肿瘤分割及分类研究

11:20-12:15 Panel嘉宾：徐军，王晟，高智凡，俞江帆，温泉，万亮，李冠彬

71

徐军南京信息工程大学人工智能学院

报告题目：计算病理及其对疾病精准诊疗和预后的贡献

报告摘要：常规组织和病理切片中包含了大量有价值的临床诊断、治疗和预后等信息。通

过研究和开发先进医学图像计算和机器学习方法，我们可以 1)从常规的组织和病理切片中

获取疾病的微米级图像表型描述，实现细胞与组织水平上的大规模定量分析，以发现病理

切片数据中潜在的趋势和规律;2)通过运用亚视觉图像表型特征，俘获人眼难以或者无法

区分的图像模式，接近或者超越人眼的视觉局限，并且定量化医生的经验和知识; 3) 基

于“人在回路中”深度学习框架的多类细胞核自动分割方法，以实现细胞与组织水平的定

量分析目标，从而便于我们对常规 H&E 切片中多类细胞进行大规模统计分析。报告中我将

介绍如何运用这些新方法和新技术在慢性髓系白血病辅助诊断、胆管癌患者生存预测、非

小细胞肺癌患者免疫治疗临床反应以及生殖医学等领域的研究进展。相信这些研究成果和

研究方法能够帮助和推动临床医学、基础医学以及生命科学领域的研究。

讲者简介：南京信息工程大学人工智能学院/智慧医疗研究院教

授、副院长、博导。2007 年获浙江大学博士学位，先后在美国

Rutgers 大学、凯斯西储大学任博士后研究员、访问教授等。兼

任江苏省人工智能学会医学图像处理专委会副主任、中华医学会

病理学分会数字病理与人工智能委员、第九届医学图像计算青年

研讨会主席等。主持国基金联合重点项目、面上项目多项，参与

国基金重大研究计划重点项目、重大集成项目多项。主要致力于

影像和常规病理切片定量分析；医学图像计算；计算病理；基于

亚视觉特征图像表型描述的量化和表征；疾病的辅助预防、诊疗

及预后等领域的研究。期望这些研究成果未来能够辅助医生进一

步改善疾病的预防、诊疗和预后，让患者获益。

王晟智峪生科

报告题目：工程化与算法提速带来的超高通量蛋白计算平台峪云 ZCloud

报告摘要：2021年计算生物学领域最火热的话题无疑是DeepMind推出的AlphaFold2（AF2），

其超高的蛋白结构预测精度与广泛的应用，已经给整个生物学界带来了一场重大改变。相

对于进一步提高预测精度，一个更迫在眉睫的问题是如何提高其速度与通量。试想一下，

不到两分钟的从头结构预测，不到一小时的全蛋白组结构预测，基于蛋白结构的自动化配

体发现、建模、优化过程，如果都成为了现实，将会怎样改变合成生物学？而这一切，已

经初步在峪云平台上得到了实现。峪云生物计算平台 ZCloudTM 是一款由智峪生科打造的

高性能、高通量的综合型生物计算软件平台。ZCloud 平台旨在解决蛋白质结构计算、蛋白

质结构模拟、配体设计、酶工程设计等领域内常见的计算问题。目前 ZCloud 平台上已提

供了包括多款前沿的蛋白质结构计算与模拟应用、先进的配体发现与优化方法软件、常

用的蛋白质序列与结构检索软件等。ZCloud 将为科研机构、生物科技企业、生物医药公司

提供优质的、高效的、称心的计算服务。

讲者简介：王晟博士，中科院深圳先进院合成生物学研究所客座

教授，上海智峪生物科技有限公司 CEO。王晟博士 2005 年毕业于

上海交通大学生命科学院，2010 年于中国科学院理论物理所取得

博士学位，之后分别在TTIC，芝加哥大学以及KAUST从事Research

Scientist 工作。2019 年回国后，王晟博士在腾讯 AI Lab 担

任高级研究专家。王晟博士主要从事基于人工智能的计算生物学

研究，尤其是基于深度学习的蛋白质结构从头预测，达到了国际

先进水准（CASP12/14 蛋白接触图预测第一名）。近五年来，王晟

72

在 PNAS, Cell Systems, Nature Method, Nature Protocols, Nucleic Acids Research,

Genome Biology, Bioinformatics, Brief. in Bioinform., PloS Comp. Biol.等国际知

名期刊上发表论文 60 多篇；会议论文近 30 篇，包括计算生物的知名会议 ISMB, RECOMB,

ECCB 等，以及计算机视觉/机器学习领域知名会议 CVPR, AAAI 等。Google Scholar 近五

年引用接近 5000 次，h-index 为 28。

高智凡中山大学

报告题目：基于机器学习的心脏影像分析

报告摘要：心脏疾病是中国防治慢性病中长期规划的重点关注对象。《中国心血管报告》

显示中国患病人数超过 3 亿，死亡率位居首位，占全部死因的四成。本报告将从常见的心

脏疾病临床诊断出发，重点关注不同心脏影像模态中疾病的形态学和功能学表现，并介绍

在机器学习在病灶分割、组织运动追踪、血流性质推断等方面的研究工作。

讲者简介：高智凡，中山大学生物医学工程学院副教授，博士毕

业于中国科学院大学，博士后工作于加拿大西安大略大学。研究

方向是心脏心血管医学影像智能处理，论文入选 ESI 高被引论文

4 篇和 ESI 热点论文 1 篇，曾获吴文俊人工智能科学技术奖优秀

青年奖和中国科学院院长特别奖。目前担任中国超声医学工程学

会仪器工程开发专业委员会委员，医学图像国际会议 MICCAI 2022

的 Area Chair，人工智能国际会议 AAAI 2021、IJCAI 2021/2022

的 Program Committee Member。

俞江帆香港中文大学（深圳）

报告题目：生物医疗导向的微纳机器人集群

报告摘要：作为一项年轻的技术，微纳米机器人近年来在生物医疗等领域展现出了惊人的

潜力，它有能力在正常手段难以到达的狭小空间，包括生物体内发挥作用，尤其在无创或

是微创诊断和治疗方面有着庞大的应用前景。我们向自然界学习，实现了微纳米机器人的

集群驱动与控制，让大量纳米级载体可以像自然界的动物集群，如同鸟群、鱼群和蚂蚁

群落一样，形成一个动态的群体。我们利用动态自组装技术，将处于运动状态下的数百万

个磁性纳米颗粒组装成形态可控的微米级可变形机器人。通过施加不同的磁场，它们可以

以协同的方式向前运动，也可以根据指令改变群体形态，以通过狭窄区域。本报告中，将

主要关注集群微米机器人的生成与形变机理，并介绍这类微集群的生物医疗应用。

讲者简介：俞江帆博士是香港中文大学（深圳）助理教授、香港

中文大学（深圳）校长青年学者、深圳市人工智能与机器人研究

院（AIRS）院级项目负责人。他入选了 2021 年国家海外高层次青

年人才项目（海外），并担任中国微纳技术学会微纳米机器人分会

理事。在 2018 年获得香港中文大学博士学位，先后在香港中文大

学（2018-2019）和多伦多大学（2019-2020）作为博士后进行研

究工作。他的研究主要集中在微纳米机器人和医疗机器人领域，

包括其材料设计、基础理论建模、优化驱动控制、及对口生物医

学应用。俞教授至今发表了 40 余篇顶级期刊及会议文章，包括

Science Advances, Nature Communications、IJRR、T-Ro、T-Mech、

和 ACS Nano 等。他的数篇期刊论文被 ESI 收录为高引用论文，并

73

被 Science、Nature、CNN 等国际机构报导。俞教授获得了多个有影响力的奖项，包括百

度全球华人 AI 青年学者、吴文俊人工智能科技奖自然科学奖二等奖、福布斯中国 30 岁以

下精英榜、Nature Communications 物理学 50 强文章、T-Mech 最佳论文奖入围、香港青

年科学家入围名单等。目前主持国家基金委项目 2项，深圳市项目 1项。他担任 IEEE RA-L

的副编辑、Frontiers in Robotics and AI 的客座编辑，International Conference on

Ubiquitous Robots 2019、2021、2022 的副编辑，以及多个顶级期刊和会议的审稿人。

温泉中国科学技术大学

报告题目：Rapid detection and recognition of whole brain activity in a roaming

Caenorhabditis elegans报告摘要：Advanced volumetric imaging methods and genetically encoded activity

indicators have permitted a comprehensive characterization of whole brain

activity at single neuron resolution in Caenorhabditis elegans. The constant

motion and deformation of the nematode nervous system, however, impose a great

challenge for consistent identification of densely packed neurons in a behaving

animal. Here, we propose a cascade solution for long-term and rapid recognition

of head ganglion neurons in a freely moving C. elegans. First, potential neuronal

regions from a stack of fluorescence images are detected by a deep learning

algorithm. Second, 2-dimensional neuronal regions are fused into 3-dimensional

neuron entities. Third, by exploiting the neuronal density distribution

surrounding a neuron and relative positional information between neurons, a

multi-class artificial neural network transforms engineered neuronal feature

vectors into digital neuronal identities. With a small number of training samples,

our bottom-up approach is able to process each volume - 1024 1024 18 in voxels

- in less than 1 second and achieves an accuracy of 91% in neuronal detection and

80% in neuronal recognition for 140 neurons. Our work represents a step towards

rapid and fully automated algorithms for decoding whole brain activity underlying

naturalistic behaviors.

讲者简介：温泉，现任中国科学技术大学生命科学学院教授，博

士生导师。2001 年毕业于复旦大学物理系，获理学学士学位。2001

至 2007 年，在纽约州立石溪分校物理系和冷泉港实验室就读，并

获得物理学博士学位。2008 年在霍华德休斯医学研究所/詹宁斯农

场研究院 (Janelia Research Campus, HHMI)，2009 至 2014 年在

哈佛大学物理系和脑科学研究中心做博士后研究。

74

万亮天津大学报告题目：面向多模态 MRIs 的脑肿瘤分割及分类研究报告摘要：脑肿瘤是一种起源于颅腔的神经系统疾病，紧靠脑组织及中枢神经系统，因此较其他部位肿瘤严重。其中，脑胶质瘤是颅内最常见的恶性肿瘤，具有发病率高、复发率高、死亡率高及治愈率低的特点，需在保功能情况下尽可能最大化切除肿瘤；脑膜瘤是成

人最常见的原发性颅内肿瘤，不同等级的脑膜瘤应采用不同的临床治疗手段。为实现术前预测以提高临床治疗效果，医生通常使用不同序列采集的 MRIs 影像来进行相关的数据分析。本报告聚焦基于多模态 MRIs 脑部图像分析，介绍报告人近期所做的脑肿瘤分割、脑膜瘤及脑侵袭分类预测工作，并探讨开展临床研究的经验和体会。讲者简介：万亮教授，毕业于香港中文大学，博士后工作于香港城市大学，现为天津大学智能与计算学部教授、博士生导师，医学部副主任。她长期从事计算机图像图像处理领域研究，目前研究兴趣为图像质量增强、视频图像分析、以及医学图像处理等方面。在 IEEE TMM, IJCV，CVPR，ICCV，MICCAI 等计算机视觉及

医学图像处理领域的国际期刊及会议发表 50 余篇论文；担任国家重点研发计划“数字文化遗产安全保护与利用关键技术研究和示范”项目首席专家，完成中国工程科技发展战略天津研究院重点咨询研究项目《天津市智能医疗产业发展研究》。现为中国仪器仪表学会图像科学与工程分会理事。

Panel 嘉宾：

个人简介：李冠彬，中山大学计算机学院副教授，博士生导师，

中国计算机学会高级会员，2016 年获得香港大学博士学位。主要

研究领域包括计算机视觉与机器学习，主要致力于可解释、跨

领域、跨模态的视觉理解研究。迄今为止累计发表论文 100 余篇，

其中包含 CCF A 类/中科院一区论文 70 余篇，包括 TPAMI，IJCV，

TIP 等顶级期刊和 CVPR，ICCV，ECCV，ICML 等顶级学术会议，Google

Scholar 引用超过 6000 次。曾获得吴文俊人工智能优秀青年奖、

ICCV2019 最佳论文提名奖、ICMR2021 最佳海报论文奖、中国图象

图形学学会科学技术一等奖、ACM 中国新星提名奖、英伟达 AI 城

市挑战赛冠军等荣誉。主持了包括广东省杰出青年基金、国家自然科学基金面上项目、国

家自然科学基金青年项目、CCF-腾讯犀牛鸟科研基金、华为科研合作项目、美团北斗科研

课题合作基金等 10 多项科研项目。担任广州计算机学会副秘书长、CCF YOSCEF 广州 AC

委员、视觉与学习青年学者研讨会（VALSE）执行 AC 委员。

75

Workshop11: 视频行为理解

主席：王利民（南京大学），涂志刚（武汉大学），刘俊（新加坡科技设计大学）

时间：8月 24日（周三）08:30-12:15 地点：29号会议室


8:30-8:40

王利民

研讨会介绍

08:40-09:10 讲者：林巍峣（上海交通大学）

题目：基于少样本与多模态的视频行为理解与编码

09:10-09:40 讲者：王楠楠（西安电子科技大学）

题目：视频行为定位与识别

09:40-10:10涂志刚

讲者：高盛华（上海科技大学）

题目：序列动作视频和重复动作视频理解

10:10-10:40 讲者：吴祖煊（复旦大学）

题目：基于 Transformer的视频内容理解

10:40-10:50

刘俊

美团宣讲报告：

题目：美团的计算机视觉研究

宣讲人：揭泽群

10:50-11:20 讲者：王亚立（中国科学院深圳先进技术研究院）

题目：复杂视频表征学习与理解

11:20-12:15 Panel嘉宾：林巍峣，王楠楠，高盛华，吴祖煊，王亚立

76

林巍峣上海交通大学

报告题目：基于少样本与多模态的视频行为理解与编码

报告摘要：随着多媒体应用与服务的迅速发展，视频中的行为理解在大规模多媒体系统中

的应用日益重要，特别是在少样本及多模态的特殊场景下，如何实现高性能的视频行为理

解，具有广泛的应用需求。在本次报告中，我们将介绍我们课题组在少样本与多模态视频

行为理解的一些工作。首先，我们将介绍我们在少样本行为理解方面的工作，通过关键时

空区域选取与时空行为对齐，显著提升少样本行为识别的准确性。其次，我们将介绍多模

态联合视频理解的工作，通过音视频的联合分析，实现对多媒体信息中目标的精确定位和

分析。第三，我们还将介绍我们在行为语义信息压缩编码方面的工作，我们设计了面向视

频及语义的联合压缩编码架构，实现了显著的码率节省。最后，我们也将介绍一下我们的

工作在实际场景中的一些应用演示。

讲者简介：林巍峣，上海交通大学教授。分别于 2003 年和 2005

年获得上海交通大学学士和硕士学位，并于 2010 年获得美国华盛

顿大学西雅图分校获得博士学位。主要研究方向包括计算机视觉、

视觉监控、视频行为理解、视频及语义信息编码等。林博士现任

IEEE TIP, IEEE 等期刊编委及 AAAI、MM 等领域主席。在相关领

域共发表 IEEE Transactions 系列期刊及 CCF-A 类会议论文 40

余篇，获专利 20 项。

王楠楠西安电子科技大学

报告题目：视频行为定位与识别

报告摘要：视频行为定位是视频理解领域的一项重要任务，旨在从未剪辑的长视频中找到

存在指定行为的视频片段。本次报告将从全监督、弱监督以及基于文本查询的行为定位三

个子任务对该方向主要研究问题和技术方法进行阐述，回顾相关领域发展阶段。并针对行

为定位标注成本大、动作类别定义不全面等问题，具体介绍实验室近年来在弱监督和基于

本文查询背景下的一系列代表性工作，促进行为定位技术落地实际应用。

讲者简介：王楠楠教授，毕业于西安电子科技大学，现为西安电

子科技大学综合业务网理论及关键技术国家重点实验室教授、博

士生导师。他长期从事计算机视觉和统计机器学习方面的研究，

在 IEEE TPAMI、IJCV、CVPR、ICCV、ECCV、NeurIPS、ICML 等国

际顶级期刊和会议上发表学术论文 150 余篇，获得国家自然科学

基金委优秀青年基金，入选中国科协青年人才托举工程，获教育

部自然科学一等奖、陕西省科学技术一等奖、中国图象图形学学

会自然科学奖二等奖、中国人工智能学会优秀博士学位论文、陕

西省优秀博士学位论文奖等奖项。

77

高盛华上海科技大学

报告题目：序列动作视频和重复动作视频理解

报告摘要：视频分类对整段视频整体打标签，缺乏对细粒度动作的刻画。而动作定位仅能

对已经见过的动作进行定位。两个视频任务均对未见过的种类的动作缺乏刻画。在实际生

活中，存在序列动作视频以及重复动作视频。对于序列动作，例如示范性动作教学视频，

需要比较学生是否符合标准规范，因此我们提出序列动作视频认证的任务并设计相应的算

法。我们的算法可以对于未见过的动作序列的具有一定的泛化性能。对于重复性动作，我

们研究重复动作的视频计数，也可以泛化到新的动作上。大量实

验验证我们算法的有效性。

讲者简介：高盛华，上海科技大学研究员，入选国家海外高水平

人才计划青年项目。研究方向涵盖图像和视频的理解和三维重建。

本科毕业于中国科学技术大学。博士毕业于新加坡南洋理工大学。

随后在伊利诺伊大学新加坡高等研究院做研究科学家。2014 年加

入上海科技大学信息学院。迄今为止，在计算机视觉领域顶级会

议和期刊发表 120 余篇，总引用次数 9400 余次。他十余次担任

ICCV/CVPR/AAAI 等国际顶级会议的领域主席，计算机视觉领域期

刊 IEEE TCSVT 和 Neurocomputing 的副主编等。主持/参与国家自

然科学基金重点项目、面上项目、科技部重点项目等十余项。

吴祖煊复旦大学

报告题目：基于 Transformer 的视频内容理解

报告摘要：Transformer 在图像识别、物体检测、语义分割等多个图像任务上取得了显著

进展，但其在视频任务中的使用仍处于初步阶段。一方面，视频内容丰富多样，如何基于

Transformer 模型并结合 BERT 训练范式对视频的时空信息建模以学习得到适用于视频理

解的特征值得深入研究；另一方面，视频中冗余信息较多，传统视频识别模型对所有的输

入样本分配相同的计算资源，忽略了不同样本之间所含视觉内容的差异性，如何根据输入

样本动态调整计算资源以实现快速的视频理解对模型在真实世界中的部署有着重要意义。

本报告将介绍基于 Transformer 的视频内容理解，具体包括高效视频特征学习及动态视频

识别。

讲者简介：吴祖煊，复旦大学计算机科学技术学院副研究员。2020

年在美国马里兰大学获得博士学位。主要研究方向为计算机视觉、

深度学习与多媒体内容分析。获得 2022 年 AI 2000 最具影响力学

者奖、2019 年微软博士奖学金(全球 10 人)、2017 年 Snap 博士奖

学金(全球 10 人)。带领团队在多项国际比赛中名列前茅，如 2018

年阿里巴巴 FashionAI 全球挑战赛服饰关键点定位第四名、2017

年谷歌 YouTube 视频识别比赛、2014 年 ICME 华为手机视频识别

大赛等。担任国际知名期刊审稿人、国际会议程序委员会委员。

78

王亚立中国科学院深圳先进技术研究院

报告题目：复杂视频表征学习与理解

报告摘要：复杂视频表征学习与理解是计算机视觉研究的一个重要问题，在智慧城市、智

能机器人等领域有着广泛的应用前景。然而，区别于静态图片，视频包含了丰富而复杂的

动态信息。虽然以深度学习为代表的人工智能方法推动了图像感知的快速发展，但是对复

杂时空信息的建模与分析仍有待提高。因此，如何构建鲁棒高效的时空表征模型，实现复

杂目标的动态理解，是当前视频研究的核心问题之一。在本次报告中，我将围绕这一主题，

分别从视频表征建模、复杂目标理解等方面介绍团队的一系列近期工作，为缓解真实场景

下视频表征通用性低、目标语义解析差等问题提供新思路。

讲者简介：王亚立，中国科学院深圳先进技术研究院，副研究员，

博士生导师。中国科学院青年创新促进会成员、深圳市孔雀人才、

后备级人才、领航人才。重点从事深度学习与计算机视觉、模式

识别与机器学习等人工智能前沿研究。在 CVPR、ICCV、ECCV、ICLR、

NeurIPS、ICML、AAAI 等相关领域顶级刊物发表高水平论文近 50

篇，包括 9 篇 Oral 论文。获得广东省技术发明一等奖、吴文俊人

工智能科技进步二等奖、深圳市科技进步奖二等奖。获得加拿大

FRQNT 国际奖学金、腾讯 AI Lab 犀牛鸟基金、国家留学基金委公

派留学奖学金等奖励。

79

Workshop 12: 针对弱监督数据的鲁棒学习方法

主席：孟德宇（西安交通大学），胡清华（天津大学），张鼎文（西北工业大学）

8月 24日（周三）08:30-12:15 地点：30号会议室


8:30-8:40

孟德宇

研讨会介绍

08:40-09:10讲者：左旺孟（哈尔滨工业大学）

题目：小样本 Transformer分类和小样本图像生成

09:10-09:40讲者：张兆翔（中国科学院自动化研究）

题目：少标注下的视觉场景感知模型学习

09:40-10:10

胡清华

讲者：龙明盛（清华大学）

题目：预训练模型的高效迁移学习

10:10-10:40 讲者：朱鹏飞（天津大学）

题目：基于伪标签的弱半监督学习

10:40-10:50 中场休息

10:50-11:20张鼎文

讲者：曹相湧（西安交通大学）

题目：基于噪声标签矫正的高光谱图像分类算法

11:20-12:15 Panel嘉宾：左旺孟，张兆翔，龙明盛，朱鹏飞，曹相湧

80

左旺孟哈尔滨工业大学

报告题目：小样本 Transformer 分类和小样本图像生成

报告摘要：Transformer 和生成对抗网络往往需要大量的训练样本，而许多实际应用中又

往往需要基于少量训练样本实现 Transformer 和生成对抗网络的高效学习。报告主要介绍

我们近期在小样本图像分类和图像生成方面的一些工作。针对当前 Transformer 网络在数

据稀缺小样本学习中的存在的问题与不足，通过引入空域一致增广和局部监督，提出了一

种自促进监督学习方法，使得 Transformer 在小样本学习上取得了优于 CNN 的分类性能。

进而，从生成网络适应的忠实性和生成结果的多样性角度出发，介绍了我们在小样本生成

式领域自适应的研究工作。

讲者简介：左旺孟，哈尔滨工业大学计算机学院教授、博士生导

师。主要从事图像增强与复原、图像编辑与生成、物体检测与目

标跟踪、图像与视频分类等方面的研究。在 CVPR/ICCV/ECCV 等顶

级会议和 T-PAMI、IJCV 及 IEEE Trans.等期刊上发表论文 100 余

篇。曾任 ICCV2019、CVPR2020/2021 等 CCF-A 类会议领域主席，

现任 IEEE T-PAMI 和 T-IP 等期刊编委。

张兆翔中国科学院自动化研究所

报告题目：少标注下的视觉场景感知模型学习

报告摘要：视觉场景感知是计算机视觉中一种基本而重要的任务，包括对目标的识别、检

测、分割等。传统上该任务需要大量的数据进行模型训练，带来高昂的经济、时间成本。

本次报告主要介绍我们近期在少标注条件下的视觉场景感知模型学习方面的尝试和进展，

探讨如何在弱监督、无监督、域自适应等不同范式数据下实现高性能的感知模型训练。

讲者简介：张兆翔，博士，研究员，博士生导师，中国科学院

自动化研究所研究员，中国科学院大学岗位教授，中国科学院脑

科学与智能技术卓越创新中心骨干，香港理工大学兼职教授。入

选“教育部 CJ 学者奖励计划”、“国家万人计划青年拔尖人才”。

研究兴趣包括：模式识别、计算机视觉与深度学习，具体研究方

向包括：视觉认知计算、类脑学习和面向开放环境的视觉感知与

理解，在本领域国际主流期刊与会议上发表论文 200 余篇，近五

年来在 IEEE T-PAMI、IJCV、JMLR、IEEE T-IP、IEEE T-NN 等顶

级期刊与 CVPR、ICCV、ECCV、NIPS、AAAI、IJCAI 等顶级会议发

表论文 100 余篇，授权专利 20 余项，承担了国家自然科学基金重

点项目、国家自然科学基金企业联合重点项目、国家重点研发项

目、总装备部重点项目等多项国家级科研项目。张兆翔博士是

IEEE 高级会员，VALSE 常务 AC，中国计算机学会 CCF 杰出会员、中国人工智能学会 CAAI

杰出会员、中国人工智能学会 CAAI 副秘书长，是或曾是 IEEE T-CSVT、Patten Recognition、

NeuroComputing 编委，担任 CVPR、ICCV、AAAI、IJCAI、ACM MM、ICPR、ACCV 等国际会议

的领域主席（Area Chair）。

81

龙明盛清华大学

报告题目：预训练模型的高效迁移学习

报告摘要：预训练模型是从大规模数据上学习得到的深度神经网络，是深度学习领域的重

要进展之一，也是实现一般性任务迁移学习的基础。我们注意到，预训练模型在迁移学习

过程中存在着数据效率低、知识利用率低、灾难性遗忘严重等基本难题。本报告将介绍我

们在预训练模型的高效迁移学习方面的工作，包括预训练模型迁移性评价、模型库自适应

迁移、预训练模型安全微调学习等通用算法。

讲者简介：龙明盛，清华大学软件学院长聘副教授，国家优秀青

年科学基金获得者，入选北京市科技新星。主要研究领域为机器

学习理论与算法，专注于迁移学习、深度学习、知识学习及在人

工智能和工业软件中的应用。以第一 / 通讯作者发表

JMLR/ICML/NIPS/ICLR 论文 30 余篇，谷歌引用 18000 余次，单篇

最高引用 3000 余次，三篇论文入选 ICML/NIPS 最具影响力论文。

担任 ICML/NIPS/ICLR 领域主席，TPAMI/TMLR 编委。获中国人工

智能学会优秀博士学位论文奖、教育部技术发明一等奖、北京市

科技进步一等奖、IJCAI 研讨会时间检验奖、AI 2000 机器学习领

域高影响力学者奖等荣誉。

朱鹏飞天津大学

报告题目：基于伪标签的弱半监督学习

报告摘要：在线伪标签训练是弱监督和半监督学习任务中增强监督信息的一种有效手段，

但伪标签噪声和错误累积降低了模型的泛化性和鲁棒性。如何生成和优化无标记数据的伪

标签是基于伪标签的弱监督学习的关键。本报告将分享团队提出的自监督低秩表示、动态

样本加权、协同表示学习方面的相关工作，并介绍其在图像和图

数据中的应用。

讲者简介：朱鹏飞，天津大学副教授，博士生导师，2015 年于香

港理工大学获得博士学位。主要研究方向是高维异构数据表示学

习，已发表 CCF A 类和 IEEE 汇刊论文 40 余篇，谷歌学术引用 4500

余次。获 IEEE ICME2021 最佳论文奖、CVPR2020 最有影响力 15

篇论文、吴文俊人工智能优秀青年奖、黑龙江省自然科学一等奖

等奖励。参与制定人工智能领域团体标准 13 项。入选 2019 年度

天津市青年人才托举工程以及 2020 年度天津市创新人才推进计

划青年科技优秀人才。构建大规模无人机视觉数据平台 VisDrone，

担任 ECCV2018、ICCV2019、ECCV2020、ICCV2021 无人机视觉研讨

会和竞赛负责人。

82

曹相湧西安交通大学

报告题目：基于噪声标签矫正的高光谱图像分类算法

报告摘要：高光谱图像同时捕获了地面的空间信息和物质的光谱信息，具有“图谱合一”

的特点，因而被广泛应用于农业、军事等领域。但由于复杂地形易误标等原因，高光谱图

像的像元标签普遍含有标签噪声，严重影响了分类效果。基于训练集中存在可信数据的假

设，我们从构建新的可信集入手，提出一种基于标签传播的噪声标签校正算法，该方法旨

在保留已知的可信集，并从不可信集中抽取部分数据作为它的补

充。具体来讲，首先使用损失校正方法估计出类间转移概率矩阵，

然后借助条件概率公式计算出不可信集中干净标签的比例，之后

基于该比例补充可信数据，最后用新的可信集进行多次标签传播，

从而获取校正后的标签。在一些高光谱图像数据集上进行模拟实

验，实验结果表明：当噪声率较高时，所提方法比传统的标签传

播算法效果更优。

讲者简介：曹相湧，西安交通大学计算机学院副教授、硕士生导

师。主要从事图像复原、图像融合、图像分类等方面的研究。在

CVPR/ICCV等顶级会议和IEEE Trans.等期刊上发表论文30余篇，

多篇期刊文章入选 ESI 高被引论文，担任

TPAMI/IJCV/TIP/CVPR/ICCV/ECCV/UAI 等会议和期刊审稿人。

83

Workshop 13: 计算机视觉与工业应用

主席：周瑜（华中科技大学），郭晓杰（天津大学），刘枢（思谋科技）

时间：8月 24日（周三）08:30-12:15 地点：32号会议室


8:30-8:40

周瑜

研讨会介绍

08:40-09:05 讲者：贾奎（华南理工大学）

题目：视觉三维感知中的数据域适应问题

09:05-09:30 讲者：徐明亮（郑州大学）

题目：工业智能质检技术与应用

09:30-09:55

郭晓杰

讲者：李冠彬（中山大学）

题目：面向非完美半监督学习的视觉识别方法

09:55-10:20 讲者：张晓鹏（华为）

题目：视觉预训练模型进展及在工业视觉应用

10:20-10:30腾讯优图宣讲报告：

题目：腾讯优图实验室工业 AI近期成果分享

宣讲人：龚星

10:30-10:55

刘枢

讲者：张胜森（精测电子）

题目：无监督异常检测在工业视觉检测的应用

10:55-11:20 讲者：姚恒志（思谋科技）

题目：计算机视觉与工业应用

11:20-12:15 Panel嘉宾：贾奎，徐明亮，李冠彬，张晓鹏，张胜森，姚恒志

84

贾奎华南理工大学

报告题目：视觉三维感知中的数据域适应问题

报告摘要：视觉三维感知在机器人、无人驾驶、增强现实等领域有重要的应用价值，近年

来学术及工业界提出了用于分类、分割、姿态估计等任务的代表性三维感知方法；然而，

制约这些方法的一个主要瓶颈是三维数据的获取及标注困难。本报告首先汇报我们在基础

深度三维感知模型方面的最新研究进展；为解决海量训练数据缺失问题，本报告进而介绍

我们在真实三维大规模数据集采集，以及通过仿真三维传感器实现逼真三维数据合成方面

的最新进展，其中重点介绍以数据预适应的方式缓解从仿真到真实数据的统计分步偏差问

题。报告最后讨论相关研究进展在工业场景中的潜在应用。

讲者简介：贾奎，华南理工大学教授，广东省“珠江人才计划”

创新创业团队带头人。曾先后于中科院深圳先进技术研究院、香

港中文大学、伊利诺伊大学香槟分校先进数字科学研究中心、及

澳门大学从事教学和科研工作。研究领域包括计算机视觉、机器

学习、模式识别等，近年来主要侧重于深度学习的基础理论和优

化算法研究，及其在二维流形、离散点云等非欧数据上的应用。

成果发表于 TPAMI/CVPR/ICML/NeurIPS 等顶级期刊和会议，入围

CVPR 最佳论文候选，获 ICDP2005 最佳论文奖。担任 TIP 等期刊

副主编及 NeurIPS 等会议领域主席。

徐明亮郑州大学

报告题目：工业智能质检技术与应用

报告摘要：没有质量强国，不可能实现制造强国。工业智能质检技术与装备在保障制造业

高质量发展中发挥着不可替代的关键作用，体现了国家战略与技术融合的双重叠加效应。

报告围绕工业智能质检技术的产业化应用落地实践，从背景与国家需求、实验床科学装置、

关键技术与进展三方面汇报团队近年来的相关工作。

讲者简介：徐明亮，郑州大学计算机与人工智能学院教授、博士

生导师、副院长，国家优秀青年基金获得者，河南省大数据管理

局首席专家，郑州大学河南省大数据智能技术工程研究中心主任，

ACM SIGAI China 副秘书长，中国图象图形学会理事，嵩山智库高

级研究员，ICVRV 2017、ACM SIGAI CHINA Symposium 2017、ChinaVR

2019、CAD/CG 2020 等国内外重要学术会议程序主席，Journal of

Visual Languages and Computing、Neurocomputing、Frontiers

of Computer Science 等重要国际 SCI 期刊编委。在 IEEE TPAMI、

IEEE TIP、IEEE TMM、IEEE TVCG、ACM TOG、ACM TIST、CVPR、

ICCV、IJCAI 等国际重要期刊和会议上发表论文 80 余篇，论文被

引用 1150 余次、获国家发明专利 5件。他主持和参与制定 3 项国

家与行业标准，主持编制人工智能、虚拟现实等领域省级以上产业发展规划与实施政策 5

项。他将理论与应用紧密结合，注重产业应用和军民融合，在群体行为大数据分析、大规

模群体行为仿真、工业表面缺陷检测等方面取得一定研究进展，研制多套国家急需的装备

与系统，产生了较好的社会、经济和国防效益。

85

李冠彬中山大学

报告题目：面向非完美半监督学习的视觉识别方法

报告摘要：半监督深度学习模型旨在研究有效利用海量未标注的数据，协助少量已标注数

据对现有模型进行升级，提升模型的识别性能和泛化性能的方法。已有的半监督学习方法

通常约定有标注和未标注训练数据来自同一个大数据集，即符合闭合场景假设。然而，实

际开放应用环境中未标注数据可能来源于新的场景、包含未知的类别或类别样本分布不均

衡等困难情形。在本次报告中，我将主要介绍我们最近在半监督、领域自适应及开集半监

督学习方法上的一些研究成果与思考，并与大家共同探讨开放场景半监督学习中仍亟待解

决的关键问题和未来可能的研究思路。

讲者简介：李冠彬，中山大学计算机学院副教授，博士生导师，

中国计算机学会高级会员，2016 年获得香港大学博士学位。主要

研究领域包括计算机视觉与机器学习，主要致力于可解释、跨领

域、跨模态的视觉理解研究。迄今为止累计发表论文 100 余篇，

其中包含 CCF A 类/中科院一区论文 70 余篇，包括 TPAMI，IJCV，

TIP 等顶级期刊和 CVPR，ICCV，ECCV，ICML 等顶级学术会议，Google

Scholar 引用超过 6000 次。曾获得吴文俊人工智能优秀青年奖、

ICCV2019 最佳论文提名奖、ICMR2021 最佳海报论文奖、中国图象

图形学学会科学技术一等奖、ACM 中国新星提名奖、英伟达 AI 城

市挑战赛冠军等荣誉。主持了包括广东省杰出青年基金、国家自

然科学基金面上项目、国家自然科学基金青年项目、CCF-腾讯犀牛鸟科研基金、华为科研

合作项目、美团北斗科研课题合作基金等 10 多项科研项目。担任广州计算机学会副秘书

长、CCF YOSCEF 广州 AC 委员、视觉与学习青年学者研讨会（VALSE）执行 AC 委员。

张晓鹏华为

报告题目：视觉预训练模型进展及在工业视觉应用

报告摘要：随着工业生产越来越强调智能化，大量传统行业开始积累领域数据，并寻求人

工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。然而以通用自然场景为基

础构建的模型与特定行业领域存在表征差异难题，这给模型训练，调试以及高效迭代带来

困难，算法开发的通用性和易用性受到挑战。本次报告中，我将分享团队在视觉预训练领

域的最新研究工作，包括如何利用无标注/弱标注数据构建高效，结构化的通用预训练模

型，以此为技术原型，我们创造性的提出了层次化的开发方案，即以通用预训练模型为基

础，结合行业先验构建行业预训练模型，并结合自动化工作流实现高效部署，同时讲述在

实际开发过程中如何高效解决模型迭代，动态部署等难题，并分享几个典型工业视觉缺陷

检测场景的应用。

讲者简介：张晓鹏，华为云 EI 高级研究员，上海交通大学博士，

新加坡国立大学博士后。2019 年加入华为，研究领域包括大规模

视觉模型训练，半监督学习以及自监督学习，目前在华为云主导

大规模预训练模型相关算法和产品落地。在 CVPR、ECCV、ICLR、

TPAMI 等国际顶级期刊和学术会议发表论文 30 余篇，授权专利

20 余项，获得多个视觉相关挑战赛冠军，包括 2020 年 WebVison

挑战赛冠军、2020 NuScenes 3D 检测挑战赛冠军、2020 LVIS 长

尾分布实例分割最佳创新奖等，曾获 2014 年视觉通信与图像处理

（VCIP）会议最佳学生论文奖以及 2018 年中国图象图形学会优秀

博士论文奖。

86

张胜森精测电子

报告题目：无监督异常检测在工业视觉检测的应用

报告摘要：基于深度学习的工业视觉检测是一个典型的任务，各种基于监督学习的检测、

分类、分割方法被广泛的应用在各种场景的缺陷检测任务中。但是由于工业视觉检测存在

被测物多样，异常数据收集和标注困难，新产品/新机种适配时间短、检出规格动态变更

等特点，导致监督学习在应用过程中存在诸多问题。这些问题极大的提高了深度学习在工

业视觉检测的应用成本。本次报告将介绍工业视觉检测应用的难点与客户应用的核心需求

点，以及针对该问题我们团队自主研发的端到端的工业视觉检测平台。同时报告将介绍如

何利用无监督/自监督检测技术来克服监督学习存在的诸多问题，提高 10 倍以上的应用效

率，使得新产品/新机种的模型准备时间从一周以上降低至 1 一天以内，甚至几个小时，

实现工业视觉检测在半导体和显示领域的快速应用。

讲者简介：张胜森，精测电子高级算法研究员。主要聚焦于工业

缺陷检测领域，有十年以上的工业视觉应用落地的经验，先后以

第一作者发表专利 30 余篇，参与完成过多项省市的人工智能和智

能制造科技项目。曾负责开发的显示屏(LCD/OLED)的显示缺陷检

测算法和外观缺陷检测系统在京东方、华星光电、维信诺等工厂

达到了批量的应用。曾负责开发的 Wafer 缺陷检测系统在三安光

电、华灿光电等工厂达到了批量应用。搭建的自动化工业视觉检

测平台在半导体/新能源/显示等多个工业领域落地应用，极大的

降低了 AI 在工业应用的周期和门槛。

姚恒志思谋科技

报告题目：计算机视觉与工业应用

报告摘要：工业制造中，存在哪些计算机视觉问题，是企业愿意投入资金解决的？报告首

先阐明制造业中与计算机视觉相关的痛点问题、产生原因、企业付出的成本。以及，针对

制造业视觉项目中需求多样、成像困难、数据获取困难、精度要求极高、维护周期长等特

点，思谋构建的配套团队。报告总结了消费电子、汽车零部件制造、集成电路、新能源、

道路养护、光学镜片等多个行业的典型计算机视觉诉求。阐述主流计算机视觉研究方向和

工业落地之间的差异；以及，思谋在批量落地的视觉项目中帮助企业优化成本、品控、生

产效能方面可量化的贡献。最后介绍思谋在标准化产品、行业解决方案上的一些实践。

讲者简介：姚恒志，视觉算法工程师，思谋科技算法主管，聚焦

工业视觉应用。5+年视觉算法产业落地应用经验。30+批量应用工

业项目算法负责人；批量应用行业包含：消费电子、汽车零部件

制造、动力电池、光学镜片等。服务客户包含：空中客车、上汽、

东风、卡尔蔡司、赣锋锂业、舍弗勒、闻泰科技、立讯精密等多

家行业内龙头企业。曾负责消费者场景日活白万级服务 OCR，具有

丰富的工业一线客户需求挖掘、梳理、提炼、算法选型、项目管

理经验。熟悉工业场景客户对计算机视觉算法的诉求、顾虑。

87

Workshop 14: 视觉预训练

主席：曹越（微软亚洲研究院），黄高（清华大学）

时间：8 月 24日（周三）13:30-17:15 地点：27号会议室


13:30-13:40

曹越

研讨会介绍

13:40-14:05讲者：王井东（百度）

题目：Context Autoencoder for Scalable Self-Supervised RepresentationPretraining

14:05-14:30讲者：解振达（清华大学）

题目：自监督预训练之图像掩码预测：方法、机理与数据可扩展性

14:30-14:55讲者：张祥雨（旷视科技）

题目：理解Masked Image Modeling：现状与挑战

14:55-15:20 讲者：董力（微软亚洲研究院）

题目：Generative Pretraining of Image and Multimodal Transformers

15:20-15:30

黄高

腾讯 ARC 宣讲报告：

题目：腾讯 ARC：算法实践的沃土

宣讲人：葛艺潇

15:30-15:55 讲者：刘知远（清华大学）

题目：Delta Tuning：大模型的小参数高效微调

15:55-16:20 讲者：谢凌曦（华为）

题目：语言引导的视觉预训练&语言驱动的按需视觉识别

16:20-16:45 讲者：朱锡洲（商汤科技）题目：视觉感知的自监督与多模态多任务预训练

16:45-17:15Panel嘉宾：王井东，解振达，张祥雨，董力，刘知远，谢凌曦，朱

锡洲

88

王井东百度

报告题目：Context Autoencoder for Scalable Self-Supervised Representation

Pretraining

报告摘要：Self-supervised representation pretraining aims to learn an encoder from

unlabeled images, such that the encoded representations take on semantics and

benefit downstream tasks. In this talk, I present a novel masked image modeling

approach, context autoencoder (CAE), for scalable self-supervised representation

training. The core ideas include that predictions are made in the latent

representation space from visible patches to masked patches and that the encoder

is only for representation learning and representation learning is only by the

encoder. I also discuss why masked image modeling potentially outperforms

contrastive pretraining (e.g., SimCLR, MoCo) and why contrastive learning

performs on par with supervised pretraining on ImageNet. In addition, I show that

linear probing and the extended version, attentive probing, are more suitable than

fine-tuning on ImageNet for pretraining evaluation.

讲者简介：Jingdong Wang is a Chief Scientist for computer

vision with the Artificial Intelligence Group at Baidu. His

team is focusing on conducting product-driven and

cutting-edge computer vision/deep learning/AI research and

developing practical computer vision applications. Before

joining Baidu, he was a Senior Principal Researcher at

Microsoft Research Asia. His areas of interest are computer

vision, deep learning, and multimedia search. His

representative works include deep high-resolution network (HRNet),

discriminative regional feature integration (DRFI) for supervised saliency

detection, neighborhood graph search (NGS, SPTAG) for large scale similarity

search. He has been serving/served as an Associate Editor of IEEE TPAMI, IJCV,

IEEE TMM, and IEEE TCSVT, and an area chair of leading conferences in vision,

multimedia, and AI, such as CVPR, ICCV, ECCV, ACM MM, IJCAI, and AAAI. He was

elected as an ACM Distinguished Member, a Fellow of IAPR, and a Fellow of IEEE,

for his contributions to visual content understanding and retrieval.

解振达清华大学

报告题目：自监督预训练之图像掩码预测：方法、机理与数据可扩展性

报告摘要：人工智能领域的发展是一个关于走向统一的故事，2018 年 BERT 的出现使得掩

码预测任务作为自监督预训练席卷自然语言处理领域，近期，图像掩码预测任务（Masked

Image Modeling, 简称 MIM）在视觉学习中被逐渐发掘出潜力，这也使得计算机视觉与自

然语言两个领域进一步走向统一。在本次报告中，将从三个方面介绍对于图像掩码预测作

为自监督预训练任务的研究：如何设计一种简单而有效的图像掩码预测方法；如何理解图

像掩码预测有效性背后的机理；图像掩码预测方法是否具有数据的可扩展性。

89

讲者简介：解振达，清华大学与微软亚洲研究院联合培养博士生，

2018 年本科毕业于中国科学技术大学。目前的主要研究方向为视

觉自监督学习与预训练，代表性工作包括像素级别对比学习框架

PixPro 和掩码视觉建模框架 SimMIM，至今已在 CVPR、ECCV、

NeurIPS 等国际顶级会议上发表多篇论文，并多次担任 CVPR、ICCV、

ECCV 等会议的审稿人。

张祥雨旷视科技

报告题目：理解 Masked Image Modeling：现状与挑战

报告摘要：近期，得益于 Vision Transformers 在视觉领域的广泛应用，掩码图像建模

（Masked Image Modeling，MIM）迅速成为当下最流行的视觉自监督学习框架之一，受到

了学术界的广泛关注。如何理解 MIM 的学习机理，尤其是如何看待 MIM 和对比学习

（Contrastive Learning）的联系和区别，是当下十分重要的课题。本次报告介绍了一种

新的视角，从学习不变性的角度来统一理解和解释 MIM 和 Contrastive Learning。此外对

于 MIM 特有的优势、能力边界和局限性也提出了一些思考。

讲者简介：张祥雨，现任旷视研究院基础模型组负责人。2017 年

博士毕业于西安交通大学，期间参加微软亚洲研究院联合培养博

士生项目，师从孙剑博士和何恺明博士。研究方向包括深度卷积

网络设计，深度模型的裁剪与加速等。曾在 CVPR/ ICCV/ ECCV/

TPAMI 等顶级会议期刊上发表论文五十余篇，获 CVPR 2016 最佳

论文奖，并多次获得顶级视觉竞赛如 ImageNet/ COCO 冠军。代

表作包括业界广泛使用的神经网络架构 ResNets/ ShuffleNets/

RepVGG 系列，神经网络架构搜索算法 SPOS，模型压缩裁剪算法

CP/ MetaPruning 等。Google Scholar 引用数 170,000+。入选福

布斯中国 U30 和 AI 2000 计算机视觉全球最具影响力学者榜单、

智源青年科学家。

董力微软亚洲研究院

报告题目：Generative Pretraining of Image and Multimodal Transformers

报告摘要：Empirical studies show that vision Transformers require more training

data than convolutional neural networks. To solve the data-hungry issue,

self-supervised pre-training is a promising solution to leverage large-scale data.

Several strands of methods have been explored for vision Transformers, such as

contrastive learning, and self-distillation. We propose a generative pre-training

90

task, namely, masked image modeling, i.e., using the denoising auto-encoding idea

to pretrain vision Transformers. After pre-training, we directly fine-tune the

model parameters on downstream tasks by appending task layers upon the pretrained

encoder. Moreover, we extend the framework to vision-language pretraining, so that

the model can be learned from scratch with one unified pretraining task, one shared

backbone, and one-stage training. We believe that generative pretraining is a

promising path to reach the BERT moment of CV.

讲者简介：董力，微软亚洲研究院自然语言处理组研究员，博士

毕业于爱丁堡大学。现主要从事大规模预训练的相关研究工作。

曾获得 AAAI-2021 Best Paper Runner Up、2019 AAAI/ACM SIGAI

Doctoral Dissertation Award Runner Up、ACL-2018 Best Paper

Honourable Mention，并多次担任 ACL、EMNLP、NAACL 等会议领

域主席。

刘知远清华大学

报告题目：Delta Tuning：大模型的小参数高效微调

报告摘要：近年来深度学习成为自然语言处理关键技术，特别是 2018 年以来的预训练语

言模型，显著提升了自然语言处理整体性能。如何更好地激发大规模预训练模型在下游任

务上的效果，是广泛关注的研究课题。但是，随着模型规模增大，如何微调大模型参数适

配下游任务，变得越来越困难。最近，参数高效微调（Parameter-Efficient Learning，

或者 Delta Tuning）通过固定大模型参数不动，只微调非常少的参数（Delta），就可以

达到与全参数微调相当的效果，取得了很多突破性进展。本报告将介绍大模型的小参数高

效微调方法、前沿动态以及未来展望。

讲者简介：刘知远，清华大学计算机系副教授、博士生导师。主

要研究方向为自然语言处理、知识图谱和社会计算。2011 年获得

清华大学博士学位，已在 ACL、EMNLP、IJCAI、AAAI 等人工智能

领域的著名国际期刊和会议发表相关论文 100 余篇，Google

Scholar 统计引用超过 2 万次。曾获教育部自然科学一等奖（第 2

完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等

奖（第 2 完成人）、中国中文信息学会汉王青年创新奖，入选国家

万人计划青年拔尖人才、北京智源研究院青年科学家、2020 年

Elsevier 中国高被引学者、《麻省理工科技评论》中国区 35 岁以

下科技创新 35 人榜单、中国科协青年人才托举工程。担任中文信

息学会青年工作委员会主任，中文信息学会社会媒体处理专委会秘书长，期刊 AI Open 副

主编，ACL、EMNLP、WWW、CIKM、COLING 领域主席。

91

谢凌曦华为

报告题目：语言引导的视觉预训练&语言驱动的按需视觉识别

报告摘要：近年来，视觉预训练算法取得了长足进步，预训练模型也在许多识别任务中展

现出良好效果。与此同时，业界也充分认识到了当前视觉预训练和识别算法所存在的瓶颈，

特别是盲目跟随自然语言处理的发展局限性。本报告将从视觉识别和自然语言理解的差异

出发，阐述视觉识别所面临的三大挑战，以及与之对应的多层级解决方案。在此基础上，

我们介绍两个最近的研究工作，即“语言引导的视觉预训练”和“语言驱动的按需视觉识

别”，以期更加清晰地揭示自然语言理解在视觉识别中发挥的作用。

讲者简介：谢凌曦博士目前是华为云高级研究员。他分别于 2010

年和 2015 年于清华大学获得本科和博士学位，并且于 2015 年至

2019 年期间在美国加州大学洛杉矶分校和约翰霍普金斯大学担

任博士后研究员。谢凌曦博士的研究兴趣覆盖计算机视觉的各个

方向，主要包括统计学习方法和深度学习模型的应用。他的研究

工作覆盖图像分类、物体检测、语义分割和其他视觉任务，并积

极推动自动机器学习算法在上述领域的应用。谢凌曦博士已经在

国际顶级的学术会议和期刊上发表超过 70 篇论文。他于 2015 年

获得清华大学优秀博士论文奖，并于 ICMR2015 会议上获得最佳论

文奖。

朱锡洲商汤科技

报告题目：视觉感知的自监督与多模态多任务预训练

报告摘要：自监督预训练在无需人工标注的情况下展示出了强大的视觉感知能力，其中图

像间自监督更关注于语义感知，图像内自监督更关注于空间感知，如何统一这些自监督预

训练是目前迫在眉睫的问题。而另一方面，充分利用各类多模态多任务的标注数据进行联

合预训练也有着强大的潜力。在本次报告中，我将介绍我们在视觉感知预训练方面一系列

的探索工作，包括 1）UniGrad 首次从梯度角度统一各式图像间自监督预训练（包括对比

学习、非对称网络和特征解耦方法），2）SIM 首次统一了图像间和图像内的自监督预训练，

使其兼顾语义对齐能力和空间分辨能力，3）Uni-Perceiver(-MoE) 基于多模态多任务的

监督学习探索了通用感知预训练。

讲者简介：朱锡洲，商汤科技研究院资深算法研究员。2015 年本

科毕业于中国科学技术大学。2020 年博士毕业于中国科学技术大

学-微软亚洲研究院联合培养博士生项目。研究方向主要为图像和

视频中的物体检测、多模态多任务通用感知模型、视觉自监督与

弱监督预训练等。以第一作者在 CVPR、ECCV、ICLR 等国际顶级会

议上发表论文 10 余篇。2018 年获微软学者奖学金。所提出的

Deformable ConvNets v2 与 Deformable DETR 已成为目标检测领

域的代表性工作。

92

Workshop 15：具身智能

主席：刘偲（北京航空航天大学），吴琦（阿德莱德大学），弋力（清华大学）

时间：8 月 24日（周三）13:30-17:15 地点：28号会议室


13:30-13:40

刘偲

研讨会介绍

13:40-14:10 讲者：卢策吾（上海交通大学）

题目：行为具身智能

14:10-14:40 讲者：王鹤（北京大学）

题目：以仿真赋能机器人三维视觉与物体操控

14:40-15:10

吴琦

讲者：高阳（清华大学）

题目：高样本效率强化学习与模仿学习

15:10-15:40 讲者：蒋树强（中国科学院计算技术研究所）

题目：目标驱动的视觉导航

15:40-15:50 中场休息

15:50-16:20

弋力

讲者：刘华平（清华大学）

题目：具身感知与学习

16:20-16:50讲者：郭彦东（OPPO）题目：数字孪生与具象智能的双轮驱动

16:50-17:15 Panel嘉宾：卢策吾，王鹤，高阳，蒋树强，刘华平，郭彦东

93

卢策吾上海交通大学

报告题目：行为具身智能

报告摘要：认知学研究表明人类智能需要与实际场景交互迭代形成，这种智能获取方式被

称为“具身智能”（embodied AI）也成为近期人工智能的前沿热点之一，被认为走向通用

智能的技术路线之一。计算机视觉也将在具身智能系统中起着至关重要的作用。该报告讲

简介“具身智能”的简述 3D 视觉结构物体操作知识提取，行为理解模仿学习（Activity

Imitation Learning），交互视觉感知（Interactive Perception），graspNet（第一个达

到人类抓取水平）等工作。最后，介绍本人在具身智能方向的初步工作，PIE 架构

（Preception-Imagination-Execution）的初步探索结果，以及对于开源系统 robotflow。

讲者简介：卢策吾，上海交通大学教授，博士生导师，主要从事

计算机视觉、行为理解和智能机器人的研究。以第一或通讯作者

在《Nature》、《Nature Machine Intelligence》、TPAMI、CVPR

等高水平期刊和会议发表论文 100 多篇。开源了一系列如

AlphaPose（人体姿态估计系统，GitHub Star 5000+），HAKE（人

体行为引擎），GraspNet（高性能机器人抓取系统）等多项拥有国

际先进水平的开源人工智能框架和数据集，多项成果在智能安防，

机器人，无人车等重要领域得到应用。2016 年入选海外高层次青

年引进人才，2018 年被《麻省理工科技评论》评为 35 岁以下科技

创新 35 人（MIT TR35），2019 年获求是杰出青年学者奖，2020 年获上海市科技进步特等

奖（排名第三），被爱思唯尔(Elsevier)评为 2021 年度中国高被引学者。担任 NeurIPS2022

高级领域主席（Senior Area Chair），CVPR 2020/ICCV 2021/ECCV2022 领域主席，IROS

2021/2022 编委（Associate Editor），AAAI 2020 高级程序委员会委员（Senior Program

Committee），PRCV 2022 出版主席，以及期刊《科学》同行评议审稿人。

王鹤北京大学

报告题目：以仿真赋能机器人三维视觉与物体操控

报告摘要：精准强大的三维感知能力和可泛化的物体操控策略是具身机器人所需要具备的

两项重要能力。近年来，很多工作聚焦于机器人在真实三维环境中的感知和交互，如基于

RGBD 输入进行物体位姿估计及物体抓取，所提出的监督性数据集大大推进了相关问题的研

究水平。但是考虑到真实数据的标注和在真实环境中进行策略学习都是极其昂贵的，这样

的方法无法低成本地推广到新问题上，同时已有数据集中未覆盖的部分也形成了新的挑战。

相比于真实环境和标注，仿真环境及生成的合成数据具有无需标注、高度可控、价格低廉、

时间采样率高等优势，因此我们考虑使用仿真及合成数据来帮助具身智能攻克新的任务和

新的挑战。在本报告中，我们将展现仿真及合成数据对机器人三维视觉及物体操控的帮助：

1）我们 ECCV2022 的工作通过对结构光深度传感器进行域随机的仿真，生成了大规模配对

的仿真深度图及完美深度图，所训练的深度图修复模型可直接泛化并修复真实传感器的深

度图，使得非透明物体上训练的抓取模型可以直接进行透明高光物体的抓取；2）我们 IEEE

RAL + IROS2022 的工作在仿真环境中研究可泛化的物体操纵策略，第一次提出了类别级模

仿学习的算法，可以打开没见过的抽屉和没见过的柜子门，工作也获得了 ICLR2022 中

ManiSkill 挑战赛无额外标注赛道的冠军。

94

讲者简介：王鹤博士是北京大学前沿计算研究中心（CFCS）的助

理教授和博士生导师。他创立并领导了具身感知与交互实验室

(EPIC Lab)，实验室立足三维视觉感知与机器人学，重点关注机

器人具身在三维复杂环境中的感知和交互问题，研究目标是以可

扩增地方式发展高泛化性的机器人视觉和控制系统。他已在计算

机视觉、机器人学和人工智能的顶级会议和期刊，如

CVPR/ICCV/ECCV/RAL/NeurIPS，发表 20 余篇工作，其中 8 篇获得

CVPR/ICCV oral，1 篇获得 Eurographics 2019 最佳论文提名。他

担任了 CVPR2022 和 2023 的领域主席和诸多顶会的审稿人、程序

委员。在加入北京大学之前，他于 2021 年从斯坦福大学获得博士

学位，师从美国三院院士 Leonidas. J Guibas 教授，于 2014 年从清华大学获得学士学位。

高阳清华大学

报告题目：高样本效率强化学习与模仿学习

报告摘要：强化学习在许多应用中取得了巨大的成功。然而，样本效率一直是强化学习的

弱点：许多强化学习算法需要上百万甚至数十亿帧来训练。在这个报告中，我会与大家分

享我们组在高样本效率强化学习、模仿学习的两项工作 EfficientZero 和

EfficientImitate。EfficientZero 是基于 MuZero 构建的一个高样本效率的视觉强化学习

算法。它在广泛使用的 Atari 100k 基准测试中达到了人类平均性能的 190.4%，以及人类

中位性能的 116.0%。而这仅需要真实世界的 2 个小时的数据量。这也是首次强化学习算法

在 Atari 游戏上超过了人类的样本效率。EfficientZero 的数据效率与广泛使用的 DQN 算

法相比提高了达 500 倍。EfficientZero 的样本效率让 RL 在真实世界中的应用变得可能。

EfficientImitate 是 EfficientZero 的延续性工作。它为了解决真实世界中奖励函数难以

定义，使用专家样本作为行为模式的来源。它大幅度提升了 GAIL 为基础的模仿学习算法

的样本效率。在 Humanoid 和视觉观测等复杂的环境中同样获得了大幅度样本效率的提升。

讲者简介：高阳是清华大学交叉信息研究院的助理教授，主要研

究计算机视觉与机器人学。此前，他在美国加州大学伯克利分校

获得博士学位，师从 Trevor Darrell 教授。他还在加州伯克利大

学与 Pieter Abbeel 等人合作完成了博士后工作。在此之前，高

阳从清华大学计算机系毕业，与朱军教授在贝叶斯推理方面开展

了研究工作。他在 2011-2012 年在谷歌研究院进行了自然语言处

理相关的研究工作、2016 年在谷歌自动驾驶部门 Waymo 的相机感

知团队工作，在 2018 年与 Vladlen Koltun 博士在英特尔研究院

在端到端自动驾驶方面进行了研究工作。高阳在人工智能顶级会议 NeurIPS，ICML，CVPR，

ECCV，ICLR 等发表过多篇学术论文，谷歌学术引用量超过 2000 次。

蒋树强中国科学院计算技术研究所

95

报告题目：目标驱动的视觉导航

报告摘要：在三维环境中以目标驱动（语言，图像，音频）的视觉导航是具身智能的一个

重要研究方向，也是多模态智能系统应用在现实世界中的一项重要能力。在静态且可充分

探索的环境中，借助地图定位智能系统可以达到相对满意的性能。然而对于动态且未知的

环境，现有技术由于缺乏对环境的精确认知而无法进行高效的导航，如何在未知环境中动

态地获取与更新知识是解决目标驱动的视觉导航任务的关键。本报告将介绍当前目标驱动

的视觉导航的研究现状，并探讨对当前任务外延的拓展；同时将围绕构建场景先验知识、

感知环境信息和动态更新先验知识等内容，介绍目标驱动的视觉导航任务几项最新进展。

讲者简介：中科院计算所研究员，博士生导师，中科院智能信息

处理重点实验室副主任，国家杰出青年科学基金获得者,期刊《计

算机研究与发展》、《JCST》、《ACM ToMM》编委，CCF 多媒体专委

会秘书长、CCF 专委工委委员、中国人工智能学会智能服务专委

会副主任、ACM SIGMM 中国分会副主席、IEEE CASS 北京分会副主

席。主要研究方向是图像/视频等多媒体内容分析、多模态智能技

术和食品计算。主持承担科技创新 2030-“新一代人工智能”重

大项目、国家自然科学基金等项目 20 余项。在 IEEE/ACM

Transactions 和 CCF-A 类会议上发表论文 60 余篇，获授权专利

18 项。先后获中国计算机学会科学技术奖、中国科学院青年科学家国际合作奖、CSIG 自

然科学二等奖、吴文俊人工智能自然科学一等奖、北京市科技进步二等奖。

刘华平清华大学

报告题目：具身感知与学习

报告摘要：具身感知是智能机器人获取环境信息的重要方式。在具身感知模式下，机器

人可以通过控制技术提升感知效能，并能进一步充分挖掘多模态信息的关联。本报告探讨

具身智能体在与人交互过程中的多模态主动感知技术，以及利用强化学习技术实现的多模

态主动感知系统。

讲者简介：清华大学计算机系教授，中国人工智能学会理事，国

家杰出青年科学基金获得者。主要研究方向为智能机器人的多模

态感知、学习与控制技术。担任机器人领域知名国际会议 ICRA

和 IROS 的 Associate Editor ， Robotics Sciences and

Systems(RSS)的领域主席。获 IEEE 仪器与测量协会（IMS）颁发

的 Andy Chi Best Paper Award。

郭彦东 OPPO报告题目：数字孪生与具象智能的双轮驱动

报告摘要：智能移动终端拥有多种模态的传感器以及越来越强的计算能力。丰富的传感装

置以及算法、算力帮助终端设备有效、精准的重建、复刻物理世界，给人带来虚实融合的

交互体验。同时，孪生数字世界能够高效、安全、低成本帮助具身智能的迭代进化，尤其

是基于统计大数据模型的智能体。本报告结合报告人在这个方向近年的工作，介绍基于移

96

动智能终端的多模感知对于环境以及人体的精准捕获、理解、重建技术，以及孪生世界对

于具象智能的牵引作用。

讲者简介：郭彦东 OPPO 智能感知首席科学家（Chief Scientist），

AI 规划负责人，领域委员会主席。郭彦东博士主要聚焦在未来移

动终端的智能技术研究与开发。郭博士毕业于美国普渡大学，师

从美国工程院院士 Jan Allebach 与 Charlse Bouman。在加入 OPPO

前，郭博士曾在小鹏汽车担任首席科学家，微软总部研究员。除

了推动新技术在工业界的应用外，郭博士还担任北京邮电大学兼

职教授，在多个国际会议发表数十篇论文，引用数千次，并发表

专利数百件。

97

Workshop 16：鲁棒安全的机器学习和视觉计算

主席：韦星星（北京航空航天大学），操晓春（中国科学院大学），韩亚洪（天津大学），

李京知（中科院信工所）

时间：8 月 24日（周三）13:30-17:15 地点：29号会议室


13:30-13:40

韦星星

研讨会介绍

13:40-14:05 讲者：赫然（中国科学院大学）

题目：人脸图像深度合成和鉴别

14:05-14:30 讲者：沈超（西安交通大学）

题目：智能系统可信安全与测试

14:30-14:55

操晓春

讲者：胡晓林（清华大学）

题目：针对物理世界行人检测系统的“隐身”方案

14:55-15:20 讲者：黄晓霖（上海交通大学）

题目：神经网络的动态低维结构与稳健性提升

15:20-15:30 中场休息

15:30-15:55韩亚洪

讲者：吴保元（香港中文大学（深圳））

题目：后门学习概述与最新进展

15:55-16:20 讲者：陈静静（复旦大学）

题目：深度伪造视频鉴别：进展与挑战

16:20-17:15 李京知 Panel嘉宾：赫然，沈超，胡晓林，黄晓霖，吴保元，陈静静

98

赫然中国科学院大学

报告题目：人脸图像深度合成和鉴别

报告摘要：深度合成是指使用深度学习等智能化技术对多媒体数据进行修改、编辑和替换，

进而创造出从内容或表观上完全不同的媒体内容。深度合成及其鉴别是机器学习和计算机

视觉等领域的重要研究内容之一，被广泛应用于人工智能，在国家公共安全领域具有重要

研究意义。本报告结合深度合成的实际应用需求，介绍“合成”与“鉴别”相辅相成、“攻

击”与“防御”相互促进的对抗博弈机制；从信息理论角度探寻深度合成的信息交换本质，

介绍不对称互信息、表象最优传输和信息瓶颈解表达等生成模型，以及语音驱动说话人、

人脸表情驱动和人物换脸等深度合成方法，以及人脸鉴伪等防御方法。

讲者简介：毕业于中国科学院自动化研究所模式识别国家重点实

验室，现为中国科学院特聘研究员、中国科学院大学岗位教授、

博士生导师，IAPR Fellow。从事模式识别应用基础理论研究，并

应用到计算机视觉、生物特征识别和人工智能安全，出版信息理

论学习专著 1 部，在 TPAMI 和 IJCV 发表论文 20 篇，其中第一作

者发表 TPAMI 论文 5 篇；研究工作获 CSIG 自然科学一等奖，国际

模式识别大会最佳论文奖(2021)、IEEE 信号处理协会青年最佳论

文奖(2020)和北京青年优秀科技论文一等奖(2015)，受到国家自

然科学基金优秀青年科学基金、北京自然科学基金杰出青年科学

基金和中科院青年促进会优秀会员等项目资助，担任 IEEE TIP，

PR 和自动化学报等编委以及 NeurIPS、ECCV 等领域主席。

沈超西安交通大学

报告题目：智能系统可信安全与测试

报告摘要：人工智能浪潮正在深刻赋能人类生产和生活的各个方面，基于“深度学习+大

数据+高性能计算”的解决方案为许多复杂任务（例如无人驾驶、视觉处理等）提供了有

效解决途径，在某些特定领域其能力已经接近甚至超越人类。然而在美好蓝图之下，智能

系统本身及其在数据、模型和代码等方面的可信问题也逐渐暴露出来，智能系统的可信安

全已经成为一个不容忽视的问题。本次报告将分析智能系统所面临的安全风险，并讨论智

能系统的可信安全与测试修复。

讲者简介：沈超教授，毕业于西安交通大学，2011-2013 年在卡

耐基梅隆大学从事研究工作，现为西安交通大学电子与信息学部

教授、网络空间安全学院副院长。他长期从事可信人工智能、智

能系统控制与安全、智能软件安全与测试、电力系统安全的研究，

在人工智能、网络安全、软件工程、控制工程领域顶级国际期刊

和会议论文 80 余篇，曾荣获省部级科学技术奖一等奖 1 项、二等

奖 2 项，入选阿里巴巴达摩院青橙奖、麻省理工科技评论 MIT TR35

China、教育部霍英东青年教师一等奖等，承担国家自然科学基金

重点项目、国家重点研发计划课题、863 计划课题等部委与企业

项目 30 余项，担任 IEEE Trans. Dependable Secure Computing、

IEEE Trans. Cybernetics等 9个国际期刊的 Associate Editors、

以及 ACM CCS、NDSS 等 20 余个国内外学术会议的组织委员会成员或程序委员会成员。

99

胡晓林清华大学

报告题目：针对物理世界行人检测系统的“隐身”方案

报告摘要：基于深度学习的检测系统在生产生活中得到了广泛的应用。但是，由于深度学

习模型的内在缺陷，它们可以被对抗攻击，基于它们的检测系统也能被攻击，即，人们可

以设计特定的方案欺骗检测系统，让检测系统检测不到目标物体，从而实现针对 AI 系统

“隐身”的目的。本报告介绍几个隐身方案：隐身帽、隐身衣和隐身板，它们都能在一定

很大程度上让主流的检测系统检测不到目标人物。这些工作将促进 AI 系统的鲁棒性研究，

同时也为人们保护隐私、对抗日益滥用的 AI 系统提供帮助。

讲者简介：胡晓林，清华大学计算机系副教授。2007 年在香港中

文大学获得自动化与计算机辅助工程专业博士学位，然后在清华

大学计算机系从事博士后研究，2009 年留校任教至今。他的研究

领域包括人工神经网络和计算神经科学，主要兴趣包括开发受脑

启发的计算模型和揭示大脑处理视听觉信息的机制。在 IEEE

Transactions, PLoS Computational Biology等国际期刊和CVPR,

NIPS, AAAI 等国际会议上发表论文 100 余篇。他目前是 IEEE

Transactions on PAMI、IEEE Transactions on Image Processing

和 Cognitive Neurodynamics 的编委，曾担任 IEEE Transactions

on Neural Networks and Learning Systems 的编委。曾获教育

部自然科学奖一等奖、吴文俊人工智能自然科学一等奖、二等奖。

黄晓霖上海交通大学

报告题目：神经网络的动态低维结构与稳健性提升

报告摘要：深度神经网络的参数量极大，产生了很多冗余的特征，这也是神经网络存在对

抗样本的根本原因之一。找到有效的低维结构、有效地去除冗余有望很好地控制神经网络、

提升其稳健性。通过分析神经网络的动态特性，我们提出了神经网络动态低维结构，发展

了新的降维方法，能够在很低维的空间中对神经网络进行有效的训练。实验表明，对于

CIFAR 级别的任务，在 40 维空间对具有千万个参数的神经网络进行训练就能够达到标准训

练的效果，并具有很好的稳定性。在提取的低维空间中进行对抗训练，能够有效克服过拟

合现象，使单步对抗训练达到多步对抗训练的效果。

讲者简介：现为上海交通大学电子信息与电气工程学院副教授、

博士生导师。本科毕业于西安交通大学、博士毕业于清华大学，博

士后工作于比利时鲁汶大学，并在德国埃尔朗根-纽伦堡大学任洪

堡学者，他长期从事机器学习理论与算法研究，发表论文五十余篇，

其中十余篇发表于领域重要期刊《Journal of Machine Learning

Research》《IEEE Transactions on Pattern Analysis and Machine

Intelligence》《Applied and Computational Harmonic Analysis》，

主持国家自然科学基金面上项目、JWKJW 创新专项，参与“2030

新一代人工智能”重大专项和“人工智能前沿基础理论与关键技术”

上海市科技重大专项。2017 年入选国家特聘专家（青年项目）。

100

陈静静复旦大学

报告题目：深度伪造视频鉴别：进展与挑战

报告摘要：近年来，随着深度学习的发展，利用生成网络替换或者操作图像/视频中人脸

的方法层出不穷，一些合成的虚假图像/视频甚至无法用人眼进行鉴别。深度伪造技术的

发展不可避免地造成有人恶意利用其传播虚假信息、假冒政治人物等，对网络信息的可靠

性和社会稳定都造成了恶劣影响。因此，深度伪造鉴别技术研究迫在眉睫。本报告将对深

度换脸视频鉴别面临的挑战与最新研究进展进行介绍，包括基于基于注意力的深度换脸视

频检测网络以及基于 transformer 的伪造人脸视频鉴别方法等。

讲者简介：复旦大学计算机科学技术学院副教授。2018 年博士毕

业于香港城市大学，2018 年 9 月～2019 年 7 月在新加坡国立大

学从事博士后工作，2019年 7月加入复旦大学计算机科学技学院。

主要研究领域为多媒体内容分析、计算机视觉、多媒体模型安全

等。主持/参与了包括国家自然科学基金、科技部科技部 2020 年

“科技创新 2030-新一代人工智能”重大项目等多项科研项目。

在 ACM Multimedia, CVPR, ICCV，AAAI，ICMR，IEEE TIP，IEEE

TMM 等重要国际会议、期刊上发表论文 30 余篇，曾获得 ACM

Multimedia 2016 最佳学生论文奖、Multimedia Modeling 2017 最

佳学生论文奖。担任多个国际知名期刊审稿人、国际会议领域主

席/程序委员会委员。

吴保元香港中文大学（深圳）

报告题目：后门学习概述与最新进展

报告摘要：本次讲座将从后门攻击和防御两个方面介绍后门学习的发展现状与最新动向。

在后门攻击方面，将对现有后门攻击方法进行结构化的梳理，厘清该领域的发展历程、现

状和趋势，然后介绍我们在后门攻击领域的最新成果，即样本依赖式后门触发器。其最大

特点是原始触发器与被投毒样本的内容融合，产生一个针对该样本的独特触发器，使得不

同投毒样本上的触发器各不相同，从而可以成功绕开现有针对样本无关式触发器（即不同

投毒样本上的触发器相同）设计的后门防御方法。在后门防御方面，将首先对现有后门防

御方法进行归类总结，分析各自优劣，然后介绍我们在后门防御方向上的最新成果，即分

段式安全训练方法，其基本思想是通过自监督学习来阻断被投毒样本在特征空间中的聚集，

并进一步筛选可疑的投毒样本，从而在阻止后门形成的前提下，还保证了正常训练精度。

该方法从源头上打破了后门形成机制（即投毒样本的聚集），从而可以防御当前所有的后

门攻击方法。上述两个工作分别发表于 ICCV 2021 和 ICLR 2022。

讲者简介：现任香港中文大学（深圳）数据科学学院副教授、博

士生导师、深圳市大数据研究院大数据安全计算实验室主任、深

圳市模式分析与感知计算重点实验室（筹）副主任，并担任腾讯

AI Lab 可信 AI 组顾问，于 2014 年毕业于中科院自动化所，其研

究方向包括机器学习、计算机视觉、最优化，在人工智能的顶级

期刊和会议上发表论文 50 多篇。其担任人工智能领域国际期刊

Neurocomputing 编委、第五届中国模式识别与计算机视觉大会

PRCV 2022 组委会主席、国际会议 ICLR 2022、AAAI 2022、ICIG 2021

领域主席，国际会议 AAAI 2021、IJCAI 2020/2021 高级程序委员、

中国自动化学会模式识别与机器智能专委会副秘书长。

101

Workshop 17：AI+X主席：宫辰（南京理工大学），刘昊（宁夏大学）

时间：8 月 24日（周三）13:30-17:15 地点：30号会议室


13:30-13:40

宫辰

研讨会介绍

13:40-14:10 讲者：刘偲（北京航空航天大学）

题目：人工智能+艺术

14:10-14:40 讲者：曾湘祥（湖南大学）

题目：Deep Graph Learning for Drug Discovery

14:40-15:10 讲者：张帅（中国农业大学）

题目：智能养猪业的发展现状与未来

15:10-15:40

刘昊

讲者：金鑫（北京电子科技学院）

题目：视觉美学度量

15:40-15:50闪马智能宣讲报告：

题目：打造视频智能分析和时空数据管理的新一代 AI中台

宣讲人：赵之健

15:50-16:20 讲者：魏乐义（山东大学）

题目：智能算法驱动的多肽药物研发

16:20-17:15 Panel嘉宾：刘偲，曾湘祥，张帅，金鑫，魏乐义

102

刘偲北京航空航天大学

报告题目：人工智能+艺术

报告摘要：本次报告中，我将介绍 3个围绕 Al+艺术方面的工作。（1）视频自动配乐：我

们提出了可控的音乐 Transformer 生成模型，通过视频和音乐的韵律关系能够按照用户指

定的音乐流派和乐器，生成与视频搭配的音乐。（2）语言指导的图像美化：我们的方法主

要包括编辑描述模块和图像-语言注意力模块，从而实现根据语言自适应的图像编辑。（3）细节保持的妆容迁移：我们的算法能实现局部上妆，并能控制妆的浓淡，也能实现高光、

腮红等细致的妆容迁移。

讲者简介：刘偲，北航教授，博导。主持国家优秀青年科学基金。

研究方向是跨模态多媒体智能分析以及经典计算机视觉任务。共

发表了 CCF A类论文 60余篇，含 IEEE TPAMI 6篇。Google Scholar引用 8000+次。2017 年入选中国科协青年人才托举工程。获吴文

俊人工智能优青奖、CSIG 石青云女科学家奖。获多媒体领域顶会

ACM MM 2012最佳技术演示奖，ACM MM 2013、ACM MM 2021最佳论文奖，以及 IJCAI 2021最佳视频奖。主办了 ECCV 2018、ICCV 2019、CVPR 2021 ‘Person in Context’ workshop。担任中国图

象图形学学会理事、副秘书长。多次担任 ICCV、CVPR、ECCV、ACM MM 等顶级会议领域主席（AC）。担任 IEEE TMM、IEEETCSVT 编委。获得 10项 CVPR、ICCV、ACL 等国际顶级竞赛冠

军。

曾湘祥湖南大学

报告题目：Deep Graph Learning for Drug Discovery报告摘要：A recent study estimates that pharmaceutical companies spent $2.6 billion in 2015for the development of a new, U.S. Food and Drug Administration (FDA)-approved drug, upfrom $802 million in 20031. One of the primary reasons for the increasing cost of drugdevelopment is the high failure rate of randomized controlled trials that are time-consuming andexpensive. Recent advances in computational sciences and technologies capture the requisitesand urgencies, and provide a comprehensive approach. This report will introduce the latestprogress of deep graph learning, and its applications in drug repurposing. Specifically, we built acomprehensive knowledge graph that includes 15 million edges across 39 types of relationshipsconnecting drugs, diseases, proteins/genes, pathways, and expression from a large scientificcorpus of 24 million PubMed publications. Using Amazon’s AWS computing resources and anetwork-based, deep-learning framework, we identified 41 repurposable drugs (includingdexamethasone, indomethacin, niclosamide, and toremifene) whose therapeutic associationswith COVID-19 were validated by transcriptomic and proteomics data in SARS-CoV-2-infectedhuman cells and data from ongoing clinical trials.

讲者简介：曾湘祥，教授、博士生导师、岳麓学者、国家优青基

金获得者、湖南省杰出青年基金获得者。曾受邀在哈佛大学、印

第安纳大学、俄克拉荷马州立大学等地合作研究，曾担任厦门大

学博士生导师，马德里理工大学客座研究员，香港中文大学荣誉

访问教授。获厦门大学教学成果奖特等奖，福建省教学成果奖二

等奖，福建省自然科学奖三等奖（排名第一），CCF科学技术奖

技术发明二等奖。他入选了科睿维安 2020和 2021 年度“全球高被

引科学家”名单，斯坦福大学发布的 2020 年度“全球前 2%顶尖科

学家”名单。获 2019 年吴文俊人工智能优秀青年奖，2020 年亚马

103

逊机器学习研究奖。近年来发表论文 100 余篇，其中 CCFA类或一区论文 30 余篇。获

IMCS2016 年度最佳论文奖，ACMC2019 国际会议最佳论文奖。成果“面向药物发现的深

度图学习”入选世界人工智能大会“卓越引领者奖”榜单。创办的 DrugAI 公众号入选 2020年度中国“学术媒体公众号 Top10”。

张帅中国农业大学

报告题目：智能养猪业的发展现状与未来

报告摘要：围绕 AI+养猪业，从精准营养与智能饲喂、智能育种、智能环境控制与猪场管

理、智能生物安全防控与疾病诊断、大数据及物联网平台建设等六个方面介绍当前智能养

殖业的研究现状，同时对未来技术的落地和行业的发展进行了展望。

讲者简介：张帅，中国农业大学动物科技学院副教授，国家高层

次人才项目青年学者获得者，中国畜牧业协会智能畜牧分会理事，

中国工程院期刊 FASE 青年编委，毕业于美国弗吉尼亚理工大学，

先后获统计学硕士、动物营养学硕士和动物营养学博士学位。主

要研究方向包括猪营养数学模型与猪智能化精准饲喂。现主持国

家自然科学基金面上项目等省部级以上项目 7项，近 5年以第一/通讯作者发表中英文论文 40余篇，副主编/参编教材及专著 3本，

主持/参与制订国家及行业标准 3项，以第二完成人获神农中华农

业科技奖一等奖 1项。

金鑫北京电子科技学院

报告题目：视觉美学度量

报告摘要：人工智能能审美吗？本次报告将介绍视觉美学度量的发展简史、视觉美学度量

的全景视图、发展现状、主流技术、前景展望等方面的内容。重点是传统美学特征的提取、

当前各种面向视觉美学度量的深度学习方法、视觉美学度量新任务、视觉美学度量的实际

应用等。

讲者简介：金鑫，博士，副教授，研究方向为计算美学、计算机

视觉、人工智能安全，北京电子科技学院可视计算与安全实验室

（victory-lab）负责人，北京通用人工智能研究院（BIGAI）访问

学者，中国计算机学会高级会员。发表国际顶级期刊和会议（IEEETrans-IP、IEEE Trans-MM、ACM Trans-IT、AAAI、ACM MM、

CVPR、ECCV、ICME）等高水平论文 50余篇，获国家发明专利

授权 24项，主持或参与国家级科研项目 9项。担任 AAAI、IJCAI的 PC Member；担任 ISAIR 常务委员、CSIG-BVD 常务委员、

CIE-VR副秘书长、CCF-CV执行委员、CAA-PRMI委员、CAAI-PR委员、中国电影美术学会虚拟空间专委会委员，参与了全国信标

委国家标准《信息科学计算机视觉术语》的制定。

104

魏乐义山东大学

报告题目：智能算法驱动的多肽药物研发

报告摘要：多肽新药研发是近些年来国内外药物研发的重要领域之一。基于人工智能的新

药研发方法是当前国际公认的主流研究方法，能有效加速创新药物发现、降低研发成本。

本报告将介绍我们近期在多肽药物研发中，我们是如何利用人工智能方法进行高精度以及

高效率的计算虚拟筛选，如活性、毒性分析等。

讲者简介：魏乐义教授，毕业于厦门大学，曾任东京大学医学科

学研究所特任研究员。现为山东大学软件学院教授。他长期从事

人工智能与生物信息学交叉领域研究，在相关学术期刊上发表了

超过 90 篇论文；2021年在交叉领域入选科睿唯安(Clarivate)全球

高被引科学家；2020 年获得 ACM CHINA SIGBIO 新星奖；目前

担任国际期刊《Frontiers in Genetics》副主编，以及其他多个高水

平国际期刊编委，例如《Methods》、《BMC Genomics》等。担任

CCF生物信息专委会委员，人工智能学会生物信息与人工生命专

委会委员。主持并参与多项国家级以及省部级科研项目。

105

Workshop 18：边缘计算与视觉智能

主席：王晓飞（天津大学），胡清华（天津大学）

时间：8 月 24日（周三）13:30-17:15 地点：32号会议室


13:30-13:40

王晓飞

研讨会介绍

13:40-14:05 讲者：纪荣嵘（厦门大学）

题目：神经网络结构搜索

14:05-14:30 讲者：吴帆（上海交通大学）

题目：移动端智能计算

14:30-14:55 讲者：彭国政（中国电力科学院）

题目：考虑复杂场景和资源共享的电力边缘智能关键技术及应用研究

14:55-15:20

胡清华

讲者：付彦伟（复旦大学）

题目：数据与模型的稀疏化学习算法研究

15:20-15:30地平线宣讲报告：

题目：基于征程 5中央计算平台的自动驾驶感知方案研发与实践

宣讲人：张骞

15:30-15:55 讲者：徐梦炜（北京邮电大学）

题目：通向泛在学习的系统软件之路

15:55-16:20 讲者：仇超（天津大学）

题目：云边端泛在协同人工智能

16:20-17:15 Panel嘉宾：纪荣嵘，吴帆，彭国政，付彦伟，徐梦炜，仇超

106

纪荣嵘厦门大学

报告题目：神经网络结构搜索

报告摘要：深度神经网络在图像理解、语音识别、自然语言处理等人工智能应用领域取得

了令人瞩目的成就，成为人工智能研究的热点之一。然而，随着神经网络结构的日益复杂，

针对某个数据集设计网络结构需要投入大量的计算资源以及先验知识。为此，神经网络

结构搜索 (Neural Architecture Search, NAS) 提出在特定的搜索空间上，采取某种精度评估

方式，利用黑盒优化算法，针对某个数据集进行网络结构的自动搜索。利用神经网络结

构搜索可以极大的减小人工智能产品开发落地所需要的资源投入，拓展人工智能领域的适

用范围，使得人工智能在各个领域更容易落地实现，并且可以更好的理解神经网络结构，

因而具有重大的理论意义和应用价值。针对神经网络结构搜索的效率等问题，本次报告简

要介绍已有的神经网络结构搜索算法并在其中覆盖纪荣嵘教授研究组近几年来在神经网

络结构搜索中所做的一些工作与成果。

讲者简介：纪荣嵘，厦门大学南强特聘教授，国家杰出青年科学

基金获得者。主要研究方向为计算机视觉。近年来发表 TPAMI、IJCV、ACM 汇刊、IEEE汇刊、CVPR、NeurIPS 等会议长⽂过百

篇。论文谷歌学术引用万余次。曾获 2016 年教育部技术发明一等

奖、2018 年省科技进步一等奖、2019 年福建省青年科技奖。曾/现主持国防 973 项目，国家自然科学基金联合重点基金等项目。

任中国计算机学会 A类国际会议 CVPR 和 ACM Multimedia 领域

主席、中国图象图形学学会学术工委副主任、教育部电子信息类

教指委人工智能专业建设咨询委员会委员。

吴帆上海交通大学

报告题目：移动端智能计算

报告摘要：随着手机、可穿戴设备、机器人、无人车、无人机等移动终端设备在计算、存

储等方面能力的大幅提升，在移动端设备上进行智能化的数据处理（例如特征计算、模型

推断和训练）成为新趋势。本报告将会追寻端智能技术的发展脉络，分享我们团队在端侧

智能推理、大规模联合学习以及端云协同分布式智能支撑系统等方面的研究进展。.讲者简介：吴帆博士，现为上海交通大学计算机科学与工程系教

授、博导、系主任，兼任 John Hopcroft计算机科学中心执行主任，

2020年国家自然科学基金杰出青年科学基金获得者。在移动计算、

端智能、大数据管理、智能博弈等领域取得了一系列科研成果，

已发表学术论文 200 余篇，论文发表在 JSAC、TON、TMC、TPDS、TOC、TKDE 等国际著名期刊，以及 MOBICOM、MobiHoc、CoNEXT、INFOCOM、ICDE、VLDB、KDD 等重要国际会议，

并出版英文专著一部。先后担任 IEEE Transactions on MobileComputing、ACM Transactions on Sensor Networks、IEEE Transactions on Network Scienceand Engineering、Elsevier Computer Networks 编委，以及 Journal of Computer Science andTechnology青年编委和中国计算机学会通讯专题编委。曾获教育部自然科学奖一等奖 2项、

ACM 中国新星奖、CCF-IEEE 青年科学家奖、仲英青年学者、CCF-腾讯犀牛鸟卓越奖、

CCF-Intel青年学者提升计划、上海市浦江人才，以及包括 IEEE/ACM IWQoS 2020 在内的

7次国际学术会议论文奖。先后担任 ACM 中国理事会副主席、CCF上海分部秘书长、CCFYOCSEF上海主席等。作为项目/课题负责人承担国家重点研发计划、国家自然科学基金、

上海市科委项目 20 余项。

107

彭国政中国电力科学院

报告题目：考虑复杂场景和资源共享的电力边缘智能关键技术及应用研究

报告摘要：随着能源互联网的稳步建设，电力系统正面临多维度变革，传统电网感知技术

亟待革新。本报告面向资源受限的电力系统分布式边缘侧视觉感知场景，探讨视觉技术、

物联网技术和大数据技术在电力输送环节的最新应用成果。.

讲者简介：彭国政，高级工程师，中国电力科学研究院人工智能

应用研究所智能感知研究室主任。主要研究领域包括边缘智能应

用、智能感知技术。曾主持/参与多项国家重点研发计划或国网公

司科技项目，获国家电网公司科技进步奖一等奖。

付彦伟复旦大学

报告题目：数据与模型的稀疏化学习算法研究

报告摘要：基于大量标注样本的强监督机器学习模型在计算机视觉和自然语言处理等领域

获得了巨大成功，但其很难满足开放应用环境下高鲁棒性、自适应性和可解释性等需求，

而基于稀疏化机器学习模型是一个重要的研究问题。尤其，过参数化深度模型能够取得良

好的效果，但在机器人、自动驾驶汽车、增强现实（AR）等现实应用中，我们面临模型

部署困难的问题，这是由于过参数化模型参数量较大，超过存储空间上限。本次报告将简

单介绍，本课题组在数据与模型的稀疏化学习算法研究方面的工作。尤其是以 Bregman迭代路径稀疏化模型训练算法方面的工作，探索多任务稀疏模型优化算法，设计模型迭代

稀疏化路径算法，研究算法收敛性及高维数据表征的稳定性等。

讲者简介：付彦伟，博士，复旦大学大数据学院青年研究员，博

士生导师，东方学者、国家青年千人。2014 年获得伦敦大学玛丽

皇后学院博士学位，2015.01-2016.07，在美国匹兹堡迪士尼研究

院任博士后研究员。付博士发表高水平论文 100 多篇，在 IEEETPAMI 发表通讯作者/第一作者论文 10 篇。论文曾获得 IEEEICME 2019最佳论文，获得美国发明专利 6项、中国专利 10多项。

研究方向侧重于少量样本学习；稀疏化学习算法；图像修复等。

担任多个国际期刊、学术会议长期审稿人及程序委员会委员或领

域主席等。

108

徐梦炜北京邮电大学

报告题目：通向泛在学习的系统软件之路

报告摘要：该报告将聚焦于一种新型的机器学习范式，称为泛在学习，即在智能手机、IoT等终端设备上直接进行模型训练与推理，将传统中心化 AI系统向去中心化扩展。其中，

系统软件和算法的协同涉及至关重要。

讲者简介：徐梦炜，北京邮电大学副研究员，博士生导师。于北

京大学获得本科与博士学位，入选中国科协青年人才托举工程，

北京市科技新星，MSRA“铸星计划”访问学者，普渡大学访问

学者，ACM SIGMobile China 2021 优博。主要研究领域为移动/边缘计算和系统软件。

仇超天津大学

报告题目：云边端泛在协同人工智能

报告摘要：当前面向泛在协同人工智能的存算一体、云网一体技术正在快速发展，面对复

杂多样的边缘和终端设备，面向泛在人工智能的云边端算力资源类别复杂多样、算力需求

庞大等挑战，探索泛在协同人工智能技术与应用。针对算力分布异构性强、计算协同效率

低下、资源优化缺乏保障、产业生态维护性差四方面的问题，研究多级异构网络基础设施

的算力感知与融合技术，实现泛在自适应分布式协同 AI 计算，保证分布式异构异质资源

优化及公平调度，最终形成并维护灵活可追溯的 AI 数据计算模型生态体系，进而满足 AI的泛在计算需求。有望为面向泛在协同人工智能技术提供新的理论和方案，引领新型云边

端 AI 算力管理理论的研究范式。

讲者简介：仇超，天津大学助理教授，主要研究边缘智能理论、

边缘计算技术、区块链技术、算力并网交易等内容。发表高水平

论文 27篇（含 SCI论文 19篇），其中包括中科院 1区/CCF-A 类

论文 12 篇，中科院 2 区/CCF-B 类论文 4 篇，ESI 高被引 2 篇，

申请发明专利 11项，主持项目包括国家自然科学基金-青年项目、

天津市重点研发计划支撑项目、博后面上资助、横向项目等。拟

出版 Springer书籍“Synergy of Edge Intelligence and Blockchain”。获奖情况包括，第五届中国区块链开发大赛北部赛区优秀奖（第

一参与人）、微众银行第三届金融科技高校技术大赛入围奖（指导

教师）、“未来杯”人工智能与机器人项目展示活动（高校组）区

块链项目全国最佳创新奖（指导教师）、第四届“绽放杯”5G应

用征集大赛公共安全专题赛一等奖。

109

Poster交流论文一览表

1

Liang Yang, Wenmiao Zhou,Weihang Peng, Bingxin Niu,Junhua Gu, Chuan Wang, XiaochunCao, Dongxiao He

河北工业大学 WWW2022

Graph Neural Networks Beyond Compromise Between Attribute and Topology

2

Heng Li, Shiyao Zhou, Wei Yuan,Xiapu luo, Cuiying Gao, ShuiyanChen

华中科技大学 WWW 2021

Robust Android Malware Detection against Adversarial Example Attacks

3

Boying Wang, Libo Zhang,Longyin Wen, Xianglong Liu,Yanjun Wu

中国科学院软件研究所 ICCV 2021

Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark

4

Junjue Wang, Zhuo Zheng, AilongMa, Xiaoyan Lu, and Yanfei Zhong 武汉大学 NeurIPS 2021

LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive SemanticSegmentation

5Zhuo Zheng, Ailong Ma, LiangpeiZhang, Yanfei Zhong

武汉大学测绘遥感信息工

程国家重点实验室ICCV 2021

Change is Everywhere: Single-Temporal Supervised Object Change Detection in RemoteSensing Imagery

6

Yehui Tang, Kai Han, JianyuanGuo, Chang Xu, Yanxi Li, ChaoXu, Yunhe Wang

北京大学华为诺亚方舟实

验室悉尼大学CVPR 2022 Oral

An Image Patch is a Wave: Phase-Aware Vision MLP

7

Mengjun Cheng，Yipeng Sun，Longchao Wang，Xiongwei Zhu，Kun Yao，Jie Chen，Guoli Song，Junyu Han，Jingtuo Liu， ErruiDing，Jingdong Wang

Peking University CVPR 2022

ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

8 Ajian Liu, Yanyan Liang 自动化研究所 IJCAI2022MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing

9Hui Lin, Zhiheng Ma, Rongrong Ji,Yaowei Wang, Xiaopeng Hong 西安交通大学 CVPR 2022

Boosting Crowd Counting via Multifaceted Attention

10

Kehan Li, Runyi Yu, ZhennanWang, Li Yuan, Guoli Song, JieChen

北京大学 ECCV 2022

Locality Guidance for Improving Vision Transformers on Tiny Datasets

11

Lue Fan, Ziqi Pang, TianyuanZhang, Yu-Xiong Wang, HangZhao, Feng Wang, Naiyan Wang,Zhaoxiang Zhang

中科院自动化所 CVPR 2022

Embracing Single Stride 3D Object Detector with Sparse Transformer

110

12

Xiaohan Ding, Xiangyu Zhang,Yizhuang Zhou, Jungong Han,Guiguang Ding, Jian Sun

腾讯 AI LAB CVPR 2022

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

13

Zhijie Shen, Chunyu Lin, KangLiao, Lang Nie, Zishuo Zheng, andYao Zhao

北京交通大学 ECCV 2022

PanoFormer: Panorama Transformer for Indoor 360° Depth Estimation

14

Ningning Ma, Xiangyu Zhang,Ming Liu, Jian Sun 香港科技大学 CVPR 2021

Activate or not: learning customized activation

15Wenbin Wang, Ruiping Wang,Xilin Chen

中国科学院计算技术研究

所ICCV 2021

Topic Scene Graph Generation by Attention Distillation from Caption

16Zehui Liao, Yutong Xie, ShishuaiHu, and Yong Xia 西北工业大学 IEEE-TMI 2022

Learning from Ambiguous Labels for Lung Nodule Malignancy Prediction

17

Shishuai Hu, Zehui Liao, and YongXia 西北工业大学 MICCAI 2022

Domain Specific Convolution and High Frequency Reconstruction based UnsupervisedDomain Adaptation for Medical Image Segmentation

18

Geng-Xin Xu, Chen Liu, Jun Liu,Zhongxiang Ding, Feng Shi, ManGuo, Wei Zhao, Xiaoming Li, YingWei, Yaozong Gao, Chuan-XianRen, and Dinggang Shen

中山大学 TMI 2022

Cross-Site Severity Assessment of COVID-19 From CT Images via Domain Adaptation

19

Peter Cho-Ho Lam, Lingyang Chu,Maxim Torgonskiy, Jian Pei, YongZhang, and Lanjun Wang

天津大学 ICCV 2021

Finding representative interpretations on convolutional neural networks

20Jun Li, Zichang Tan, Jun Wan,Zhen Lei, Guodong Guo 中国科学院自动化研究所 CVPR 2022

Nested Collaborative Learning for Long-Tailed Visual Recognition

21

Junchi Yu, Tingyang Xu, Yu Rong,Yatao Bian, Junzhou Huang, RanHe

中科院自动化研究所 ICLR 2021

Graph Information Bottleneck for Subgraph Recognition

22Gang Yang, ManZhou, Keyu Yan,Aiping Liu, Xueyang Fu, Fan Wang 中国科学技术大学 CVPR 2022

Memory-augmented Deep Conditional Unfolding Network for Pan-sharpening

23Jinshan Zeng, Qi Chen, Yunxin Liu,Mingwen Wang, and Yuan Yao 江西师范大学 AAAI 2021

StrokeGAN: Reducing Mode Collapse in Chinese Font Generation via Stroke Encoding

24

Liang Yang , Mengzhe Li , LiyangLiu , Bingxin Niu , Chuan Wang ,Xiaochun Cao , Yuanfang Guo

河北工业大学 NeurIPS 2021

Diverse Message Passing for Attribute with Heterophily

111

25

Jiefeng Li, Siyuan Bian, AilingZeng, Can Wang, Bo Pang, WentaoLiu, Cewu Lu

上海交通大学 ICCV 2021

Regression with Residual Log-likelihood Estimation

26

Dongzhan Zhou, Xinchi Zhou, DiHu, Hang Zhou, Lei Bai, Ziwei Liu,Wanli Ouyang

中国人民大学 AAAI 2022

SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation

27

Lewei Yao, Runhui Huang, Lu Hou,Guansong Lu, Minzhe Niu, HangXu, Xiaodan Liang, Zhenguo Li,Xin Jiang, and Chunjing Xu

中山大学 ICLR 2022

FILIP: FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING

28

Guangyao Li, Yake Wei, YapengTian, Chenliang Xu, Ji-Rong Wenand Di Hu

中国人民大学 CVPR 2022

Learning to Answer Questions in Dynamic Audio-Visual Scenarios

29

Junyu Luo, Jiahui Fu, XianghaoKong, Chen Gao, Haibing Ren, HaoShen, Huaxia Xia, Si Liu

北京航空航天大学 CVPR 2022

3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection

30Zongbo Han, Changqing Zhang,Huazhu Fu, Joey Tianyi Zhou 天津大学 ICLR 2021

Trusted multi-view classification

31

Ziqiang Li, Chaoyue Wang, HeliangZheng, Jing Zhang, and Bin Li 中国科学技术大学 ECCV2022

FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity inData-Efficient GANs

32

An-An Liu , Yanhui Wang , NingXu , Weizhi Nie , Jie Nie , andYongdong Zhang

天津大学 TMM 2021

Adaptively Clustering-Driven Learning for Visual Relationship Detection

33

Yuying Ge, Yixiao Ge, Xihui Liu,Dian Li, Ying Shan, Xiaohu Qie,Ping Luo

腾讯 ARC Lab CVPR 2022

Bridging Video-text Retrieval with Multiple Choice Questions

34

Jiyuan Liu, Xinwang Liu, YuexiangYang, Li Liu, Siqi Wang, WeixuanLiang and Jiangyong Shi

国防科技大学 ICCV 2021

One-pass Multi-view Clustering for Large-scale Data

35

Difei Gao, Ruiping Wang, Ziyi Bai,Xilin Chen 中科院计算所 ICCV 2021

Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding ofDynamic Environments

36Xiaokang Peng, Yake Wei, AndongDeng, Dong Wang, Di Hu 中国人民大学 CVPR 2022

Balanced Multimodal Learning via On-the-fly Gradient Modulation

37 Yang Ding, Jing Yu, Bang Liu, YueHu, Mingxin Cui, Qi Wu

中国科学院信息工程研究

所CVPR 2022

112

MuKEA:Multimodal Knowledge Extraction and Accumulation for Knowledge-basedVisual Question Answering

38

Xiao Dong, Xunlin Zhan,Yangxin Wu, Yunchao Wei,Michael C. Kampffmeyer,Xiaoyong Wei, Minlong Lu,Yaowei Wang, Xiaodan Liang

中山大学 cvpr 2022

M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modalPretraining

39

Wenhui Li, Yan Wang, Yuting Su,Xuanya Li, Anan Liu, YongdongZhang

天津大学 TMM2022

Multi-scale Fine-grained Alignments for Image and Sentence Matching

40

Hongshuo Tian, Ning Xu, An-AnLiu, Chenggang Yan, ZhendongMao, Yongdong Zhang, QuanZhang

天津大学 ACM MM 2021

Mask and Predict: Multi-Step Reasoning for Scene Graph Generation

41 Youwei Liang, Dong Huang*. 华南农业大学 AAAI 2021Large Norms of CNN Layers Do Not Hurt Adversarial Robustness

42

Cheng Luo, Qinliang Lin,Weicheng Xie, Bizhu Wu, JinhengXie, and Linlin Shen

深圳大学 CVPR 2022

Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity

43Jiyang Guan, Zhuozhuo Tu, RanHe, Dacheng Tao 中科院自动化所 CVPR 2022

Few-shot Backdoor Defense Using Shapley Estimation

44Kai Chen, Zhipeng Wei, JingjingChen†Zuxuan Wu, Yu-Gang Jiang 复旦大学 AAAI 2022

Attacking Video Recognition Models with Bullet-Screen Comments

45

Xiaojun Jia1,2, Yong Zhang,Baoyuan Wu, Ke Ma, Jue Wang,Xiaochun Cao


所CVPR 2022

LAS-AT: Adversarial Training with Learnable Attack Strategy

46Mei Wang, Yaobin Zhang,Weihong Deng 北京邮电大学 TPAMI 2021

Meta Balanced Network for Fair Face Recognition

47

Xiaojun Jia, Yong Zhang, XingxingWei, Baoyuan Wu, Ke Ma,JueWang, Xiaochun Cao


所ECCV 2022

Prior-Guided Adversarial Initialization for Fast Adversarial Training

48

Zhipeng Wei, Jingjing Chen, MicahGoldblum, ZuxuanWu, TomGoldstein, and Yu-Gang Jiang

复旦大学 AAAI 2022

Towards Transferable Adversarial Attacks on Vision Transformers

49 Xiuwen Fang, Mang Ye 武汉大学 CVPR 2022Robust Federated Learning with Noisy and Heterogeneous Clients

50 Wenke Huang, Mang Ye, Bo Du 武汉大学 CVPR 2022Learn from Others and Be Yourself in Heterogeneous Federated Learning

113

51Yijun Yang, Ruiyuan Gao, QiangXu 香港中文大学 ECCV 2022

Out-of-Distribution Detection with Semantic Mismatch under Masking

52

Hao Huang, Yongtao Wang,Zhaoyu Chen, Yuze Zhang, YuhengLi, Zhi Tang, Wei Chu, JingdongChen, Weisi Lin, Kai-Kuang Ma

北京大学 AAAI 2022

CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for CombatingDeepfakes

53

Zhenyu Huang, Guocheng Niu,Xiao Liu, Wenbiao Ding, XinyanXiao, Hua Wu, Xi Peng

四川大学 NeurIPS 2021

Learning with Noisy Correspondence for Cross-modal Matching

54Jingyu Wang, Hongmei Wang,Xuelong Li, Feiping Nie 西北工业大学 TPAMI2021

Ratio Sum vs. Sum Ratio Linear Discriminant Analysis

55Yuqiao Liu, Yehui Tang, YananSun 四川大学 ICCV 2021

Homogeneous architecture augmentation for neural predictor

56

Mouxing Yang, Zhenyu Huang,Peng Hu, Taihao Li, Jiancheng Lv,Xi Peng

四川大学 CVPR 2022

Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

57

Runzhong Wang, Zhigang Hua,Gan Liu, Jiayi Zhang, Junchi Yan,Feng Qi, Shuang Yang, Jun Zhou,Xiaokang Yang

上海交通大学 NeurIPS 2021

A bi-level framework for learning to solve combinatorial optimization on graphs.

58

Xi Peng, Yunfan Li, Ivor W. Tsang,Hongyuan Zhu, Jiancheng Lv, JoeyTianyi Zhou

四川大学 JMLR 2022

XAI Beyond Classification: Interpretable Neural Clustering

59

Xiaotong Li, Yongxing Dai, YixiaoGe, Jun Liu, Ying Shan, Ling-YuDuan

北京大学腾讯 ARC ICLR 2022

Uncertainty Modeling for Out-of-Distribution Generalization

60

Pan Du, Suyun Zhao, Hui Chen,Shuwen Chai, Hong Chen, CuipingLi

中国人民大学 ICCV 2021

Contrastive Coding for Active Learning under Class Distribution Mismatch

61

Yuyang Liu, Yang Cong, Gan Sun,Tao Zhang, Jiahua Dong andHongsen Liu

中国科学院沈阳自动化研

究所TIP 2021

L3DOC:Lifelong 3D object classification

62

ChaodaZheng, Xu Yan, JiantaoGao, Weibing Zhao, Wei Zhang,Zhen Li, and Shuguang Cui

香港中文大学（深圳） ICCV 2021

Box-Aware Feature Enhancement for Single Object Tracking on Point Clouds

63 Longkun Zou, Hui Tang, Ke Chen,and Kui Jia 华南理工大学 ICCV2021

114

Geometry-Aware Self-Training for Unsupervised Domain Adaptation on Object PointClouds

64

Jiayi Chen, Yingda Yin, TolgaBirdal, Baoquan Chen, LeonidasGuibas, He Wang

北京大学 CVPR 2022

Projective Manifold Gradient Layer for Deep Rotation Regression

65Zimeng Zhao, Binghui Zuo, WeiXie and Yangang Wang 东南大学 CVPR 2022

Stability-driven Contact Reconstruction From Monocular Color Images

66

Xingyu Chen, Yufeng Liu, YajiaoDong, Xiong Zhang, ChongyangMa, Yanmin Xiong, Yuan Zhang,Xiaoyan Guo

快手科技 CVPR 2022

MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image

67

Jian Cheng, Yanguang Wan, DexinZuo, Cuixia Ma, Jian Gu, Ping Tan,Hongan Wang, Xiaoming Deng,Yinda Zhang

中国科学院软件研究所 AAAI 2022

Efficient Virtual View Selection for 3D Hand Pose Estimation

68

Baowen Zhang, Yangang Wang,Xiaoming Deng, Yinda Zhang, PingTan, Cuixia Ma, Hongan Wang

中国科学院软件研究所 ICCV 2021

Interacting Two-Hand 3D Pose and Shape Reconstruction from Single Color Image

69Yingda Yin, Yingcheng Cai, HeWang, and Baoquan Chen 北京大学 CVPR 2022

FisherMatch: Semi-Supervised Rotation Regression via Entropy-based Filtering

70

Zimeng Zhao, Xi Zhao andYangang Wang 东南大学 ICCV 2021

TravelNet: Self-supervised Physically Plausible Hand Motion Learning From MonocularColor Images

71

Wenbin Lin, Chengwei Zheng,Jun-Hai Yong, Feng Xu 清华大学 CVPR2022

OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3DReconstruction

72Kehan Wang, Jia Zheng, and ZihanZhou 群核科技 CVPR 2022

Neural Face Identification in a 2D Wireframe Projection of a Manifold Object

73Jiwei Xiao, Ruiping Wang, andXilin Chen


所ICCV 2021

Holistic Pose Graph: Modeling Geometric Structure among Objects in a Scene usingGraph Inference for 3D Object Prediction.

74Zhongkai Zhou, Xinnan Fan,Pengfei, Yuanxue Xin 河海大学 iccv21

R-MSFM: Recurrent Multi-Scale Feature Modulation for Monocular Depth Estimating

75

Shuaifeng Zhi, Tristan Laidlow,Stefan Leutenegger, Andrew J.Davison

国防科技大学 ICCV 2021

In-Place Scene Labelling and Understanding with Implicit Scene Representation

76Ronghan Chen, Yang Cong

中国科学院沈阳自动化研

究所CVPR 2022

115

The Devil is in the Pose: Ambiguity-free 3D Rotation-invariant Learning via Pose-awareConvolution

77

Buzhen Huang, Liang Pan,YuanYang, Jingyi Ju, and YangangWang

东南大学 CVPR 2022

Neural MoCon: Neural Motion Control for Physically Plausible Human Motion Capture

78

Jiawei Zhang, Xiang Wang, XiaoBai, Chen Wang, Lei Huang,YiminChen, Lin Gu, Jun Zhou, TatsuyaHarada, Edwin Hancock

北京航空航天大学 CVPR 2022

Revisiting Domain Generalized Stereo Matching Networks from a Feature ConsistencyPerspective

79Xueyi Liu, Xiaomeng Xu, AnyiRao, Chuang Gan, Li Yi 清华大学 CVPR 2022

AutoGPart: Intermediate Supervision Search for Generalizable 3D Part Segmentation

80

Hao Zhao, Jinsong Zhang,Yu-Kun Lai, Zerong Zheng, YingdiXie, Yebin Liu, Kun Li

天津大学 CVPR2022

High-fidelity human avatars from a single RGB camera

81

Xinyu Yi, Yuxiao Zhou, MarcHabermann, Soshi Shimada,Vladislav Golyanik, ChristianTheobalt, Feng Xu

清华大学 CVPR 2022

Physical Inertial Poser (PIP): Physics-aware Real-time Human Motion Tracking fromSparse Inertial Sensors

82Buzhen Huang, Tianshu Zhang andYangang Wang 东南大学 TIP 2022

Pose2UV: Single-shot Multi-person Mesh Recovery with Deep UV Prior

83 Shaoqian Wan，Bo Li，Yuchao Dai 西北工业大学 CVPR2022Efficient Multi-view Stereo by Iterative Dynamic Cost Volume

84

Pengfei Chen, Leida Li, Jinjian Wu,Weisheng Dong, and GuangmingShi

西安电子科技大学 ICCV 2021

Unsupervised Curriculum Domain Adaptation for No-Reference Video QualityAssessment

85Hao Lu, Yutong Dai, ChunhuaShen, and Songcen Xu 华中科技大学 TPAMI 2022

Index Networks

86

Boyun Li, Xiao Liu, Peng Hu,Zhongqin Wu, Jiancheng Lv, andXi Peng

四川大学 CVPR 2022

All-In-One Image Restoration for Unknown Corruption

87 Bin Chen, Jian Zhang 北京大学深圳研究生院 TIP 2022Content-aware Scalable Deep Compressed Sensing

88

Zixiang Zhao, Jiangshe Zhang,Shuang Xu, Zudi Lin, HanspeterPfister

西安交通大学 CVPR 2022

Discrete Cosine Transform Network for Guided Depth Map Super-Resolution89 Qiming Hu and Xiaojie Guo 天津大学 NeurIPS 2021

116

Trash or Treasure? An Interactive Dual-Stream Strategy for Single Image ReflectionSeparation

90

Yinhuai Wang, Yujie Hu, and JianZhang 北京大学 AAAI 2022

Panini-Net: GAN Prior Based Degradation-Aware Feature Interpolation for FaceRestoration

91

Zhen Li, Cheng-Ze Lu, Jianhua Qin,Chun-Le Guo, and Ming-MingCheng

南开大学 CVPR 2022

Towards An End-to-End Framework for Flow-Guided Video Inpainting

92

Zhilu Zhang, Haolin Wang, MingLiu, Ruohao Wang, Jiawei Zhang,and Wangmeng Zuo

哈尔滨工业大学 ICCV 2021

Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision

93

Wei Shang，Dongwei Ren，Dongqing Zou，Jimmy S. Ren，PingLuo，Wangmeng Zuo

哈尔滨工业大学 ICCV 2021

Bringing Events into Video Deblurring with Non-consecutively Blurry Frames

94

Yi Li, Yi Chang, Changfeng Yu,Luxin Yan 华中科技大学 AAAI 2022

Close the Loop: A Unified Bottom-up and Top-down Paradigm for Joint Image Derainingand Segmentation

95

Man Zhou, Xueyang Fu, Zeyu Xiao,Aiping Liu, Gang Yang, ZhiweiXiong

中国科学技术大学 NeurIPS 2021

Unfolding Taylor's Approximations for Image Restoration

96

Man Zhou, Jie Huang, Keyu Yan,Gang Yang, Aiping Liu, ChongyiLi, Feng Zhao

中国科学技术大学，南洋理

工大学ACM-MM 2022

Normalization-based Feature Selection and Restitution forPan-sharpening

97Man Zhou, Keyu Yan, Jie Huang,Zihe Yang, Xueyang Fu, Feng Zhao

中国科学院合肥物质科学

研究院，中国科学技术大学CVPR 2022

Mutual Information-driven Pan-sharpening

98

Yuntong Ye, Changfeng Yu, YiChang, Lin Zhu, Luxin Yan,Yonghong Tian

华中科技大学 CVPR 2022

Unsupervised Deraining: Where Contrastive Learning Meets Self-similarity

99 Chong Mou 北京大学 ICCV 2021Dynamic attentive graph learning for image restoration

100

Man Zhou, Jie Huang, Keyu Yan,Hu Yu, Xueyang Fu, AipingLiu,Xian Wei, and Feng Zhao

中国科学技术大学 ECCV 2022

Spatial-Frequency Domain Information Integration for Pan-sharpening

101

Chaoda Zheng, Xu Yan, HaimingZhang, Baoyuan Wang, ShenghuiCheng, Shuguang Cui, Zhen Li

香港中文大学深圳 CVPR2022

Beyond 3D Siamese Tracking: A Motion-Centric Paradigm for 3D Single Object Trackingin Point Clouds

102 Chao Liang, Zhipeng Zhang, XueZhou,Bing Li, Weiming Hu 电子科技大学 AAAI2022

117

One More Check: Making” Fake Background” Be Tracked Again

103

Ruize Han, Wei Feng, YujunZhang, Jiewen Zhao, Song Wang 天津大学 TPAMI 2022

Multiple Human Association and Tracking from Egocentric and Complementary TopViews

104

Feng Li, Hao Zhang, Shilong Liu,Jian Guo, Lionel M.Ni, and LeiZhang

香港科技大学 CVPR 2022

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

105Yifan Zhang 国防科技大学 CVPR 2022Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDARPoint Clouds

106Pengyu Zhang, Jie Zhao, DongWang, Huchuan Lu, Xiang Ruan 大连理工大学 CVPR2022

Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline

107

Yujun Zhang，Lei Zhu，Wei Feng，Huazhu Fu，Mingqian Wang，Qingxia Li，Cheng Li，and SongWang

天津大学 ICCV 2021

VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection

108Lue Fan, Xuan Xiong, Feng Wang,Naiyan Wang, Zhaoxiang Zhang 图森未来 ICCV2021

RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

109

Meilin Chen, Weijie Chen, ShicaiYang, Jie Song, Xinchao Wang, LeiZhang, Yunfeng Yan, Donglian Qi,Yueting Zhuang, Di Xie, ShiliangPu

浙江大学 ICML 2022

Learning Domain Adaptive Object Detection with Probabilistic Teacher

110

Boyang Li，Chao Xiao，LongguangWang， Yingqian Wang，ZaipingLin，Miao Li，Wei An，Yulan Guo

国防科技大学 TIP 2022

Dense Nested Attention for Infrared Small Target Detection

111

Xiao Wang, Jin Tang, Bin Luo,Yaowei Wang, Yonghong Tian, andFeng Wu

安徽大学 TNNLS 2021

Tracking by Joint Local and Global Search: A Target-aware Attention based Approach

112

Zijie Wang, Aichun Zhu, JingyiXue, Xili Wan, Chao Liu, TianWang, Yifeng Li

南京工业大学 ACM MM 2022

CAIBC: Capturing All-round Information Beyond Color for Text-based Person Retrieval

113

Chenglong Li, Tianhao Zhu, LeiLiu, Xiaonan Si, Zilin Fan, andSulan Zhai

安徽大学 AAAI 2022

Cross-Modal Object Tracking:Modality-Aware Representations and A UnifiedBenchmark

114

Shilong Liu, Feng Li, Hao Zhang,Xiao Yang, Xianbiao Qi, Hang Su,Jun Zhu, Lei Zhang

清华大学，粤港澳大湾区数

字经济研究院（IDEA） ICLR 2022

DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR

118

115Andong Lu, Cun Qian, ChenglongLi, Jin Tang and Liang Wang 安徽大学 TNNLS 2022

Duality-Gated Mutual Condition Network for RGBT Tracking

116Jinheng Xie, Xianxu Hou, Kai Ye,Linlin Shen 深圳大学 CVPR 2022

CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation

117

Jian-Fang Hu, Jiangxin Sun, ZihangLin, Jian-Huang Lai, Wenjun Zeng,Wei-Shi Zheng

中山大学 TPAMI 2021

APANet: Auto-Path Aggregation for Future Instance Segmentation Prediction

118

Kailai Zhou, Yibo Wang, Tao Lv,Yunqian Li, Linsen Chen, QiuShen, Xun Cao

南京大学 CVPR 2022

Explore Spatio-temporal Aggregation for Insubstantial Object Detection: BenchmarkDataset and Baseline

119

Xixi Xu, Zhongang Qi*, Jianqi Ma,Honglun Zhang, Ying Shan, XiaohuQie

ARC Lab, Tencent PCG CVPR 2022

BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild

120

Depu Meng*, Xiaokang Chen*,Zejia Fan, Gang Zeng, Houqiang Li,Yuhui Yuan, Lei Sun, JingdongWang

北京大学 ICCV 2021

Conditional DETR for Fast Training Convergence

121 Jing Jiang, Weihong Deng 北京邮电大学 TAFFC 2021Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher

122

Xingxun Jiang, Yuan Zong,Wenming Zheng, Chuangao Tang,Wanchuang Xia, Cheng Lu, andJiateng Liu

东南大学 ACMMM 2020

DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions in the Wild

123

Zhiwen Shao, Hengliang Zhu,Junshu Tang, Xuequan Lu, andLizhuang Ma

中国矿业大学 TIP 2021

Explicit Facial Expression Transfer via Fine-Grained Representations

124Sicheng Zhao, Guoli Jia, JufengYang, Guiguang Ding, Kurt Keutzer 南开大学 IEEE SPM 2021

Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies

125

Tianshui Chen, Tao Pu, Hefeng Wu,Yuan Xie, Lingbo Liu, Liang Lin. 中山大学 TPAMI 2021

Cross-Domain Facial Expression Recognition: A Unified Evaluation Benchmark andAdversarial Graph Learning

126

Lingfeng Yang, Xiang Li, RenjieSong, Borui Zhao, Juntian Tao,Shihao Zhou, Jiajun Liang, and JianYang

南京理工大学 CVPR 2022

Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical andTemporal Information

127 Bo Pang, Yifan Zhang, Yaoyi Li,Jia Cai, Cewu Lu 上海交通大学 ECCV 2022

119

Unsupervised Visual Representation Learning by Synchronous Momentum Grouping

128

Tong Zhang, Congpei Qiu, Wei Ke,Sabine Süsstrunk, and MathieuSalzmann

西安交通大学 CVPR 2022

Leverage Your Local and Global Representations: A New Self-Supervised LearningStrategy

129

Yizhou Wang, Shixiang Tang, FengZhu, Lei Bai, Rui Zhao, DonglianQi, Wanli Ouyang

浙江大学 CVPR 2022

Revisiting the Transferability of Supervised Pretraining: an MLP Perspective

130

Hezhen Hu, Weichao Zhao,Wengang Zhou, Yuechen Wang,Houqiang Li

中国科学技术大学 ICCV 2021

SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign LanguageRecognition

131

Zan Gao，YiBo Zhao，Hua Zhang，Da Chen，An-An Liu，ShengYongChen

天津理工大学 TCYB

A Novel Multiple-View Adversarial Learning Network for Unsupervised DomainAdaptation Action Recognition

132

Zhiwu Qing, Shiwei Zhang, Yi Xu,Ziyuan Huang, Xiang Wang,Mingqian Tang, Changxin Gao,Rong Jin, and Nong Sang

华中科技大学 CVPR 2022

Learning from Untrimmed Videos: Self-Supervised Video Representation Learning withHierarchical Consistency

133

Shuyuan Li, Huabin Liu, Rui Qian,Yuxi Li, John See, Mengjuan Fei,Xiaoyuan Yu, Weiyao Lin

上海交通大学 AAAI 2022

TA2N: Two-Stage Action Alignment Network for Few-shot Action Recognition

134Yang Liu, Keze Wang, Lingbo Liu,Haoyuan Lan, Liang Lin 中山大学 TIP 2022

TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning

135Yuecong Min, Aiming Hao,Xiujuan Chai and Xilin Chen


所ICCV 2021

Visual Alignment Constraint for Continuous Sign Language Recognition

136

Ailing Zeng, Xuan Ju, Lei Yang,Ruiyuan Gao, Xizhou Zhu, Bo Dai,Qiang Xu

香港中文大学 ECCV 2022

DeciWatch: A Simple Baseline for 10× Efficient 2D and 3D Pose Estimation

137

Beihao Xia, Conghao Wong, QinmuPeng, Wei Yuan, Xinge You 华中科技大学 PR 2022

CSCNet: Contextual Semantic Consistency Network for Trajectory Prediction in CrowdedSpaces

138

Conghao Wong, Beihao Xia,Ziming Hong, Qinmu Peng, WeiYuan, Qiong Cao, Yibo Yang, andXinge You

华中科技大学 ECCV 2022

View Vertically: A Hierarchical Network for Trajectory Prediction via Fourier Spectrums139 Bin Fan, Yuchao Dai 西北工业大学 ICCV 2021

120

Inverting a Rolling Shutter Camera: Bring Rolling Shutter Images to High FramerateGlobal Shutter Video

140

Hancheng Zhu, Leida Li, JinjianWu, Weisheng Dong, andGuangming Shi

中国矿业大学 CVPR 2020

MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment

141Chu Zhou, Minggui Teng, YufeiHan, Chao Xu, Boxin Shi 北京大学 NIPS 2021

Learning to dehaze with polarization

142

Yingqian Wang, Longguang Wang,Zhengyu Liang, Jungang Yang, WeiAn, Yulan Guo

国防科技大学 CVPR 2022

Occlusion-Aware Cost Constructor for Light Field Depth Estimation

143

Yingqian Wang, Longguang Wang,Gaochang Wu, Jungang Yang, WeiAn, Jingyi Yu, Yulan Guo

国防科技大学 TPAMI 2022

Disentangling Light Fields for Super-Resolution and Disparity Estimation

144Lang Nie, Chunyu Lin, Kang Liao,Shuaicheng Liu, Yao Zhao 北京交通大学 CVPR 2022

Deep Rectangling for Image Stitching: A Learning Baseline

145

Lu Sun, Weisheng Dong, Xin. Li,Jinjian Wu, Leida Li, andGuangming Shi

西安电子科技大学 IJCV 2021

Deep maximum a posterior estimator for video denoising

146

Jieji Ren, Feishi Wang, JiahaoZhang, Qian Zheng, Mingjun Ren,and Boxin Shi

北京大学 CVPR 2022

DiLiGent102: A Photometric Stereo Benchmark Dataset with Controlled Shape andMaterial Variation

147

Ajian Liu, Chenxu Zhao, ZitongYu, Jun Wan, Anyang Su, Xing Liu,Zichang Tan, Sergio Escalera,Junliang Xing, Yanyan Liang,Guodong Guo, Zhen Lei, Stan Z. Li,Du Zhang

中国科学院自动化研究所 TIFS 2022

Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face Presentation AttackDetection

148

Tianshuo Xu, Yuhang Wu, XiawuZheng, Teng Xi, Gang Zhang, ErruiDing, Fei Chao, Rongrong Ji

厦门大学 ACMMM 2021

CDP: Towards Optimal Filter Pruning via Class-wise Discriminative Power

149

Jianhui Chang, Zhenghui Zhao,Chuanmin Jia, Shiqi Wang, LingboYang, Qi Mao, Jian Zhang andSiwei Ma

北京大学 TIP 2022

Conceptual compression via deep structure and texture synthesis

150

Binjie Zhang, Yixiao Ge, YantaoShen, Yu Li, Chun Yuan, XuyuanXu, Yexin Wang, Ying Shan

清华大学，腾讯 ARC ICLR 2022

Hot-Refresh Model Upgrades with Regression-Alleviating Compatible Training in ImageRetrieval

121

151Binglu Wang, Tao Hu, BaoshanLi,Xiaojuan Chen, Zhijie Zhang 西安建筑科技大学 CVPR 2022

GaTector: A Unified Framework for Gaze Object Prediction

152

Yongwei Chen, Zihao Wang,Longkun Zou, Ke Chen, Kui Jia 华南理工大学 ECCV 2022

Quasi-Balanced Self-Training on Noise-Aware Synthesis of Object Point Clouds forClosing Domain Gap

153Jie Xiao, Man Zhou, Xueyang Fu,Aiping Liu, Zheng-Jun Zha 中国科学技术大学 ICCV 2021

Improving De-raining Generalization via Neural Reorganization

154Peng Ye, Baopu Li, Yikang Li, TaoChen, Jiayuan Fan, Wanli Ouyang fudan university CVPR2022 oral

β-DARTS: Beta-Decay Regularization for Differentiable Architecture Search

155

Longguang Wang, Xiaoyu Dong,Yingqian Wang, Li Liu, Wei An,and Yulan Guo

国防科技大学 CVPR 2022

Learnable Lookup Table for Neural Network Quantization

156

Xiaohua Chen, Yucan Zhou, DayanWu, Wanqian Zhang, Yu Zhou, BoLi, Weiping Wang

中科院信工所 AAAI 2022

Imagine by Reasoning: A Reasoning-Based Implicit Semantic Data Augmentation forLong-Tailed Classification

157

Tianshui Chen, Tao Pu, Hefeng Wu,Liang Lin. 中山大学

AAAI 2022;AAAI 2022

Structured Semantic Transfer for Multi-Label Recognition with Partial Labels;Semantic-Aware Representation Blending for Multi-Label Image Recognition with PartialLabels

158

Song Chen, Jing-Hao Xue, JianlongChang, Jianzhong Zhang, JufengYang, Qi Tian

南开大学 TIP 2021

SSL++: Improving Self-supervised Learning by Mitigating the Proxy Task-SpecificityProblem

159

Xiang An, Jiankang Deng, Jia Guo,Ziyong Feng, XuHan Zhu, JingYang and Tongliang Liu

格灵深瞳 CVPR 2022

Killing Two Birds with One Stone:Efficient and Robust Training of Face RecognitionCNNs by Partial FC

160 Jingyu Wang, Zhenyu Ma, FeipingNie, Xuelong Li

西北工业大学

IEEETransactions onNeural Networksand LearningSystems

Fast Self-Supervised Clustering With Anchor Graph

161 Jiarun Liu, Ruirui Li, Chuan Sun 北京化工大学 TMI 2021Co-Correcting: Noise-Tolerant Medical Image Classification via Mutual Label Correction

122

赞助商简介铂金赞助商

图森未来

图森未来于 2015 年 9月成立，在中国、美国设有研发中心，员工超过 1000人。2021 年

2月，图森未来完成超过 4.15亿美元的 E轮融资。4月，图森未来正式登陆纳斯达克挂牌上

市，成为全球无人驾驶第一股。

图森未来自主研发的以摄像头为主要传感器，融合激光雷达、毫米波雷达的 L4 级无人

驾驶卡车解决方案，具备感知、定位、决策、控制等无人驾驶核心功能，能够实现货运卡车

在干线物流场景和半封闭枢纽场景下的全无人驾驶。

目前，图森未来已率先在中国、美国和欧洲多地展开测试和商业化试运营，持续获得主

营收入。

在中国，获得首张无人驾驶卡车公开道路测试牌照和示范应用资格，并在东海大桥开展

应用于洋山港和芦潮港中心站等物流场景的多式联运。在美国，图森未来已经开始向包括

UPS、McLane在内的 18家客户提供无人驾驶物流服务。在欧洲，于瑞典南泰利耶（Södertälje）和延雪平（Jönköping）之间的 E4高速公路上进行载货无人驾驶卡车测试。

铂金赞助商

AutoDL

视拓云团队来自于山世光老师创建的中科视拓，专注云计算和 AI 开发者社区两个细分

领域，面向“大 AI 圈”内的科研工作者运营 AutoDL.com 和 CodeWithGPU.com 两个产品。

AutoDL 提供弹性、好用、省钱的 GPU 云算力；CodeWithGPU 提供算法复现服务和内容交

流社区。有算法就有复现，能复现才是好算法，复现算法就上 CodeWithGPU.com.

铂金赞助商

华为

华为是全球领先的 ICT基础设施和智能终端提供商，致力于把数字世界带入每个人、每

个家庭、每个组织，构建万物互联的智能世界。我们在通信网络、IT、智能终端和云服务等

领域为客户提供有竞争力、安全可信的产品、解决方案与服务，持续为客户创造价值。

华为云 EI是企业智能的使能者，通过云服务的方式（公有云、专属云等模式），提供一

个开放、可信、智能的平台，结合产业场景，使能企业应用系统能看、能听、能说，让更多

的企业便捷地使用 AI和大数据服务，加速业务发展，造福社会。

华为消费者 BG AI 技术应用部是华为面向全场景智慧硬件的 AI 应用技术研发和能力中

心。聚焦基于 1+8硬件的计算机视觉、听觉、多传感器融合感知和识别技术、算力提升和数

123

据分析预测技术，致力于面向消费者全场景打造 1+8 产品的硬件智慧体验。

中央媒体技术院是华为公司媒体技术创新与工程能力中心，肩负着公司手机拍照、

ARVR、视频、音频及音视频标准、媒体体验与测评等领域的技术研究、创新和突破任务，

确保华为公司媒体产品技术竞争力业界持续领先。

诺亚方舟实验室是华为的人工智能研究中心，立足于人工智能基础算法研究，聚焦打造

数据高效和能耗高效的 AI引擎，推动计算机视觉、语音和自然语言处理、决策推理等 AI领域发展，助力华为公司主航道业务 AI使能。

铂金赞助商

OPPO

OPPO是全球五大智能手机品牌之一，也是全球领先的智能设备制造商和创新者。作为

技术驱动型的科技公司，OPPO在全球建立了 9大智能制造中心、6大研究所、5大研发中心，

以人工智能、云服务、大数据等前沿技术驱动、软件产品和互联网服务的开发，引领 5G、AI、影像处理、新材料新工艺等技术在智能终端上的发展应用。万物互融时代，OPPO坚持

“3+N+X”的科技跃迁战略。其中“3”指的是三项基础技术，包括硬件基础技术、软件基础技术

和服务基础技术；“N”指的是能力中心，包括互联互通、多媒体、人工智能和安全隐私等；“X”指的是差异化技术，其中包含了 OPPO的强项闪充、影像、新形态和 AR 增强现实技术等。

截至 2021 年 3月，OPPO全球专利申请数量超过 61,000 件，专利授权数量超过 26,000件，并仍在持续增长。据世界知识产权组织(WIPO)发布 2020 年国际专利条约(PCT)申请数量

排行榜，OPPO全球排名前十。

专利搭载在产品上，就变成了功能与用户体验。除了持续引领 SUPERVOOC闪充生态，

推进 5G 普及之外，OPPO近期迭代了一系列凝结科技的功能：凭借更准确的语义分析与用

户实现情感交互冰冷的小布助手，带动机器学习与语音语义突破；借助全链路色彩管理系统、

感知人像与画质增强引擎、视频防抖，背后是计算机视觉与多媒体等技术在硬件及软件上的

创新。

OPPO 在智能终端布局日趋完善，以高端旗舰 Find X3 系列手机、Reno5 系列新品手机

等智能手机为中心，持续完善 IoT生态场景，推出了智能电视、OPPOWatch、OPPO手环、

Enco X真无线降噪耳机等产品，为用户提供智能美好的完整体验。

在前沿科技层面，OPPO秉承对美的一贯追求。OPPO X 2021 卷轴屏概念机是 OPPO手

机形态探索的最新成果，屏幕可如画卷般伸展，呈现几乎“零折痕”的屏幕效果。OPPO ARGlass 2021则结合了全时空间计划 AR应用，探索“虚实融合”数字世界进一步升级。

铂金赞助商

SK集团

124

铂金赞助商

真格基金

真格基金是由徐小平、王强先生于 2011年联合红杉资本中国基金创立的早期投资机构，累计管理资金总规模超 10亿美元。真格基金自创立伊始，一直积极在互联网、移动互联网、未来科技、人工智能、企业服务、医疗健康、大消费、教育等领域寻找最优秀的创业团队和引领时代的投资机会。

真格基金陆续投资了 700 余家创业公司，从早期陪伴了兴盛优选、美菜、小红书、Nuro、VIPKID、依图科技、英雄互娱、地平线、Momenta、找钢网、罗辑思维、禾赛科技、出门问问、蜜芽、晶泰科技等公司成长为独角兽企业。自 2011年起，真格基金被投公司世纪佳缘(NASDAQ: DATE)、聚美优品(NYSE: JMEI)、兰亭集势(NYSE: LITB)、51Talk(NYSE: COE)、牛电科技(NASDAQ: NIU)、老虎证券(NASDAQ: TIGR)、亿航智能(NASDAQ: EH)、逸仙电商(NYSE: YSG)、优客工场(NASDAQ: UK)、水滴(NYSE: WDH)等陆续上市，超过 50个项目通过多种方式实现退出，获得投资回报。自 2014 年清科“中国股权投资年度排名”设立早期投资机构排名以来，真格基金已连续 6年获得“中国早期投资机构 30强”第 1名；真格基金创始人徐小平从 2016 年起连续五年入选福布斯“全球最佳创投人榜单( the Midas List )”，在 2019年榜单中排名第 11位。

真格基金总部位于北京，并陆续布局上海和深圳。“寻找真正优秀的创业者，缔造引领科技创新并改变世界的伟大公司”是徐小平和王强先生创立真格的初衷。真格基金具有的诚信正直、友善谦卑、亲和温暖、专业效率与理想主义并重的文化价值观得到了海内外创业者的认可和赞赏。

做创业者的垫脚石，真格正在不懈努力。

金牌赞助商

思谋科技

思谋科技（SmartMore)，专注先进技术赋能智能制造与数智创新，以“致力持续创新，

创造卓越价值”为使命，旨在引领制造产业优化、机器视觉等前沿技术研究，持续打造更具

拓展性和普惠价值的智能工业和数智创新平台，推动探索数字化转型和智能化升级的创新未

来。目前，思谋科技已通过自研的智能工业平台、智能传感器产品以及智能一体化设备，服

务了卡尔蔡司、空客、博世、佳能、大陆集团、舍弗勒、宝洁、联合利华等来自全球的超过

100 家行业头部企业，以技术促进更高效、更灵活、更先进智造的发展；此外，思谋还不断

拓宽智造外延，基于“智造+”平台与数智化解决方案，逐步在交通、广电、文旅、环境等

多领域落地数智化服务。思谋科技由计算机视觉国际顶尖专家、香港中文大学终身教授、IEEEFellow 贾佳亚创立，公司已在香港、深圳、上海、北京、苏州、杭州、重庆、新加坡和日本

东京等多地设有前沿技术研发与商务中心。

125

金牌赞助商

Nreal

Nreal 是一家引领创新的增强现实（AR）科技公司，致力于打造下一代虚实融合的交互

范式，提供人人触手可及的 AR体验。

Nreal 率先将 AR眼镜、手机厂商、电信运营商、AR 内容生态全链条连接打通，并与全

球领先电信运营商合作，推动其消费级 AR 眼镜 Nreal Light 和 Nreal Air 在韩国、日本、欧

洲、美国等多个市场的商业化落地。

Nreal 曾于 2019 年 CES 获颁“最佳创业公司”大奖，成为该奖项设立以来唯一获此殊

荣的中国公司。在 Fast Company 评选的“2021 年十家 XR 领域最具创新性企业”榜单里，

是唯一上榜的中国公司。

金牌赞助商

闪马智能

上海闪马智能科技有限公司成立于 2019 年 4 月，是一家以人工智能为核心驱动力的新

一代视频大数据企业。公司前身为“七牛云人工智能实验室”，依托七牛海量视频数据，结

合 AI和大数据，聚焦“视频智能分析”，通过接入城市摄像头、线上视频资源，智能提醒城

市事件并解决社会问题。围绕自主研发的 ATOM 深度学习平台和 VisionMind 视频智能分析

平台，闪马智能建立了成熟的 AI工业化体系，双平台融合支持，实现算法模型快速迭代及

各类应用场景快速迁移，形成可用于智慧城市、工业生产和互联网内容安全等行业的视频智

能分析闭环。公司秉持科技创新理念，与国内顶级高校、科研院所的科学家开展产学研合作，

共同践行“创新中国”的国家战略，为建设“创新国家”而不懈努力。 2019 年 9月，闪马

智能完成金额为 5800 万元的第一轮融资，由线性资本领投，上海科创基金、红点中国、沛

华资本和波宜实业跟投。2020 年 6月 10日获得近亿元的第二轮融资，领投方为香港新世界

集团旗下六脉资本，第一轮融资股东线性资本、红点中国和沛华资本继续增持。2021 年 3月29日完成 2亿元第三轮融资，投资方为国创中鼎、线性资本、红点中国、六脉资本和沛华资

本。2022 年 8月 9日完成 4亿人民币第四轮融资，张江高科、张江集团、朗泰资本以及央视

融媒体基金联合领投，老股东国创中鼎、线性资本继续跟投。

126

金牌赞助商

传音控股

深圳传音控股股份有限公司，致力于成为新兴市场消费者最喜爱的智能终端产品和移动

互联服务提供商。自公司成立以来，传音一直着力为用户提供优质的以手机为核心的多品牌

智能终端，创立了 TECNO、itel及 Infinix 三大手机品牌，并基于自主研发的智能终端操作系

统和流量入口，为用户提供移动互联网服务。传音控股 2019 年于上海证券交易所科创板上

市。

2021 年传音手机整体出货量约 1.97亿部。据 IDC 数据，2021 年传音在全球手机市场的

占有率为 12.4%，排名第三。

传音将创新作为公司核心战略之一，分别在中国上海、深圳和重庆建立了自主研发中心。

影像部通过构建亿量级影像数据库和人工智能影像关键技术研发平台，多项智能影像关键技

术实现突破，如伸缩微距镜头、深肤色人像检测和美颜、人像暗逆光增强拍摄等。先后荣获

CVPR 2020 LIP 国际竞赛深肤色人像分割赛道冠军；主导多项移动终端计算摄影系统国际标

准 ITU-T 立项；2020年《深肤色影像人工智能关键技术研发平台》项目成功获得第十届“吴

文俊人工智能科技进步奖”。

传音控股在产学研领域也有深拓，和北邮、复旦、华师大、上海交大、西安交大、西工

大、香港理工等多所大学都有产学研合作，成立了博士后创新实践基地，诚邀业内专家和莘

莘学子一起加入共建传音的未来！

金牌赞助商

极视角科技

极市(Extreme Mar)是极视角科技旗下的 Al 开发者生态，为开发者提供一站式线上便

捷算法开发平台，同时提供大咖技术分享及直播、社区交流与线下沙龙、以及一系

列的算法竞赛等丰富的内容与服务。

极市开发者生态自 2015 年起，迄今已经积累超 240,000 名海内外专业算法开发者，

影响力覆盖 300,000+Al 从业者/学生群体，极市希望与开发者们一起打造计算机视

觉行业的生态圈，携手用算法改变世界。

金牌赞助商

百度

百度是拥有强大互联网基础的领先 AI公司。是全球为数不多的提供 AI芯片、软件架构

和应用程序等全栈 AI技术的公司之一，被国际机构评为全球四大 AI 公司之一。百度以“用科技让复杂的世界更简单”为使命，坚持技术创新，致力于“成为最懂用户，并能帮助人们成

长的全球顶级高科技公司”。

127

百度公司 2000 年 1月 1日创立于中关村，创始人李彦宏拥有“超链分析”技术专利，也使

中国成为美国、俄罗斯、和韩国之外，全球仅有的 4个拥有搜索引擎核心技术的国家之一。

百度每天响应来自 100余个国家和地区的数十亿次搜索请求，是网民获取中文信息和服务的

最主要入口，服务 10亿互联网用户。

基于搜索引擎，百度演化出语音、图像、知识图谱、自然语言处理等人工智能技术；最

近 10 年，百度在深度学习、对话式人工智能操作系统、自动驾驶、AI芯片等前沿领域投资，

使得百度成为一个拥有强大互联网基础的领先 AI公司。

金牌赞助商

奥比中光

奥比中光是行业领先的 3D视觉感知整体技术方案提供商。公司已构建起“全栈式技术研

发能力+全领域技术路线布局”的 3D视觉感知技术体系，在技术纵向上对包括深度引擎芯片、

感光芯片、专用光学系统等在内的核心底层技术以及 SDK、行业应用算法等全链路技术进行

全栈式自主研发，在技术横向上对结构光、iToF、双目、dToF、Lidar、工业三维测量进行全

领域布局。

以“让所有终端都能看懂世界”为使命，奥比中光坚持“3D 视觉传感器+自主底层核心技术

+完整应用方案”的市场定位，致力于将 3D视觉感知技术应用于“衣、食、住、行、工、娱、

医”等领域；在智能手机、线下零售等市场已率先突破百万级出货量，在生物识别、消费电

子、AIoT、工业三维测量等市场实现多项商业应用，服务全球超过 1000 家客户及众多开发

者。

奥比中光总部位于深圳，在上海、西安、美国密歇根设有分支机构。截至 2021 年，奥

比中光累计申请专利超 1100件，承担科技部国家重点研发计划项目“面向服务机器人的三维

视觉传感器研发及产业化应用”、“3D视觉感知广东省新一代人工智能开放创新平台”等多项

国家级、省级重大科研项目，荣获“吴文俊人工智能科技进步奖”、“中国专利优秀奖”、“中国

芯”优秀技术创新产品、“广东省科学技术奖科技进步奖一等奖”、“深圳市科技进步奖技术开

发类一等奖”等重要奖励。

金牌赞助商

腾讯优图实验室

腾讯优图实验室成立于 2012 年，是腾讯公司旗下顶级人工智能实验室。优图聚焦计算机视觉，专注人脸识别、图像识别、OCR 等领域开展技术研发和行业落地，在推动产业数字化升级过程中，优图始终专注基础研究、产业落地两条腿走路的发展战略，与腾讯云与智慧产业深度融合，挖掘客户痛点，切实为行业降本增效。与此同时，优图关注科技的社会价值，践行科技向善理念，致力于通过视觉 AI技术解决社会问题，帮助弱势群体。

128

金牌赞助商

金山办公

北京金山办公软件股份有限公司（688111.SH）（以下简称“金山办公”），是中国领先的

办公软件产品和服务提供商。作为一家源自中国的科技公司，秉持“让智慧绽放”的品牌理

念，金山办公在过去 34年持续深耕办公赛道，不断打磨技术和产品服务，始终致力于把最

简单高效的办公体验带给众多个人、家庭和组织，帮助个人用户更轻松快乐的创作和生活，

帮助组织客户更高效安全的运行与发展。

凭借以WPS、金山文档、稻壳儿等为代表的办公产品和服务，金山办公为来自全球 220多个国家和地区的用户提供办公服务，截至 2021 年 12月，公司主要产品月度活跃设备数为

5.44亿，其中WPS office PC版月度活跃设备数 2.19亿，移动版月度活跃设备数 3.21亿，持

续领先其他国产办公软件。

金牌赞助商

美团

美团的使命是“帮大家吃得更好，生活更好”。作为一家生活服务电子商务平台，公司聚焦“Food + Platform”战略，以“吃”为核心，通过科技创新，和广大商户与各类合作伙伴一起，努力为消费者提供品质生活，推动生活服务业需求侧和供给侧数字化升级。

2018 年 9月 20 日，美团正式在港交所挂牌上市。美团将始终坚持以客户为中心，不断加大在科技研发方面的投入，更好承担社会责任，更多创造社会价值，与广大合作伙伴一起发展共赢。

金牌赞助商

腾讯 ARC Lab

腾讯 ARC Lab 被称为腾讯 PCG的「侦察兵」、「特种兵」，站在腾讯探索挑战智能媒体相

关前沿技术的第一线.。它肩负着探索和挑战智能媒体相关前沿技术的使命，旨在成为世界一

流应用研究中心和行业的标杆。所属的 PCG 是一个集社交、流量和内容平台于一体的大型

事业群，业务需求覆盖了人工智能和大数据方面几乎所有的技术。ARC Lab 因此在研究领域

的广度、深度和科研产业一体化方面有着得天独厚的优势。自 2019年初成立以来，ARC Lab已吸引了一批高端人才加入,并通过和业务团队的协作，形成了一套解耦业务需求和科研的机

制，既减少了沟通成本又提高了技术落地的保障和效率。项目涉及的技术以视觉、音频和自

然语言处理为主，在音视频内容的生成、增强、检索和理解等方向发力。项目导向兼顾业务

需求和行业趋势，鼓励在技术上不断探索、创新和突破。

129

金牌赞助商

地平线

地平线是边缘人工智能计算平台的全球领导者。得益于前瞻性的软硬结合理念，地平线

自主研发兼具极致效能与开放易用性的边缘人工智能芯片及解决方案，可面向智能驾驶以及

更广泛的通用 AI 应用领域提供全面开放的赋能服务。目前，地平线是国内唯一一家实现汽

车智能芯片前装量产的企业。

银牌赞助商

美图影像

美图公司成立于 2008 年 10月，以人工智能为驱动，是中国领先的影像处理及社交平台。

美图公司的使命是“让每个人都能简单变美”，围绕着“美”创造了一系列软硬件产品如美图秀

秀、美颜相机、美拍、美图宜肤以及美图魔镜，改变了用户创造与分享美的方式。2016 年

12月 15日，美图公司在香港联合交易所（“联交所”）主板挂牌上市，股票代码 1357。2010 年，美图成立了美图影像实验室（MT Lab，Meitu Imaging & Vision Lab），致力于

研究计算机视觉及深度学习相关的前沿影像技术，如人脸技术（该项技术可精准检测及识别

人脸和面部特征）、极智美颜技术（通过分析使用者年龄、性别等人脸属性并据此定制个性

化美颜方案）、图像分割技术等。目前，美图影像实验室（MT Lab）已开发一系列专有技术，

注册超过 451 项专利（其中发明专利 256 项），并持有 192 项软件产品的著作权。2019 年 4月，美图影像实验室（MT Lab）正式上线美图 AI 开放平台（ai.meitu.com），专注于人脸技

术、人体技术、图像识别、图像处理、图像生成等核心领域，为客户提供经市场验证的专业

AI算法服务和解决方案。

130

银牌赞助商

鉴智机器人

鉴智机器人成立于 2021 年 10 月，专注于以视觉 3D 理解为核心的下一代自动驾驶方案

的研发。作为国内最早一批深耕人工智能算法、软件和芯片的领军者，创始团队有多年的合

作基础，具备成功的创业经历和商业落地经验。鉴智机器人成立半年时间内，已完成三轮融

资，并取得了一系列商务和研发进展鉴智机器人完整推出以视觉 3D理解为核心，基于软件

2.0架构，端到端数据驱动的高阶自动驾驶解决方案，已得到多家一线主机厂和主流 Tier1 的

关注，在多家主机厂量产车型上启动方案交付。鉴智机器人推出全栈自研的软硬一体产品—

双目视觉雷达 PhiGent Heimdallr，已完成 A样上车并启动客户送测。此外，团队自主研发的

以 3D理解为核心的自动驾驶感知新范式 BEVDet，在自动驾驶权威评测集 nuScenes 上获得

纯视觉 3D 目标检测世界第一名的成绩。未来，鉴智机器人将持续围绕“基于软硬件协同优

化，构建自动驾驶与机器人的 3D智能计算，实现机器与物理世界的智能化交互”这一愿景，

不断以创新的技术突破解决自动驾驶与机器人的关键基础性问题，并以可规模化量产的自动

驾驶产品与业务模式，持续为主机厂和一级供应商提供高性能、高性价比、高可靠性的解决

方案和产品服务。

银牌赞助商

坤前科技

南京坤前计算机科技有限公司成立于 2012 年，是全国排名前十的国产品牌服务器生产

商，也是国内领先的软硬件一体化解决方案提供商。致力于为客户提供深度定制的服务器解

决方案和“管家式”全流程服务。公司目前在南京、北京、深圳、上海、杭州、武汉等多地设

立了分支机构，销售网络及服务网点覆盖全国。

坤前团队拥有近 20 年丰富的服务器定制经验，多年来为近千家行业客户提供过差异化

的全流程服务器定制服务。公司产品已经广泛应用于人工智能、互联网、能源电力、智能制

造、软件、科研、教育、安防、政府、公安等行业领域。业界首创的“管家式”服务理念，更

是让坤前在服务器行业脱颖而出。

坤前于江苏仪征设有面积超过 12000 平米的智能制造生产基地，拥有多条 CELL、半自

动、自动化生产线，并配有先进的温湿度监测系统、功耗监测系统等，服务器年产量可达 10万台。提供包括通用服务器、AI服务器、存储服务器、高密度服务器、国产服务器以及按照

项目合作进行定制的服务器产品，多系列产品协同公司自研的 AI 管理平台、大数据挖掘等

软件产品形成整体解决方案。

经过数十年的行业积累和稳步发展，坤前与 Intel 、Supermicro、NVIDIA、Seagate、WesternDigital、华为、飞腾、龙芯、紫光存储等众多国内外技术领先的厂商都建立了战略合作伙伴

关系。

131

银牌赞助商

精测电子

武汉精测电子集团股份有限公司（股票简称：精测电子，股票代码 300567），创立于 2006年 4月，致力于成为“半导体、显示、新能源行业以测试设备为核心的综合服务提供商”。公

司打造以武汉、苏州、上海、北京四大产业基地和美、日、韩及中国台湾地区研发基地为中

心的全球化布局。

现有员工约 2400 人，研发人员超过 45%，研发投入强度超过 15%。与华中科技大学、

复旦大学产学研合作。精测电子荣获工信部 “制造业单项冠军示范企业”、“国家创新示范企

业”、“中国知识产权示范企业”等称号。

在显示检测领域，公司创造多项行业技术第一，提出子像素级评估系统和校准系统技术，

开发核心光学仪器和完整的检测、评估、校准方式，提高品质良率，技术专利荣获中国专利

金奖、日内瓦国际发明展金奖。

在半导体检测领域，精测电子致力于开发半导体前道制程量测检测技术，拥有国内领先

的电子束/离子束成像、光谱分析量测技术。在后道制程，在国内开发 ATE核心设备，优化

制程管控、提升品质良率，填补国内市场空白，助力半导体产业国产化进程。

在新能源检测领域，公司致力于锂电及燃料电池测试系统的开发及应用，已被纳入中航

锂电、比亚迪、宁德时代供应商体系。

精测电子将持续深化全球布局，加快科技创新步伐，深入开展产学研合作与协同创新，

推进支柱产业国产化转型升级，助力我国由制造大国向智造强国蜕变。

银牌赞助商

瑞莱智慧

瑞莱智慧 RealAI是全球领先的第三代人工智能技术基础设施和解决方案提供商，致力于

以安全、可靠、可解释、可扩展的第三代人工智能，为高价值场景智能化升级提供一站式赋

能平台。

RealAI孵化自清华大学人工智能研究院，由张钹院士、朱军教授共同担纲首席科学家。

团队坚持源头创新和底层研究，在国际测评和竞赛中多次斩获冠军、发表顶会期刊论文百余

篇，并参与多项国家及行业标准制定。

⽬前，RealAI 已在政务、⾦融、能源、制造、互联⽹等领域落地，为合作伙伴提供了⾦融智慧⻛控、智慧理财、⼯业设备预测性维护、⼈脸识别系统安全检测与增强等全套产品和

解决⽅案。

132

银牌赞助商

首都在线

北京首都在线科技股份有限公司作为国内较早的全球云网一体化云计算服务商，面

向全球客户提供优质的云计算、大数据、人工智能等技术产品与服务，打造贴近客户业

务场景的行业解决方案，致力于以云服务赋能数字经济。2005年成立于北京，2020 年成

功上市，股票代码 300846，立足中国，服务全球市场，业务范围遍及 50 多个国家，在

国内以及海外三大核心区域美洲、欧洲、亚太设有 24 个地域区域， 52个可用区， 94个数据中心，上千个边缘算力节点覆盖，只需 5分钟即可完成全球业务的多点部署。

历经 17年，形成了具备行业优势的弹性计算、全球网络、IDC 服务、数据处理和安

全等在内的云网一体化产品和服务，业务涵盖数字孪生、人工智能、工业互联网、车联

网、大数据、教育、金融、视频、电商、游戏、医疗、政企等多个行业领域，约 40%的

中国互联网百强企业都在使用首都在线的产品和服务。

首都在线紧抓“东数西算”、“一带一路”等带来的巨大机遇，前瞻性进行 5年战略发展

方向规划，打造温、冷、热数据的存算一体化解决方案，深入开发如 AI视觉、元宇宙、

云游戏等新兴行业，进一步加大对绿碳数据中心和数据合规离岸数据中心的研发投入，

最终助力客户积极响应环境的变化和挑战，为数字中国建设贡献一份力量！

银牌赞助商

思腾合力

思腾合力（SITONHOLY）成立于 2009 年，总部位于天津滨海区逸仙科学工业园，是

AI服务器与 HPC 基础架构解决方案商，作为 NVIDIA 精英级别合作伙伴，专注于人工智能

领域，提供云计算、AI服务器、AI工作站、系统集成、产品定制、软件开发、边缘计算等

产品和整体解决方案，拥有自主品牌 AI服务器及通用 X86 服务器，适用于深度学习训练及

推理等场景，覆盖服务器、静音工作站等多种产品形态，已经打造出了一套完全自主的软硬

件结合的产品生态，致力于成为行业领先的人工智能基础架构解决方案商。

思腾合力拥有完善的研发、生产、制造基地，2021年收购包头市易慧信息科技有限公司

开启云计算业务，形成以天津为生产及研发基地，北京为营销中心，南京、深圳、成都、武

汉、西安、内蒙古覆盖全国主要区域的营销和售后服务机构，为更全面地服务客户提供了有

力保障。

思腾合力成立十多年来深耕教育及科研行业，从业 AI领域研究、高性能计算的重点高

校百分之八十都采用了思腾产品及解决方案，为各专业的科学实验研究提供了完备的 AI加速解决方案。目前合作客户包括清华大学、北京大学、北京理工大学、中科院计算所、中科

院自动化所、中科院半导体所、中科院信息工程所，以及国内知名人工智能公司等各企事业

单位。

133

银牌赞助商

平安科技

平安科技（深圳）有限公司是平安集团旗下科技解决方案专家，践行“科技赋能金融、

科技驱动生态”的企业使命，赋能集团金融服务、医疗健康、汽车服务、智慧城市生态圈建

设，致力于成为国际领先的科技公司。截至 2021年，平安集团科技专利申请数累计达 38420项，人工智能、金融科技和数字医疗专利申请数全球第一。

平安科技承担多项国家科研项目，于 2013年取得“国家重点软件企业”、连续获评“国

家高新技术企业”。近年来曾获深圳《新 40 年·新 40 企》报告十大创新之星、深圳市人工

智能行业协会 2018 年度 SAIIA 优秀会员单位、2018 年度吴文俊人工智能科学技术进步奖-企业技术创新工程项目奖等多个奖项，2017-2020，平安科技连续四年入围 IDC Fintech 百强

榜，科技能力持续获认可。

与此同时，平安科技也逐渐在世界舞台崭露头角，在多个国际重量级比赛中斩获大奖。

平安翻译获同传比赛第一；自然语言理解算法团队在国际智能语义大赛 SemEval2021 12 项

子比赛中的 4 项子比赛夺冠，团队获集团“集体重大创新奖”表彰；医疗 Askbob 在 2021年 ACL 医疗问答多答案摘要比赛中获得第一；AI 风险预测模型首登国际肿瘤学重点期刊

JNCI，平安在肿瘤领域首次论文突破 AI 新药发现技术登顶国际计算生物学顶级期刊 BIB。平安科技将积极践行作为集团高科技内核的企业使命，持续孵化创新平台和构建云生

态，为推进平安集团“金融+科技”、“金融+生态”的战略蓝图积极贡献，不断为降本增效、

提高用户体验，而创新技术研发和应用。

银牌赞助商

天津泰达

Nreal 天津经济技术开发区（Tianjin Economic-Technological Development Area，缩写为

TEDA，音译为“泰达”），是 1984 年由国务院批复的全国首批国家级开发区之一。自 1997年起，天津经开区主要经济指标和综合发展水平在国家级开发区中持续保持领先，曾连续 16年蝉联中国开发区综合排名之首。经过三十余年的发展，泰达已成为中国经济规模最大、外

向型程度最高、综合投资环境最优的国家级开发区之一。

天津泰达产业发展集团有限公司是新时期天津经济技术开发区集合优势资产资源整合

重组的四大国有集团公司之一。注册资金 23 亿元人民币，管控资产总规模 733 亿元，共有

产业园 20 个，厂房 130栋，总面积约 210万平米，入住企业 1092 家，直接服务的产业人口

约 50 万人。共有包括高级人才公寓在内的各类公寓 23 处，建筑面积约 173 万平米，可入住

10万余人。定位于政府主导的市场化产业资源运营主体平台，构建了以产业促进为主、以科

技金融和园区运营为翼，以产业服务为支撑的“一主两翼一支撑”业务体系，致力于成为世

界一流的产业生态培育与运营商，打造具有全球影响力的服务产业发展的企业集团。

134

部分组织单位简介

主办单位：中国人工智能学会

中国人工智能学会（Chinese Association for Artificial Intelligence，CAAI）成立于 1981年，是经国家民政部正式注册的我国智能科学技术领域唯一的国家级学会，是全国性 4A级社会组织，挂靠单位为北京邮电大学；是中国科学技术协会的正式团体会员，具有推荐

“两院院士”的资格。

目前拥有 51个分支机构，包括 43个专业委员会和 8个工作委员会，覆盖了智能科学

与技术领域。学会活动的学术领域是智能科学技术，活动地域是中华人民共和国全境，基

本任务是团结全国智能科学技术工作者和积极分子通过学术研究、国内外学术交流、科学

普及、学术教育、科技会展、学术出版、人才推荐、学术评价、学术咨询、技术评审与奖

励等活动促进我国智能科学技术的发展，为国家的经济发展、社会进步、文明提升、安全

保障提供智能化的科学技术服务。

学会自主创办全球人工智能技术大会、中国人工智能大会、中国智能产业高峰论坛、

中国 AI+创新创业大赛、“华为杯”全国大学生智能设计竞赛、国际人工智能会议、IEEE 云

计算与智能系统国际会议等规模化、系列化学术活动。拥有“吴文俊人工智能科学技术奖”、“中国人工智能学会优秀博士学位论文评选”、“学会会士评选”、“学会先进个人”等多个奖

项与评选。

欢迎广大科技工作者踊跃加入中国人工智能学会！

主办单位：中国图象图形学学会

中国图象图形学学会（China Society of Image and Graphics，缩写 CSIG）成立于 1990年，是经国家民政部批准成立的国家一级学会，是中国科学技术协会的正式团体成员。由

从事图像图形基础理论与应用研究、软硬件技术开发及应用推广的专家学者和相关科技工

作者组成。

中国图象图形学学会的宗旨是团结广大图像图形领域的科技工作者，积极开展图像图

形基础理论和高新技术的研究，促进该学科技术的发展和在国民经济各个领域的推广应

用。本学会专业领域涵盖了数字图像处理、图像理解、计算机视觉、图像压缩与传输、体

视技术、科学计算可视化、虚拟现实、多媒体技术、模式识别、计算机图像图形学、医学

影像处理、计算机动画、空间信息系统等。

中国图象图形学学会的主要任务是：开展科学研究与学术交流，活跃学术思想，促进

学科发展，推广先进技术，发现、培养和举荐人才，提供技术咨询与服务，普及图像图形

科技知识，传播科学思想和方法，编辑出版学术和科普书刊，加强同国内外学术团体和科

技工作者的友好交往。

135

VALSE——学术华尔兹

VALSE发起于2011年，是Vision And Learning SEminar的简写，取“华尔兹舞”之意。

旨在为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提

供一个平等、自由的学术交流舞台。发起VALSE的主要动机是我们深感中国计算机视觉与

机器学习领域缺少一个以华人青年学者为主体的常态化学术交流舞台。有鉴于此，2011 年

初，山世光、潘纲、刘青山和颜水成共同讨论了发起一个视觉与学习领域华人青年学者研

讨会的想法，之后该想法得到了李学龙、徐东、周志华、马毅等青年学者的大力支持。为

此，首届视觉与学习青年学者研讨会于2011年4月8日-9日在杭州成功举行。此后，主要发

起人山世光、潘纲、刘青山、颜水成、李学龙等共同讨论确定了VALSE这一名称。之后由

山世光牵头起草、逐步完善了VALSE作为一个学术社区的组织原则和发展规划，特别是大

会讲者由指导委员会按照“诺贝尔奖”模式推荐和选举产生的原则。

截至目前，VALSE已成功举办11届，分别为VALSE2011（杭州），VALSE2012（西

安），VALSE2013（南京），VALSE2014（青岛），VALSE2015（成都），VALSE2016（武汉），VALSE2017（厦门），VALSE2018（大连），VALSE2019（合肥），VALSE2020（线上），VALSE2021（杭州）。VALSE2022将于2022年8月22-24日在天津举行，由中

国图象图形学学会、中国人工智能学会主办，天津大学承办，天津工业大学、天津科技大

学和天津市人工智能学会等单位协办。除大会演讲之外，VALSE年度大会还不断推陈出新，

逐渐增加了 Poster/Spotlight、Demo、Tutorial、年度进展评述、Workshops和工业界技术分

享等环节，参会人数也逐渐增长到了4000人以上。在此过程中，逐渐形成了由山世光、潘

纲、刘青山、颜水成、李学龙、周志华、徐东、马毅、周昆、高新波、何晓飞、余凯、杨

健、黄华、白翔等15名青年学者组成的指导委员会。2018年，VALSE确立了指导委员会委

员45岁退休的原则，故高新波、马毅、杨健、周志华四位老师进入顾问委员会，同时吸纳

了华刚、汪萌、虞晶怡和张敏灵四位老师进入指导委员会。此外，VALSE大会也吸引了越

来越多的企业参加，已成为计算机视觉与机器学习领域“产-学-研”合作交流的重要平台。

为配合VALSE系列年度研讨会，VALSE主要发起人之一山世光于2014年6月18日创建

了VALSE专业学术交流QQ群，即VALSE-A群（2000人满）。此后，逐渐开通了VALSE-B-R群（群号：137634472）。从而形成了一个近两万两千人的视觉与学习青年学者在线社区。

自2014年9月开始VALSE每周或隔周定期举办VALSE Webinar学术报告会，在已有品牌活

动的基础上，我们最新推出了《VALSE短教程》、《VALSE论文速览》以经济、便捷的

在线形式，将众多青年学者的最新工作和学术思想呈现给散落在世界各地的青年学者和研

究生。自2020年4月以来，活动迁移至B站直播。VALSE Online 迄今已组织288期的在线

学术报告。特别是众多知名青年学者的亲临报告（如：颜水成、王晓刚、屠卓文、凌海滨、

沈春华、张磊、朱军、李纯明、印卧涛、熊红凯、刘利刚、齐国君、刘烨斌、毕彦超、PhilipTorr、华刚、刘小明等），更大大激励了VALSE Online的发展，目前VALSE B站有3.2万粉丝，B站所存放的视频都是VALSE每周的Webinar录制的视频，过去一年视频的累计播

放量49.5万，单个视频的最高播放量在4.4万次。逐渐形成了一个独具特色、经济高效、便

捷实用的在线学术交流舞台。VALSE历史视频都会更新在B站空间，欢迎在B站搜索

VALSE_Webinar关注我们！也可以通过链接直接观看：https://space.bilibili.com/562085182/。VALSE Online 是青年学者自组织、自管理的舞台。其兴起不仅得益于VALSE指导委

员会成员的大力支持，更离不开逐渐形成的VALSE Online组织团队。除发起人山世光之外，

越来越多的青年学者参与了进来。特别是白翔（华中科技大学）、程明明（南开大学）、

孟德宇（西安交通大学）、彭玺（四川大学)、贾伟（合肥工业大学）、郑海永（中国海

洋大学）、纪荣嵘（厦门大学）、姬艳丽（电子科技大学）、张利军（南京大学）、章国

https://space.bilibili.com/562085182/

136

锋（浙江大学）、左旺孟（哈尔滨工业大学）、张兆翔（自动化所）、何晖光（自动化所）、

禹之鼎（CMU)、王乃岩（图森未来）、苏航（清华大学）、欧阳万里（悉尼大学）等，

都为VALSE Online的发展付出了大量心血。为了更好地组织VALSE年度及在线活动，

VALSE成立了常务AC委员会(LACC)，资深AC委员会(SACC)，执行AC委员会(EACC)（名

单参见后面的委员会名单)，154名青年学者积极参与到了相关活动的组织中。

关于VALSE的更多信息，请访问VALSE总主页：http://valser.org（特别鸣谢中国海洋

大学郑海永教授搭建该平台）。欢迎大家扫码关注之后页面的VALSE微信公众号，查看

VALSE的最新消息。

借此机会，我们要诚挚感谢大力赞助本届VALSE大会的企业，包括：图森未来、AutoDL、OPPO、真格基金、华为、SK集团、思谋科技、美团、闪马智能、腾讯优图、传音控股、

百度、极视角科技、金山办公、Nreal、腾讯ARC Lab、地平线、奥比中光、美图、鉴智机

器人、精测电子、坤前计算机、瑞莱智慧、首都在线、思腾合力、平安科技、天津泰达。

感谢这些公司的负责人和联系人为赞助VALSE而做出的努力，谢谢您们！

上述成绩的取得更离不开众多 VALSER 们的支持和鼓励，尤其是众多常态化参与

VALSE Webinar报告会的老师和同学们，我们深表谢意！今后，我们将继续集思广益、创

新学术交流和合作模式，更好地搭建视觉与学习领域华人学术交流大舞台，为本领域的产

学研发展起到更好的促进作用。

http://valser.org

137

VALSE在线活动参与方法介绍

1、VALSE每周举行的Webinar活动依托 B站直播平台进行，欢迎在

B站搜索 VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上 20:00进行，但偶尔会因为讲

者时区问题略有调整，为方便您参加活动，请关注 VALSE微信公众号：

valse_wechat或加入 VALSE QQ R群，群号：137634472）；

*注：申请加入 VALSE QQ群时需验证姓名、单位和身份，缺一不可。

入群后，请实名，姓名身份单位。身份：学校及科研单位人员 T；企业研

发 I；博士 D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通

知。

4、您也可以通过访问 VALSE主页：http://valser.org/直接查看Webinar活动信息。Webinar报告的 PPT（经讲者允许后），会在 VALSE官网每期

报告通知的最下方更新。

138

VALSE 2021-2022年度Webinar报告一览表

日期讲者报告题目嘉宾主持人主办 AC 协办 AC 责任AC

2021.12.23

王乃岩 (图森未

来)图森未来在重卡自动驾驶

的最新技术落地与实践

山世光 (中国科学院计算

技术研究所)贾伟

姬艳丽、

贾伟

邓富城 (极视角

科技)AI赋能智慧交通-案例分享

刘浩敏 (商汤科

技)SenseMARS火星混合现实

平台关键技术与行业赋能

郭彦东 (OPPO广

东移动通信有限

公司)

2022.1.19赵国英 (芬兰

Oulu大学)

Emotional Interfaces withFace Analysis (基于脸部分

析的情感接口)洪晓鹏

洪晓鹏

(哈尔滨

工业大

学)

2022.3.9

杨宗鑫 (浙江大

学)视频理解中的多目标联合

分割

杨宗鑫 (浙江大学)、王立

君 (大连理工大学)、王利

民 (南京大学)，林巍峣

(上海交通大学)、杨帆 (快手)

丛润民

丛润民

(北京交

通大学)王立君 (大连理

工大学)基于外观模型的视频目标

跟踪与分割

2022.3.16

王连生 (厦门大

学)一种放射影像预训练方法

王连生 (厦门大学)、崔智

铭 (香港大学)、秦璟 (香港理工大学)、周郁音

(UCSC)、于乐全 (香港大

学)

于乐全、

窦琪

窦琪

(香港中

文大

学)、于

乐全

(香港大

学)

崔智铭 (香港大

学)

Shape-aware toothsegmentation in digital

dentistry

秦璟 (香港理工

大学)

Rethink Deep LearningModels for Medical Image

Analysis from anEpistemological Perspective

2022.3.23

贺通 (上海人工

智能实验室)3D instance segmentationwith dynamic convolution

贺通 (上海人工智能实验

室)、陈挺 (Google Brain)、代季峰 (商汤科技)、王鹤

(Peking University)、张兆

翔 (中国科学院自动化研

究所)

欧阳万

里、周晓

巍

欧阳万

里 (悉尼大学)

周晓巍

(浙江大

学)陈挺 (GoogleBrain)

Pix2seq: A LanguageModeling Framework for

Object Detection

2022.3.30 俞扬 (南京大学)数据驱动的强化学习及其

工业应用魏秀参

魏秀参

(南京理

工大学)

139


2022.4.6

方聪 (北京大学)Convex Formulation ofOverparameterized Deep

Neural Networks方聪 (北京大学)、袁晓彤

(南京信息工程大学)、刘日

升 (大连理工大学)、左旺

孟 (哈尔滨工业大学)、黄

雷 (北京航空航天大学)

王旗龙

王旗龙

(天津大

学)

黄雷 (北京航空

航天大

学)

袁晓彤 (南京信

息工程大学)基于随机模型的深度学习

优化

刘日升 (大连理

工大学)基于梯度的双层优化方法

初探

2022.4.13

张铁林 (中国科

学院自动化研究

所)

基于类脑脉冲神经网络的

视听觉信息处理

吴小俊 (江南大学)、唐华

锦 (浙江大学)、张兆翔

(中国科学院自动化研究

所)、张铁林 (中国科学院

自动化研究所)、余肇飞

(北京大学)、于云龙 (浙江

大学)

李玺

李玺

(浙江大

学)余肇飞 (北京大

学)面向类脑视觉的生物视觉

编解码机制和模型

2022.4.20

弋力 (清华大学)面向交互的四维动态场景

理解

弋力 (清华大学)、赵恒爽

(香港大学)、韩晓光 (香港

中文大学 (深圳))、史少

帅 (德国马克思普朗克研

究所)、王兴刚 (华中科技

大学)、徐凯 (国防科技大

学)

王鹤

王鹤

(北京大

学)

盛律 (北京航空

航天大

学)赵恒爽 (香港大

学)Scene Understanding in 3D

and 2D-3D

2022.5.25

林绍辉 (华东师

范大学)深度模型压缩与加速技术

及其应用

陈涛 (复旦大学)、林绍辉

(华东师范大学)、周天异

(新加坡科技研究局

A*STAR)、俞刚 (腾讯)、王云鹤 (华为诺亚方舟实

验室)

陈涛

胡鹏

(四川大

学)陈涛 (复旦大学)Efficient Neural ArchitectureDesign for Visual Analysis

2022.6.1沈春华 (浙江大

学)从单目深度估计到单目三

维场景重建刘昊

夏勇

(西北工

业大学)

刘昊 (宁夏大学)

2022.6.8田渊栋 (Meta AIResearch (FAIR))

Towards BetterUnderstanding of

Contrastive Learning刘日升

苏航

(清华大

学)

刘日升

(大连理

工大学)

2022.6.15

陆路 (UPenn)Learning operators usingdeep neural networks fordiverse applications

陆路 (Upenn)、王建勋

(University of NotreDame)、许志钦 (上海交

大)、孙浩 (中国人民大学)

黄高

黄高

(清华大

学)王建勋

(University ofNotre Dame)

Leveraging physics-inducedbias in scientific machinelearning for computational

mechanics

140


2022.6.29

宫明明 (墨尔本

大学)

CRIS: CLIP-DrivenReferring ImageSegmentation

宫明明 (墨尔本大学)、苏

冰 (中国人民大学)、曹越

(微软亚洲研究院)、刘同亮

(悉尼大学)、胡鹏 (四川大

学)

刘宇

刘宇

(大连理

工大学)

刘同亮

(悉尼大

学)苏冰 (中国人民

大学)What to contrast?

2022.7.6

李霄霄 (TheUniversity of

British Columbia)

Federated learning forhealthcare: from theory to

practice李霄霄 (The University ofBritish Columbia)、徐子乐

(Nvidia)、李响 (哈佛大学、

麻省总医院)、陈浩 (香港

科技大学)、周郁音 (UCSanta Cruz)、秦璟 (香港理

工大学)

雷柏英

雷柏英

(深圳大

学)

陈浩 (香港科技

大学)徐子乐 (Nvidia)

Techniques and Tools forCollaborative Development

of AI Models acrossInstitutes

李响 (哈佛大学、

麻省总医院)联邦学习在医学图像处理

的应用

2022.7.13

张敬 (TheUniversity ofSydney)

ViTAE Transformer 超级视

觉深度学习模型张敬 (The University ofSydney)、刘同亮 (TheUniversity of Sydney)、韩

波 (香港浸会大学)、宫辰

(南京理工大学)、庄博涵

(Monash University)、王超

岳 (京东探索研究院)

程明明

程明明

(南开大

学)

刘同亮(TheUniversity ofSydney)、韩波 (香港浸会

大学)、宫辰 (南京

理工大

学)

刘同亮 (TheUniversity ofSydney)

标签学习简介——助力超

级深度学习

2022.8.3

周博磊 (加州大

学洛杉矶分校)

生成模型的解释性，交互

性，小样本学习，以及我对

Dalle2的看法

周博磊 (加州大学洛杉矶

分校)、李崇轩 (中国人民

大学)、左旺孟（哈尔滨工

业大学）、胡瀚（微软亚

洲研究院）、宋飏（斯坦

福大学）

谢凌曦

谢凌曦

(华为云

计算公

司)

左旺孟

(哈尔滨

工业大

学)李崇轩 (中国人

民大学)扩散概率模型与其加速推

断算法

141

VALSE 2021-2022年度 Student Webinar报告一览表

日期讲者报告题目嘉宾主持人主办

AC协办 AC 责任 AC

2021.7.28

Boyi Li (CornellUniversity)

Learning to learnnormalization

Boyi Li (CornellUniversity)，邵文琪 (TheChinese University of HongKong)，高尚华 (南开大学)，龙明盛 (清华大学)，孙若愚

(伊利诺伊大学香槟分校)，张辉帅 (微软亚洲研究院)，黄雷 (北京航空航天大学)

黄雷

黄雷

(北京航

空航天

大学)

张瑞茂

(香港中文

大学深圳

校区)

刘偲

(北京航

空航天

大学)

邵文琪 (TheChinese Universityof Hong Kong)

Channel EquilibriumNetwork for Learning Deep

Representation

高尚华 (南开大学)批归一化操作的特征误差

与校准

2021.9.25

李捷 (腾讯)求职规划——助力赢得心

仪 offer王珏 (腾讯)、田奇 (华为)、李捷 (腾讯)、希滕 (百度)、常建龙 (华为)、李亦宁 (商

汤)

欧阳万

里

宫辰

(南京理

工大学)

刘偲

(北京航

空航天

大学)

希滕 (百度) 如何选择适合自己的职业

常建龙 (华为) 目标驱动选择

李亦宁 (商汤) 聊一聊求职中的有效沟通

2021.12.1

闫杰熹 (西安电子

科技大学)沟通，让科研变得美好山世光 (中国科学院计算技

术研究所)、黄高 (清华大

学)、闫杰熹 (西安电子科技

大学)、游凯超 (清华大学)、潘玲 (清华大学)、袁粒 (新

加坡国立大学)

董胤蓬

董胤蓬

(清华大

学)、邓

志杰

(清华大

学)

刘偲

(北京航

空航天

大学)、苏航

(清华大

学)

游凯超 (清华大学) 我的科研经历与科研习惯

潘玲 (清华大学) 我在科研中的苦与乐

袁粒 (新加坡国立

大学)读博不易，且读且珍惜

2022.1.13

梁思源 (中国科学

院信息工程研究所)浅谈顶会论文投稿梁思源 (中国科学院信息工

程研究所)、庞树茂 (南方医

科大学)、王玫 (北京邮电大

学)、白翔 (华中科技大学)、孟德宇 (西安交通大学)

闫杰熹

刘偲

(北京航

空航天

大学)

中国图象

图形学报

庞树茂 (南方医科

大学)科技论文写作经验分享

王玫 (北京邮电大

学)科研路上的心得与体会

2022.1.23

陶仁帅 (北京航空

航天大学)如何写好一个 Rebuttal

秦浩桐

刘偲

(北京航

空航天

大学)

李一鸣 (清华大学)从审稿人的视角浅析如何

撰写 Rebuttal

张松阳 (上海科技

大学)从 Submission到 Rebuttal，

再到 Re-submission

日期讲者报告题目嘉宾主持人主办

AC协办 AC 责任 AC

142

2022.5.29

都一凡 (中国人民

大学)视觉-语言预训练模型综

述张含望 (新加坡南洋理工大

学)、段楠 (微软亚洲研究

院)、吴琦 (澳大利亚阿德莱

德大学)、魏忠钰 (复旦大

学)

刘乾

秦浩桐

刘偲

刘偲

(北京航

空航天

大学)

鲍航波 (哈尔滨工

业大学)BEiT: BERT Pre-Trainingof Image Transformers

张宋扬 (罗切斯特

大学)视频辅助的句法分析

卢雨洁 (加州大学) 视觉想象辅助语言理解

143

VALSE各委员会

顾问委员会

高新波西安电子科技大学马毅 UC Berkeley周志华南京大学杨健南京理工大学

指导委员会

白翔华中科技大学何晓飞飞步科技

华刚 Wormpex AI Research 黄华北京理工大学

李学龙西北工业大学刘青山南京信息工程大学

潘纲浙江大学山世光中国科学院计算技术研究所

汪萌合肥工业大学徐东悉尼大学

颜水成冬海集团虞晶怡上海科技大学

余凯地平线机器人张敏灵东南大学

周昆浙江大学

常务 AC委员会（LACC）主席：白翔华中科技大学

副主席：程明明南开大学纪荣嵘厦门大学

常务 AC：韩琥中国科学院计算技术研究所姬艳丽电子科技大学

贾伟合肥工业大学刘日升大连理工大学

孟德宇西安交通大学欧阳万里悉尼大学

彭玺四川大学王楠楠西安电子科技大学

王琦西北工业大学章国锋浙江大学

张利军南京大学张兆翔中国科学院自动化所

郑海永中国海洋大学左旺孟哈尔滨工业大学

资深 AC委员会（SACC）主席：章国锋浙江大学

副主席：左旺孟哈尔滨工业大学姬艳丽电子科技大学

资深 AC：戴玉超西北工业大学樊彬北京科技大学

高常鑫华中科技大学高陈强重庆邮电大学

郭裕兰国防科技大学连宙辉北京大学

林巍峣上海交通大学刘偲北京航空航天大学

卢策吾上海交通大学明悦北京邮电大学

潘金山南京理工大学任传贤中山大学

苏航清华大学王利民南京大学

王文冠苏黎世联邦理工王兴刚华中科技大学

王云鹤华为诺亚方舟实验室魏秀参南京理工大学

魏云超悉尼科技大学徐畅悉尼大学

144

许永超武汉大学严骏驰上海交通大学

杨猛中山大学张磊重庆大学

张林同济大学张姗姗南京理工大学

赵健军事科学院郑伟诗中山大学


执行 AC委员会（EACC）主席：苏航清华大学

副主席：郭裕兰国防科技大学刘日升大连理工大学

刘偲北京航空航天大学王楠楠西安电子科技大学

夏勇西北工业大学

执行 AC：白亚龙京东 AI研究院贲晛烨山东大学

曹越微软亚洲研究院常晓军蒙纳士大学

陈涛复旦大学丛润民北京交通大学

代登信 ETH Zurich 邓欣北京航空航天大学

丁长兴华南理工大学董超中国科学院深圳先进技术研究院

董伟生西安电子科技大学董宣毅悉尼科技大学

窦琪香港中文大学段立新电子科技大学

冯尊磊浙江大学宫辰南京理工大学

宫明明墨尔本大学顾舒航悉尼大学

郭晓杰天津大学韩波香港浸会大学

韩晓光香港中文大学（深圳）洪晓鹏西安交通大学

胡迪中国人民大学胡建方中山大学

胡鹏四川大学胡玮北京大学

黄高清华大学黄雷北京航空航天大学

贾旭大连理工大学江波安徽大学

焦剑波牛津大学柯秋红墨尔本大学

雷柏英深圳大学李策兰州理工大学

李冠彬中山大学李皓亮香港城市大学

李雷达西安电子科技大学李爽北京理工大学

李文电子科技大学李镇香港中文大学（深圳）

林迪天津大学林绍辉华东师范大学

刘峰密歇根州立大学刘昊宁夏大学

刘俊新加坡科技设计大学刘同亮悉尼大学

刘洋北京大学刘宇大连理工大学

马超上海交通大学牛玉磊新加坡南洋理工大学

彭春蕾西安电子科技大学秦杰阿联酋起源人工智能研究院

任文琦中国科学院信息工程研究所沈为上海交通大学

盛律北京航空航天大学舒祥波南京理工大学

宋杰浙江大学眭亚楠清华大学

隋尧哈佛大学谭明奎华南理工大学

145

涂志刚武汉大学万人杰新加坡南洋理工大学

汪婧雅上海科技大学王栋大连理工大学

王鹤北京大学王立君大连理工大学

王旗龙天津大学王鑫清华大学

王奕森北京大学王正东京大学

王智慧大连理工大学韦星星北京航空航天大学

文碧汉新加坡南洋理工大学吴金建西安电子科技大学

吴琦阿德莱德大学吴庆波电子科技大学

夏勇西北工业大学谢凌曦华为数字技术有限公司

徐迈北京航空航天大学徐易阿里巴巴（美国）集团

杨二昆北卡罗来纳大学教堂山分校杨恒深圳爱莫科技有限公司

杨文瀚南洋理工大学杨曦西安电子科技大学

杨欣华中科技大学杨旭中国科学院自动化所

杨旭西安电子科技大学姚权铭第四范式

叶茫武汉大学于乐全香港大学

张鼎文西北工业大学张弘扬滑铁卢大学

张健北京大学张平平大连理工大学

张瑞茂香港中文大学（深圳）张长青天津大学

张正哈尔滨工业大学（深圳）赵恒爽牛津大学

赵文达大连理工大学赵洋合肥工业大学

郑乾新加坡南洋理工大学周天飞 ETH Zurich周毅东南大学朱磊 University of Cambridge朱霖潮悉尼科技大学朱鹏飞天津大学

朱盈盈华中科技大学邹常青华为加拿大研究院

秘书处：

朱盈盈华中科技大学程一中国科学院计算所

班瀚文中国科学院计算所

146

交通路线及防疫政策

天津市防疫政策温馨提示

1、嘉宾自我健康筛查及来津准备

（1）微信小程序搜索“国务院客户端”，点击“疫情风险查询”和“各地防控政策”，查

询您当前所在城市和地区的风险情况以及入津要求。

（2）支付宝搜索“天津健康码”，填写信息，申领健康码，查看是否为绿码，具体步骤如

下:

（3）确定好来（返）津日期以及交通方式（车次/航班/车牌）后，支付宝搜索“津心办”

小程序，授权登录，填写“来津报备”（必须如实填写计划前往区和居住地址）。

147

（4）来津前准备 48小时内核酸阴性证明。

2、抵达天津出示

国务院行程码、天津健康码（绿码）及 48小时内核酸阴性证明。

3、会场核酸检测

8月 21日-8月 24日核酸检测安排

日期检测时间人员类别核酸检测地点医务安排

8月 21日

18:00-22:00居住万豪酒店

或喜来登酒店

参会人员

万豪酒店后门 1组

抵津后其他参会人员三站一场自行检测 ——

8月 22日 13:00-17:00 全体参会人员 S16展厅 05门 2组

148

8月 23日 13:00-17:00 全体参会人员S9-S16展厅主入口

处2组

8月 24日 13:00-17:00 全体参会人员S9-S16展厅主入口

处2组

4、每日报备

依照防疫要求，烦请大家于 8月 22-24日参会期间每天 10:00前完成信息填写。

报备链接：https://docs.qq.com/form/page/DZEh0RlJiblFSSmpH

5、注意事项

1 请随时携带身份证；

2 请随时确认核酸时间是否过期，抵津后 24小时内必须做一次核酸检测，核酸检测

做到“三天两检”（间隔满 24小时）；

3 请随时关注健康码、行程码是否为绿码；

4 请在公众场所佩戴好口罩，与他人保持适当的距离；

5 请使用公共用品后，及时消毒；

6 如有身体不适，请及时告知现场工作人员。

149

抵达会场交通方式

会议地点：天津国家会展中心

150

交通信息

1、天津滨海国际机场

地铁路线【全程估计 1小时 57分钟】

路线：滨海国际机场地铁站 → 国家会展中心地铁站，5元/人。

起点 2号线：滨海国际机场地铁站（曹庄方向），乘坐 13站，到西南角站换乘；

换乘 1号线：西南角站（双桥河方向），乘坐 16站，到达国家会展中心（E口出）下车。

打车路线【全程估计 30分钟】

距离国家会展中心约 25公里，驾车行驶 30分钟，打车估计 80元。

151

2、天津站


路线：天津站地铁站 → 国家会展中心地铁站，5元/人。

起点 3号线：天津站地铁站（南站方向），乘坐 3站，到营口道站换乘；

换乘 1号线：营口道站（双桥河方向），乘坐 12站，到国家会展中心站（E口出）下车。


距离国家会展中心约 27 公里，驾车行驶 34分钟，打车估计 87元。

3、天津西站


路线：天津西地铁站 → 国家会展中心地铁站，5元/人。

起点 1号线：天津西站地铁站（东沽路方向），乘坐 18站，到国家会展中心站（E口出）

下车。



152

4、天津南站


路线：天津南地铁站 → 国家会展中心地铁站，5元/人。

起点 3号线：天津南站地铁站（小淀方向），乘坐 12站，到营口道站换乘；

换乘 1号线：营口道站（双桥河方向），乘坐 13站，到国家会展中心站（E口出）下车。



valse 2022 会议手册，点击下载。

Documents