视频理解是计算机视觉领域中一类基础研究问题,旨在通过深度学习等智能技术,自动化识别和解析视频中的内容。视频理解主要包含视频(动作)识别,时序动作/事件定位,时空动作检测等任务。随着深度学习技术的发展,视频理解领域不断出现有影响力的研究工作,例如双流网络,3D卷积网络等。最近,视觉Transformer的成功,使得基于Transformer的视频网络架构成为了视频理解领域的热门研究方向。此外,由于深度学习模型,特别是视觉Transformer需要大量数据预训练,以在下游视频任务上取得良好性能,旨在为下游任务提供优质先验知识的视频表示学习也受到了广泛关注。
我们实验室在视频理解领域开展了大规模视频识别模型设计、长尾视频识别、小样本视频识别、多模态视频识别和视频表示学习等工作,探索了基于稀疏时序因果卷积的高效视频模型、帧级重采样的长尾视频识别、基于深度引导的小样本视频识别、基于BERT预训练的自监督视频表示学习和基于多模态数据的视频广告秒级语义解析等方法。相关工作发表于ICCV、CVPR、ACMM、TMM等会议和期刊。我们曾在Youtube-8M视频理解挑战赛中取得第二名,在腾讯广告算法大赛中取得第三名。
随着视频和直播应用的流行,视频成为了人们获取信息的主要内容形式,不断产生的海量视频数据需要更先进的视频理解技术进行管理、分析和处理。因此,视频理解具有广阔的研究前景和巨大的应用价值。欢迎加入我们在视频理解方向进行探索!