视觉与语言长期受到计算机视觉、自然语言处理等多个领域学者的关注,其中图像/视频检索,图像/视频描述生成,图像/视频问答,图像/视频语义定位等经典任务在深度学习的推动下已经取得了显著的进展。最近,将视觉与语言的学习范式统一是其中较为热门的研究方向,经过视觉与语言预训练的模型能够在多个下游任务上取得优异的性能,而不需要再单独针对各任务设计模型,其中的主要工具包括Transformer模型结构、对比学习、大规模数据集等。
我们实验室在图像和视频的检索、描述生成、问答、语义定位等方面均开展了研究,例如描述生成方面提出了基于运动引导的视频空间注意力,基于密集跨模态交互的视频多模态特征融合,以及基于区域信息传递的视频细粒度信息编码等方法,均有效提升了视频描述生成性能,相关工作发表于AAAI,ECCV,ICCV,CVPR等会议。视觉与语言结合是相当具有研究价值和挑战的方向,从研究意义来说,结合语言进行视觉内容理解是人类智能的高级表现形式,对其进行研究有助于推动人工智能的发展;从应用角度来说,结合语言的视觉交互是一种更加直观自然且用户友好的交互方式,在诸如视频搜索、监控安防等领域均有较大的潜在应用价值。欢迎加入我们在视觉与语言方向进行探索!