为了实现高精度的区域级多模态理解,本文提出了一种动态分辨率方案来模拟人类视觉认知系统。
本文作者来自中国科学院大学LAMP实验室,其中第一作者赵毓钟是中国科学院大学2023级博士生,共同作者刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。
其中表示第 i 个视图的插值系数,表示第 i 个视图,pHASH (・) 表示感知图像哈希函数,表示异或操作。为了从全局视角比较视图的信息,我们利用 "pHASH (・)" 函数将视图从空间域转换到频域,然后编码成哈希码。对于这一项,我们减少上下文丰富视图的权重,以避免引入过多冗余信息。
以上是超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA的详细内容。更多信息请关注PHP中文网其他相关文章!