我有幸参加了 ACM Multimedia 2025 国际会议。作为多媒体与人工智能交叉领域的重要盛会,ACM MM 2025 汇聚了来自世界各地的研究人员、工程师与创新实践者,共同探讨多模态学习、生成式多媒体、视觉计算与内容理解等前沿课题。会议期间,多场高质量的主题演讲与技术论坛展示了多媒体研究的最新进展与未来趋势,特别是在大模型、跨模态融合和智能交互等方向上,呈现出丰富的思想碰撞与技术创新。此次参会不仅让我深入了解多媒体研究的国际前沿动态,也激发了我在智能视觉与多模态领域继续探索的热情,为今后的科研工作提供了新的启发与方向。 我的论文题为《Synthetic-to-Real Camouflaged Object Detection》(从合成到真实的伪装目标检测)。由于采集和标记的成本较高,用于伪装目标检测(COD)的数据集相对较少。特别是,对于某些特定类别,可用的图像数据集填充不足。合成数据集可以在一定程度上缓解数据受限的问题。然而,与真实数据集相比,直接使用合成数据集进行训练可能会导致模型性能下降。针对这一问题,本文提出了一种新的伪装目标检测算法--同步伪装目标检测算法。为了提高模型在真实场景中的性能,必须使用一组带注释的合成伪装图像和有限数量的未注释的真实图像。提出了一种基于师生模型的循环域自适应框架(CSRDA)。特别是,CSRDA通过伪标记和一致性正则化相结合的方法将类信息从已标记的源域传播到未标记的目标域。考虑到缩小域内差距可以提高伪标注的质量,CSRDA利用递归学习框架来构建一个进化的实域来连接源域和目标域。大量的实验证明了该框架的有效性,缓解了COD中数据和手工标注有限的问题。 会议期间,我全程参与了多场学术报告与专题论坛,并与来自多媒体与计算机视觉领域的研究者进行了深入交流。通过与不同方向学者的讨论,我对视觉感知、跨模态融合及复杂场景下目标理解的最新进展有了更全面的认识。特别是在与相关专家探讨伪装目标检测(Camouflaged Object Detection, COD)研究时,我分享了自己近期的工作CSRDA方法,该方法聚焦于从合成域到真实域的跨域伪装目标检测问题。会议期间,我收获了关于特征迁移策略、域自适应优化以及伪装目标表示能力提升等方面的宝贵建议。 此次参会不仅让我近距离感受到国际学术界在视觉理解方向的创新思路,也为我后续在COD与跨域学习领域的研究提供了新的启发。ACM MM 2025 不仅是一次学术成果展示的契机,更成为我拓展学术视野、深化研究方向的重要里程碑。 该团组已进行事后公示。 (领队签字) |