我校计算机与大数据学院2023级计算机科学与技术博士生许煌标于2025年6月赴美国纳什维尔参会,出访成果报告附后,现予以公示。公示时间从2025年6月25日起算,公示期为五个工作日。如有异议,敬请监督。 监督电话:22865580 校纪委(监察专员办)。
计算机与大数据学院
2025年6月25日
出访成果报告
出访人所在学院(或部门) |
计算机与大数据学院 |
领队姓名 |
许煌标 |
出访人员名单(含领队) |
许煌标 |
出访国家(地区) |
美国 纳什维尔 |
实际 出访时间 |
2025年6月10日 至2025年6月17日 |
实际往返路线(相关城市) |
福州长乐机场-上海浦东机场-底特律都会韦恩县机场-纳什维尔机场 纳什维尔机场-底特律都会韦恩县机场-上海浦东机场-福州长乐机场 |
出访任务 |
参加2025年IEEE国际计算机视觉和模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR),并作论文报告 |
出 访 成 果 报 告 |
2025年6月,我有幸赴美国纳什维尔参加 CVPR 2025(IEEE Conference on Computer Vision and Pattern Recognition),这是计算机视觉与模式识别领域最具影响力的国际会议之一。本届会议规模空前,共收到 13008 篇投稿,最终录用2872 篇(接收率约 22.1%),吸引了来自全球75个国家的9375名注册参会者。会议涵盖主会议、专题研讨会、短期课程等多种形式,为学术界与工业界提供了深度交流的平台。 在本次会议上,我作为第一作者汇报了团队的最新研究成果《Language-Guided Audio-Visual Learning for Long-Term Sports Assessment》(基于语言引导视听学习的长期体育评估)。该研究针对长期体育评估需要判断复杂的动作变化和动作与音乐的协调的挑战,提出了一种语言引导的视听学习(MLAVL)框架,该框架通过低成本的语言模态引导“音频-动作-视觉”关联建模。具体来说,在我们的框架中,基于领域的多维动作形成了动作知识图谱,促使视听模式专注于与任务相关的动作。我们进一步设计了一个共享特定上下文编码器来整合深层多模态语义,并设计了一个视听跨模态融合模块来评估动作与音乐的一致性。为了与运动规则相匹配,我们还提出了一个双分支提示引导分级模块,以权衡视觉和视听表现。广泛的实验证明,我们的方法在保持低参数的同时,在四个公共长期体育基准上达到了最先进的水平。 研究成果在Poster展示环节获得了广泛关注,多位专家学者对我们的创新方法表现出浓厚兴趣,并就体育理解的未来挑战、动作指导的应用场景等方向提出了宝贵建议。在会议期间,我积极参与了每天的学术报告活动、海报论文和企业展览,与众多学者的深入对话不仅拓宽了我的学术视野,也让我对人工智能和计算机视觉领域的前沿动态和发展趋势有了更深刻的洞察。此外,我有幸与领域专家、同行学者建立了联系,并分享了自己的研究工作,收获了极具价值的反馈和建议。 此次CVPR之行收获颇丰,不仅让我能够与来自世界各地的国际学术界精英交流讨论,也是我深入了解计算机视觉和模式识别最新学术成果的良机。通过我的论文展示和会议参与,我向学术界呈现了自己的研究成果,并且获得了宝贵的学术见解和灵感,这为我的研究方向和未来发展提供了更加明确的方向。 该团组已进行事后公示。 (领队签字) |
遵守外事纪律情况(含意见和建议等): 严格遵守出访纪律。 |
|
|
|
|
|
|
|