科研工作

新南威尔士大学许程沛研究员学术报告

来源:     发布日期:2026-01-08    浏览次数:


 

报告时间:2026111日(周日)15:00 1600

报告地点: 计算机与大数据学院4-129会议室

报告题目:全场景多语言任意形状文本检测

报告简介:近年来,随着视觉信息采集设备的广泛普及,文字作为一种信息载体广泛存在于自然场景和各类多媒体数据中。然而,由于文本在形状、风格、颜色、尺寸和长宽比等方面表现出高度多样性,不同应用场景中的文本外观差异巨大,传统文本检测技术已经难以满足对文本内容进行精确定位和高效提取的需求。

任意形状文本检测是感知自然世界中文本信息(即数字化信息)的前提条件,也是光学字符识别(OCR)任务的上游关键环节。当前主流方法大致可分为自顶向下(top down)和自底向上(bottom up)两类。随着深度学习的发展,自顶向下方法在工程实践中应用较多,而自底向上方法作为文本建模的经典范式,更加贴近人类视觉感知过程,有利于刻画文本的拓扑结构与连通性。

本报告将围绕全场景、多语言和任意形状文本检测场景,系统介绍自底向上思路在网络设计、特征建模和结构优化等方面的关键技术,并讨论相关方法在复杂真实场景中的应用与挑战。

 报告人介绍:Chengpei Xu(许程沛),国防科技大学本科,新南威尔士大学硕士,悉尼科技大学博士(2022)。现为新南威尔士大学工学院助理研究员,曾在加拿大 Orbiseed Technology Inc. 担任 Lead AI Engineer,主导设计公司多媒体信息抽取系统。该公司先后入选 Google for Startups Accelerator 2021 Techstars Toronto 2020 Cohort,其多媒体信息抽取系统自 2021 年以来累计实现超过 400 万加元营收,服务于北美多家知名企业。作为独立负责人主持澳大利亚教育部 AEA 项目(当年度全澳仅 94 项获批),在计算机视觉与多媒体理解领域发表 CCF/CAA A 类论文 15 篇。

 

 

下一篇