报告时间:2023年12月17日(周日)09:00-13:00
报告地点:计算机与大数据学院2栋407会议室
报告题目:关于OCR大模型的一些思考
报告简介:随着大语言模型的兴起,面向自然语言处理领域的通用人工智能(AGI)取得了重大突破,近年来,多模态大模型也引起了广泛的研究关注并取得了快速发展,但目前针对光学文字识别(OCR)垂直领域的大模型研究工作报道还不多。本报告将简要回顾近年来多模态大模型和OCR大规模预训练模型等相关技术,探讨面向OCR的基础模型构建方法和可能的技术路线,并对大模型时代OCR技术发展趋势与未来研究方向进行讨论和展望。
报告人介绍:金连文,华南理工大学二级教授,兼任中国图象图形学学会(CSIG)常务理事、广东省图象图形学会理事长、CSIG文档图像分析与识别专委会主任等职。主要研究领域为文字识别、文档图像理解、计算机视觉与人工智能等,在重要学术期刊及国际会议上发表论文200余篇,其中SCI Q1区+ CCF A类论文100余篇,Google Scholar论文引用数过万,H指数60。连续4年入选斯坦福大学“全球前2%顶尖科学家”年度榜单。获省部级科技奖5项(其中一等奖2项,二等奖3项);荣荣获中国人工智能学会、中国电子学会和中国图象图形学学会科技进步二等奖各1项;指导学生参加CVPR/ICDAR/ICPR/PRCV等国际国内知名会议上的学术竞赛并荣获冠军20余次。