5.4.1 大模型与智能体专题论坛(Part I)

发布者:徐计发布时间:2025-07-10浏览次数:65

白翔,华中科技大学教授、博导,国家杰出青年基金获得者,IAPR Fellow,国际期刊Pattern Recognition副主编(A-EIC)。主要从事计算机视觉与模式识别、多模态大模型等方面研究,在Nature Machine Intell.IEEE TPAMICVPR等国际一流期刊和国际会议发表论文150余篇。担任国际顶级期刊IEEE TPAMI编委,顶级会议CVPRICCVECCVAAAIIJCAINeurIPS的领域主席,国际文档分析与识别会议ICDAR 2025大会主席。曾获ACL 2024最佳论文奖(Best Paper Award)、2024年湖北省青年科技创新奖、2023年湖北省自然科学一等奖(排1)、2021年全国科技系统抗击新冠疫情先进个人、2021年中国图象图形学学会自然科学一等奖(排1)、2019年国际模式识别协会青年学者奖(IAPR/ICDAR Young Investigator Award)。

【报告题目】

迈向通用文字识别:文档智能模型的进展与趋势

【报告摘要】

在大模型时代,文字识别技术已经取得了显著的进步,展示了实现通用OCR的潜力。在本次报告中,首先我将全面分析大模型在OCR识别方面的表现;接着,我将介绍团队在多任务统一的文字识别方法,面向文档智能理解的多模态大模型,大模型智能文档推理等技术进展;最后,我将对文档智能的发展趋势进行展望。


俞扬,南京大学人工智能学院教授。主要从事人工智能、机器学习、强化学习方向的研究,工作获5项国际论文奖、3项国际算法竞赛冠军。入选国家青年人才计划、IEEE Intelligent Systems “AI’s 10 to Watch”,获CCF-IEEE青年科学家奖,首届亚太数据挖掘“青年成就奖”,并受邀在国际人工智能联合大会 IJCAI 2018上作“青年亮点报告”。

【报告题目】

大模型背景下的强化学习

【报告摘要】

2024年图灵奖授予研究强化学习的先驱。强化学习已从早期游戏任务扩展到机器人控制等复杂物理环境中的应用。本次报告将回顾强化学习技术发展历史,并汇报在大模型受到高度关注的背景下,强化学习技术的发展与变化。


初宪,北京智谱华章科技有限公司科研科学科技行业总经理。拥有近20年央国企行业经验,擅长政府、央国企市场拓展和解决方案提供,曾服务过腾讯等多家大型企业,目前任职智谱AI公司负责科研科学科技行业的销售与解决方案工作。

【报告题目】

大模型技术前沿应用与实践

【报告摘要】

本次演讲将探讨大模型技术的最新进展与实践应用。我们将一起回顾基座模型的发展,共同关注多模态AI在视频生成等领域的突破,以及共同进行代理式人工智能的新探索。同时,也将与您讨论大模型技术的商业化路径、对国家战略的意义及其国际竞争力,并展望未来趋势。


魏云超,北京交通大学二级教授,教育部长江学者。曾在NUSUIUCUTS从事研究工作,主要研究方向包括面向非完美数据的视觉感知、多模态数据分析与推理、生成式人工智能等,发表TPAMICVPR等顶级期刊/会议论文100多篇,Google引用超27000次。入选AI 100MIT TR35 China、百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star,获世界互联网大会领先科技奖、教育部自然科学奖一等奖、ImageNet目标检测冠军及多项CVPR竞赛冠军等奖励。主持国自然重大研究计划重点项目、国家重点研发计划青年科学家项目、北京市自然科学基金海淀联合基金重点项目等10余项。担任计算机学院科研副院长、“视觉智能交叉创新”教育部国际联合实验室副主任、“科幻音视频智能处理”北京市重点实验室副主任等职务。

【报告题目】

视觉智能推理技术发展与关键挑战

【报告摘要】

视觉智能推理是人工智能实现级认知与具智能能的关键技术之一。 随着多模态模型的发展, 视觉推理主要呈现出两类路径: 一是将语⾔⼤模型的知识与推理能迁移视觉任务, 实现跨模态信息的联合建模与复杂推理; 二是依托规模视觉数据, 通过自监督或弱监督的方式, 使模型自主学习并掌握因果关系、 时空关联等视觉场景中的推理能。 这两种路径在实际应中各有优势, 也临共性挑战。报告将结合近年来国内外代表性研究进展, 梳理视觉推理的发展脉络, 指出当前亟需攻克的关键问题, 旨在为视觉智能技术的持续演进和应拓展提供一些发展建议。




【论坛组织者】王旗龙,天津大学智算学部教授,博士生导师。主要围绕鲁棒神经网络架构和开放环境视觉感知开展研究,相关研究发表SCI一区/CCF-A类论文50余篇,谷歌学术引用13000余次,单篇论文最高引用8200余次。先后获吴文俊人工智能优秀青年奖,中国人工智能学会优秀博士论文、CVPR 2020最有影响力论文等奖励。入选博士后创新人才支持计划,获国家自然科学基金面上/青年项目、科技委基础创新项目、CCF-百度松果基金、CAAI-华为MindSpore学术奖励基金(优秀结题项目)等支持。获2024年天津市科自然科学一等奖(第三完成人)。部分技术应用于自动驾驶环境感知数据分析与遥感影像智能解译,分别获2022年和2023年天津市科学技术进步二等奖(第一完成人、第三完成人)。