@font-face{ font-family:"Times New Roman"; }@font-face{ font-family:"宋体"; }@font-face{ font-family:"等线"; }@font-face{ font-family:"微软雅黑"; }p.MsoNormal{ mso-style-name:正文; mso-style-parent:""; margin:0pt; margin-bottom:.0001pt; mso-pagination:none; text-align:justify; text-justify:inter-ideograph; font-family:等线; mso-bidi-font-family:'Times New Roman'; font-size:10.5000pt; mso-font-kerning:1.0000pt; }span.msoIns{ mso-style-type:export-only; mso-style-name:""; text-decoration:underline; text-underline:single; color:blue; }span.msoDel{ mso-style-type:export-only; mso-style-name:""; text-decoration:line-through; color:red; }div.Section0{page:Section0;}
近日,2024中国图象图形大会在西安开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。
大模型技术正随着科技革新实现广泛应用,满足多行业图像处理需求。大会期间,由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司联合主办了《大模型技术及其前沿应用》论坛,来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、研究机构及企业的专家代表就大模型技术在图像领域的发展、应用进行了深入研讨。
大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步,让机器能够识别文档中的多种元素,更好地处理文本、表格、图像等多类型数据,还原文档阅读顺序,加速大模型训练与应用。论坛上,合合信息智能创新事业部研发总监常扬分享了智能文档处理技术在文档解析领域的工作,给与会者带来了新的技术视角。
“文档解析的难点在于如何准确识别文档中的各个元素,并理解其之间的逻辑关系,需要关注'物理版面分析'和'逻辑版面分析。' ”据常扬介绍,物理版面分析侧重于视觉特征、文档布局,主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等,并选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式;逻辑版面分析侧重于对语义特征的分析,主要任务是把不同的文字块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。
“我们研究过程中发现,真实世界的文档有着极为丰富的布局类型,没法单纯地用单栏,双栏、三栏等类别去定义。”常扬表示,近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,将给版面分析带来新的研究思路。