7月4日至7日,2024世界人工智能大会在上海拉开帷幕。
现阶段,“百模大战”现象背后的中国大模型发展前景与堵点仍然是各界关注的焦点。如何帮助大模型在信息的海洋中快速找准航向,在数据的荒漠中找到高质量的“水源”?以合合信息的大模型“加速器”解决方案为例,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题。
文档解析技术是支撑大模型语料训练的关键技术之一,面临着从海量文档中高效提炼“智慧燃料”的艰巨任务。文档解析引擎具备强大的“动能”,最快1.5秒可解析百页长文档中的文本、表格、图像等非结构化数据,同时,可智能还原文档阅读顺序,加速了模型在预训练、开发、使用落地等多方面的流程。
在现场,参观者纷纷前来体验,通过选择物理、医学、金融、社会学等多个知识领域的文档,向大模型提问专业问题,例如对特定表格内容的总结、关键要素的分析等。对比测试结果显示,加载了文档解析引擎的大模型,在回答问题的速度、准确度上更胜一筹。
如果说文档解析是为大模型加满油,acge模型则是为其配备了“导航系统”。据介绍,“加速器”加载了acge_text_embedding模型(简称“acge模型”),如同“指南针”一般,引导大模型在信息的汪洋大海中准确定位目标,减少“幻觉”发生,提升回答问题的准确性和针对性。
acge模型通过对大量中文文本数据的深入学习,提取文本特征,帮助大模型快速在信息的海洋里“捞针”,其在分类和聚类任务中展现出高准确率。模型不仅在信息检索和分类任务上展现了性能,更通过持续学习机制,克服了传统神经网络的遗忘难题。
合合信息智能创新事业部总经理唐琪提到,目前,大模型“加速器”已被多家大模型厂商应用于金融、医学、财经、媒体等多领域的文档的解析中,它不仅仅是一套技术工具,更是推动行业专业知识管理革新、提升业务效率的重要基石。