镁伽科技黄瑜清:智能自动化给生命科学带来巨大变革
06-18
背景今年5月24日至26日,中国图像图形大会(CCIG)在西安召开。会议由中国图像图形学会、空军主办,军医大学、西安交通大学、西北工业大学承办,南京理工大学、陕西省图像图形学学会、陕西生物医药协办工程学会,并得到陕西省科学技术协会的支持。
于奇峰院士、郑海荣院士、焦立成教授、王大一研究员、于静一教授等多位知名学者将作主题演讲并带来前沿学术分享。会议期间将举办25场学术论坛、7场专题论坛、2场企业论坛,汇聚专家学者,搭建开放创新、跨界融合的交流平台。
本次活动中,合合信息智能创新事业部研发总监常阳致辞。常阳老师分享了和合信息在文档解析技术方面的最新研究成果,并探讨了如何利用这些技术来加速大型模型的训练和应用。
文档解析技术在大型模型的开发中发挥着至关重要的作用,尤其是在应对训练标记耗尽、语料质量要求高、解析不准确等挑战方面。高效获取高质量数据的方法包括文档元素识别、布局正确解析和快速转换速度等关键技术。
本文将对常阳老师的演讲进行详细展开。当前大型模型训练和应用面临的问题: 训练 token 耗尽 大型模型(如 GPT-4、BERT 等)在训练过程中需要处理大量文本数据,并且这些数据被分解为更小的单元,称为代币。
每个 Token 代表一个单词、单词的一部分或标点符号。随着模型变得更加复杂和数据需求的增加,训练令牌的耗尽成为一个主要问题。
这意味着模型在训练过程中会消耗大量的Token。如果Token不足,模型的训练效果将会受到限制。
训练语料质量要求高质量的训练语料是保证大型模型性能的关键。低质量或嘈杂的数据可能会导致模型学习到不正确的信息,从而影响其性能。
高质量的语料库需要准确、丰富、多样,以确保模型能够理解并生成高质量的语言。 LLM文档问答应用中的文档解析不准确在大型模型应用中,例如文档问答(Document QA)系统,文档解析的准确性至关重要。
文档解析不准确会导致模型无法正确理解文档内容,影响问答的准确性和用户体验。例如,当文档中的表格、公式、图表等复杂元素无法正确解析时,模型可能会提供不正确或不完整的答案。
合合信息的文档解析技术合合信息在文档解析技术方面进行了深入的研究和开发。其核心研究方向包括多文档元素识别、布局分析和高性能文档解析技术。
这些技术不仅提高了文档解析的准确性和效率,也为大型模型的训练和应用提供了强有力的支持。 1. 识别多个文档元素的能力。
多文档元素识别能力是指系统能够识别和区分文档中不同类型的元素,如表格、段落、公式、标题等。每个元素在文档中都有其特定的结构和语义。
准确识别这些元素是文档解析的基础。技术实现: 深度学习模型:使用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,训练系统识别不同的文档元素。
特征提取:通过图像处理技术提取表格线、段落边界、公式符号等特征,提高识别的准确率。标注数据集:构建一个大的标注数据集,包含各种文档元素的标注信息,用于模型训练和验证。
应用场景: 自动化文档处理:在办公自动化、电子文件管理等场景中,实现文档自动分类和元素提取。教育科研:识别学术论文中的图表和公式,协助科研数据的组织和分析。
2、具备布局分析能力 布局分析能力是指系统能够正确分析文档的布局,识别文档中的栏、节、段落等布局结构。复杂的文档布局,如双栏、三栏、文本和表格混合布局等,给解析带来了巨大的挑战。
技术实现: 物理布局分析:使用基于回归的单阶段检测模型(如Faster R-CNN、YOLO)来检测文档中的物理布局元素(如列、节)。逻辑布局分析:通过语义分析技术,了解文档的语义结构和层次关系,将不同的文本块组织成段落、列表等语义单元。
混合方法:结合物理和逻辑布局分析方法,提高分析复杂文档布局的能力。应用场景: 出版印刷:分析图书、报纸、杂志等出版物的版式结构,优化排版印刷流程。
档案数字化:将纸质档案数字化,保持原有布局,提高数字档案的可读性和可用性。 3.高性能文档解析高性能文档解析技术可以快速处理和转换大型文档,尤其是数百页的PDF文档,确保恢复正确的阅读顺序,避免混乱的词序。
技术实现: 并行处理技术:利用多线程和分布式计算技术,加速大规模文档的解析。优化算法:优化文档解析算法,提高处理效率,减少时间消耗。
硬件加速:利用GPU加速技术,进一步提升文档解析的性能。应用场景: 大数据处理:在金融、法律、医疗等领域,快速解析和处理大量文档,提高数据处理效率。
实时应用:在实时文档问答、即时信息提取等应用中提供快速、准确的文档解析服务。 4. 高度准确、高效的文档解析。
文档解析的准确性和效率是衡量技术性能的重要指标。和合信息的文档解析技术可以提供高精度、高效的解析结果,适合大型模型训练和应用场景。
技术实现: 精细化模型训练:通过精细化模型训练和调优,提高文档解析的准确性。纠错机制:引入错误检测和纠错机制,自动识别并纠正解析过程中的错误。
用户反馈系统:利用用户反馈信息不断优化和改进分析算法。应用场景:大模型训练:在大模型训练过程中,提供高质量的训练数据,提高模型性能。
知识库问答:在知识库问答系统中,快速准确地解析文档内容,提供高质量的问答服务。多面板部分示例文档解析的典型技术难点在文档解析过程中,会遇到很多技术难点,包括文档元素覆盖重叠、布局复杂、文档元素多样、页眉页脚、多列布局和表格等。
无线桌子和合并。细胞,以及各种公式的识别和处理。
下面对这些技术难点进行详细列举。元素覆盖和重叠:文档中的各种元素(例如文本、表格、公式等)可能会相互遮挡或重叠,给解析带来挑战。
复杂布局:文档可能采用双栏、跨页、三栏等复杂布局。这些布局结构需要准确识别和分析。
元素本身的多样性:不同类型的文档元素(如标题、段落、表格、公式等)具有不同的特征,需要有针对性地识别和分析。页眉和页脚的形式复杂:页眉和页脚的形式可能多种多样,需要准确识别和区分。
多列布局及其对表格的影响:多列布局和插入多列的表格会给文档解析带来额外的挑战。无线表和合并单元格:无线表和合并单元格的标识。
各种公式:单行公式、行内公式、表内公式等元素重叠、固有多样性、复杂模板示例元素重叠、固有多样性、复杂模板示例单行、行内、表内公式示例结合信息提出文档解析技术解决方案文档图像预处理算法框架主要包括以下几点区域提取: 提取文档区域干扰去除:去除手指、阴影、云纹图案等干扰。 变形校正:包括倾斜透视校正、弯曲图像修复:去除阴影、摩尔纹等去除图像增强:增强锐化等操作、图像文档弯曲校正算法、变形文档图像建模、使用偏移场对变形文档图像进行建模、通过DocUNet进行变形校正网络,空间变换,根据偏移场信息对图像进行空间变换,完成弯曲。
校正边缘填充采用Inpainting技术对校正后的图像进行边缘填充。图像文档干扰去除算法。
文档图像预处理使用U2net卷积网络进行背景提取。使用信息融合和干扰消除模块消除摩尔纹和灯光效果等干扰。
干扰去除算法效果。可以有效去除手指、阴影等干扰,提高文档图像质量。
文档图像预处理算法的整体效果如下。布局分析算法框架物理布局分析——文档布局分析采用基于回归的单阶段检测模型,如FasterRCNN、YOLO等,对文档中的各种布局元素进行检测和定位。
检测模型可以识别文档中的布局元素,例如列和部分。逻辑布局分析-语义结构分析逻辑布局分析算法主要关注文档的语义结构和布局关系。
通过建立层次概念和建模布局关系,实现对文档逻辑结构的分析和理解。根据语义关系对不同的文本块进行建模,形成文档的层次结构,如页面、段落、列表等。
布局分析算法的发展 和合信息最近的研究发现,现实世界的文档布局类型非常丰富,并且不能简单地用单柱、双柱等类别来定义。例如下面列出的目录、报纸、试卷等。
因此,判别式技术路线可以很好地处理大多数文档,但仍然无法真正对现实世界中的各种文档进行良好的布局分析。近年来,开放词汇对象检测(OVD)、视觉语义对齐(Alignment)等工作以及生成模型等前沿发展将为布局分析带来新的研究思路。
Textln文档解析效果总结常阳老师在CCIG会议上的演讲深入探讨了和合信息在文档解析技术上的突破性进展。这些技术不仅解决了大型模型训练和应用中的诸多挑战,而且大大提高了文档解析的效率和准确性。
和合信息通过先进的图像预处理、布局分析和语义结构分析,为大型模型在文档问答、知识库问答等应用场景中的表现提供了坚实的技术支撑。预计这些创新技术将为未来的研究和工业应用带来更多可能性。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-17
最新文章
【玩转GPU】ControlNet初学者生存指南
【实战】获取小程序中用户的城市信息(附源码)
包雪雪简单介绍Vue.js:开学
Go进阶:使用Gin框架简单实现服务端渲染
线程池介绍及实际案例分享
JMeter 注释 18 - JMeter 常用配置组件介绍
基于Sentry的大数据权限解决方案
【云+社区年度征文集】GPE监控介绍及使用