首页 > 网络技术迭代 > 内容

CCIG 2024：和合信息文档解析技术突破及应用前景

发布于：2024-10-24 编辑：匿名来源：网络

背景今年5月24日至26日，中国图像图形大会（CCIG）在西安召开。会议由中国图像图形学会、空军主办，军医大学、西安交通大学、西北工业大学承办，南京理工大学、陕西省图像图形学学会、陕西生物医药协办工程学会，并得到陕西省科学技术协会的支持。

于奇峰院士、郑海荣院士、焦立成教授、王大一研究员、于静一教授等多位知名学者将作主题演讲并带来前沿学术分享。会议期间将举办25场学术论坛、7场专题论坛、2场企业论坛，汇聚专家学者，搭建开放创新、跨界融合的交流平台。

本次活动中，合合信息智能创新事业部研发总监常阳致辞。常阳老师分享了和合信息在文档解析技术方面的最新研究成果，并探讨了如何利用这些技术来加速大型模型的训练和应用。

文档解析技术在大型模型的开发中发挥着至关重要的作用，尤其是在应对训练标记耗尽、语料质量要求高、解析不准确等挑战方面。高效获取高质量数据的方法包括文档元素识别、布局正确解析和快速转换速度等关键技术。

本文将对常阳老师的演讲进行详细展开。当前大型模型训练和应用面临的问题：训练 token 耗尽大型模型（如 GPT-4、BERT 等）在训练过程中需要处理大量文本数据，并且这些数据被分解为更小的单元，称为代币。

每个 Token 代表一个单词、单词的一部分或标点符号。随着模型变得更加复杂和数据需求的增加，训练令牌的耗尽成为一个主要问题。

这意味着模型在训练过程中会消耗大量的Token。如果Token不足，模型的训练效果将会受到限制。

训练语料质量要求高质量的训练语料是保证大型模型性能的关键。低质量或嘈杂的数据可能会导致模型学习到不正确的信息，从而影响其性能。

高质量的语料库需要准确、丰富、多样，以确保模型能够理解并生成高质量的语言。 LLM文档问答应用中的文档解析不准确在大型模型应用中，例如文档问答（Document QA）系统，文档解析的准确性至关重要。

文档解析不准确会导致模型无法正确理解文档内容，影响问答的准确性和用户体验。例如，当文档中的表格、公式、图表等复杂元素无法正确解析时，模型可能会提供不正确或不完整的答案。

合合信息的文档解析技术合合信息在文档解析技术方面进行了深入的研究和开发。其核心研究方向包括多文档元素识别、布局分析和高性能文档解析技术。

这些技术不仅提高了文档解析的准确性和效率，也为大型模型的训练和应用提供了强有力的支持。 1. 识别多个文档元素的能力。

多文档元素识别能力是指系统能够识别和区分文档中不同类型的元素，如表格、段落、公式、标题等。每个元素在文档中都有其特定的结构和语义。

准确识别这些元素是文档解析的基础。技术实现：深度学习模型：使用卷积神经网络（CNN）和循环神经网络（RNN）等深度学习模型，训练系统识别不同的文档元素。

特征提取：通过图像处理技术提取表格线、段落边界、公式符号等特征，提高识别的准确率。标注数据集：构建一个大的标注数据集，包含各种文档元素的标注信息，用于模型训练和验证。

应用场景：自动化文档处理：在办公自动化、电子文件管理等场景中，实现文档自动分类和元素提取。教育科研：识别学术论文中的图表和公式，协助科研数据的组织和分析。

2、具备布局分析能力布局分析能力是指系统能够正确分析文档的布局，识别文档中的栏、节、段落等布局结构。复杂的文档布局，如双栏、三栏、文本和表格混合布局等，给解析带来了巨大的挑战。

技术实现：物理布局分析：使用基于回归的单阶段检测模型（如Faster R-CNN、YOLO）来检测文档中的物理布局元素（如列、节）。逻辑布局分析：通过语义分析技术，了解文档的语义结构和层次关系，将不同的文本块组织成段落、列表等语义单元。

混合方法：结合物理和逻辑布局分析方法，提高分析复杂文档布局的能力。应用场景：出版印刷：分析图书、报纸、杂志等出版物的版式结构，优化排版印刷流程。

档案数字化：将纸质档案数字化，保持原有布局，提高数字档案的可读性和可用性。 3.高性能文档解析高性能文档解析技术可以快速处理和转换大型文档，尤其是数百页的PDF文档，确保恢复正确的阅读顺序，避免混乱的词序。

技术实现：并行处理技术：利用多线程和分布式计算技术，加速大规模文档的解析。优化算法：优化文档解析算法，提高处理效率，减少时间消耗。

硬件加速：利用GPU加速技术，进一步提升文档解析的性能。应用场景：大数据处理：在金融、法律、医疗等领域，快速解析和处理大量文档，提高数据处理效率。

实时应用：在实时文档问答、即时信息提取等应用中提供快速、准确的文档解析服务。 4. 高度准确、高效的文档解析。

文档解析的准确性和效率是衡量技术性能的重要指标。和合信息的文档解析技术可以提供高精度、高效的解析结果，适合大型模型训练和应用场景。

技术实现：精细化模型训练：通过精细化模型训练和调优，提高文档解析的准确性。纠错机制：引入错误检测和纠错机制，自动识别并纠正解析过程中的错误。

用户反馈系统：利用用户反馈信息不断优化和改进分析算法。应用场景：大模型训练：在大模型训练过程中，提供高质量的训练数据，提高模型性能。

知识库问答：在知识库问答系统中，快速准确地解析文档内容，提供高质量的问答服务。多面板部分示例文档解析的典型技术难点在文档解析过程中，会遇到很多技术难点，包括文档元素覆盖重叠、布局复杂、文档元素多样、页眉页脚、多列布局和表格等。

无线桌子和合并。细胞，以及各种公式的识别和处理。

下面对这些技术难点进行详细列举。元素覆盖和重叠：文档中的各种元素（例如文本、表格、公式等）可能会相互遮挡或重叠，给解析带来挑战。

复杂布局：文档可能采用双栏、跨页、三栏等复杂布局。这些布局结构需要准确识别和分析。

元素本身的多样性：不同类型的文档元素（如标题、段落、表格、公式等）具有不同的特征，需要有针对性地识别和分析。页眉和页脚的形式复杂：页眉和页脚的形式可能多种多样，需要准确识别和区分。

多列布局及其对表格的影响：多列布局和插入多列的表格会给文档解析带来额外的挑战。无线表和合并单元格：无线表和合并单元格的标识。

各种公式：单行公式、行内公式、表内公式等元素重叠、固有多样性、复杂模板示例元素重叠、固有多样性、复杂模板示例单行、行内、表内公式示例结合信息提出文档解析技术解决方案文档图像预处理算法框架主要包括以下几点区域提取：提取文档区域干扰去除：去除手指、阴影、云纹图案等干扰。变形校正：包括倾斜透视校正、弯曲图像修复：去除阴影、摩尔纹等去除图像增强：增强锐化等操作、图像文档弯曲校正算法、变形文档图像建模、使用偏移场对变形文档图像进行建模、通过DocUNet进行变形校正网络，空间变换，根据偏移场信息对图像进行空间变换，完成弯曲。

校正边缘填充采用Inpainting技术对校正后的图像进行边缘填充。图像文档干扰去除算法。

文档图像预处理使用U2net卷积网络进行背景提取。使用信息融合和干扰消除模块消除摩尔纹和灯光效果等干扰。

干扰去除算法效果。可以有效去除手指、阴影等干扰，提高文档图像质量。

文档图像预处理算法的整体效果如下。布局分析算法框架物理布局分析——文档布局分析采用基于回归的单阶段检测模型，如FasterRCNN、YOLO等，对文档中的各种布局元素进行检测和定位。

检测模型可以识别文档中的布局元素，例如列和部分。逻辑布局分析-语义结构分析逻辑布局分析算法主要关注文档的语义结构和布局关系。

通过建立层次概念和建模布局关系，实现对文档逻辑结构的分析和理解。根据语义关系对不同的文本块进行建模，形成文档的层次结构，如页面、段落、列表等。

布局分析算法的发展和合信息最近的研究发现，现实世界的文档布局类型非常丰富，并且不能简单地用单柱、双柱等类别来定义。例如下面列出的目录、报纸、试卷等。

因此，判别式技术路线可以很好地处理大多数文档，但仍然无法真正对现实世界中的各种文档进行良好的布局分析。近年来，开放词汇对象检测（OVD）、视觉语义对齐（Alignment）等工作以及生成模型等前沿发展将为布局分析带来新的研究思路。

Textln文档解析效果总结常阳老师在CCIG会议上的演讲深入探讨了和合信息在文档解析技术上的突破性进展。这些技术不仅解决了大型模型训练和应用中的诸多挑战，而且大大提高了文档解析的效率和准确性。

和合信息通过先进的图像预处理、布局分析和语义结构分析，为大型模型在文档问答、知识库问答等应用场景中的表现提供了坚实的技术支撑。预计这些创新技术将为未来的研究和工业应用带来更多可能性。

站长声明

标签：

上一篇：新核心，新速度——下一代标准运维引擎

下一篇：【开源公告】腾讯Node.js基础设施TSW正式开源

老铺黄金等人“折A转港”

老铺黄金A股崩盘后，选择转投港股。 11月10日，老铺黄金在香港联交所披露招股说明书。梦金源今年9月向港股市场发起进攻，之前也曾遭遇过“A”的失败。 11月17日，深交所公告称，星期六福已于11月8日主动撤回上市申请。黄金珠宝终端消费热情带动黄金珠宝企业业绩稳步上升，不

06-18
全球首次碳化硅MEMS微推力阵列在轨点火试验成功

南京理工大学化工学院消息：近日，碳化硅MEMS（微机电系统）微推力阵列芯片在轨点火试验成功与金牛座纳米星运行37天后，从地面收到点火命令成功点火，金牛座纳米星的姿态控制技术在轨道上得到验证。金牛座纳米卫星由八院所属上海依依斯航天技术有限公司研制。 9月12日11时26

06-06
【全球财经24小时】2023年9月21日投融资事件汇总及详情

今日全球市场共发生16起投资披露事件，其中境内13起，境外13起。其中，国内先进制造业4例，医疗健康行业4例，汽车交通运输行业1例，电商零售行业1例，企业服务行业1例，传统制造业2例。涉外医疗健康行业2例，金融行业1例。国内事件 1、灵科药业完成C2轮融资，整体C轮融资金

06-18
相信你的耳朵，盲目测试全球最薄vivo X5Max的Hi-Fi 2.0

vivo在年底前发布了年度旗舰——全球最薄vivo，它保持着全球最薄手机的记录。此外，vivo X5Max还搭载全新手机Hi-Fi 2.0架构，使该手机成为全球音质最好的手机，媲美专业Hi-Fi玩家。那么，什么是Hi-Fi 2.0？根据vivo提供的信息，Hi-Fi 2.0采用了二次供电+二次放大+专业音频解

06-17
共享纸巾平台“纸鼠”完成数百万元天使轮融资，白马金服投资

据投资界2月6日消息，共享纸巾平台“纸鼠”近日宣布，已完成数百万元天使轮融资，投资方为白马金服。　　据悉，本轮融资资金将用于共享卫生纸机的升级、研发和市场拓展。　　Paper Mouse成立于今年10月，是一个组织共享平台。公开信息显示，纸鼠目前已预订多台卫生纸机，

06-18
尊湃通信完成数亿元Pre-A轮融资，致力于提供全系列Wi-Fi芯片及解决方案

投资界（ID：pedaily）5月9日消息，尊湃通信科技（南京）尊湃传播股份有限公司（二）近日宣布完成数亿元Pre-A轮融资。本轮由小米集团、虎山资本、天极资本、嘉域资本、上海科创海王资本、品智信息等知名金融投资机构投资。以及产业投资者的构成。此前，尊湃通讯于5月21日完

06-18
宜家最酷的未来产品都来自这个神秘的实验室

在哥本哈根肉类加工区的中心地带，有无数的画廊、艺术咖啡馆和创意工作室。其中有一栋由鱼市场改建而成的平米建筑。利用技术和好奇心来绘制宜家的未来蓝图。这就是宜家资助的 SPACE10 冒险之旅的起点。作为宜家的未来生活实验室和产品创意孵化器，SPACE10总是开发一些超级

06-21
李彦宏内部信宣布李震宇晋升为百度集团高层副总裁

百度创始人与CEO李彦宏通过内部信宣布，百度集团副总裁和智能驾驶集团总经理李震宇晋升为集团高层副总裁，并将继续担任全面负责IDG的业务和管理工作，并向集团CEO汇报。

06-17
艾罗能源正计划在A股IPO，主要产品包括光伏储能系统等

艾罗能源正在筹划A股IPO。公司长期专注于家用光伏逆变器、家用储能设备等新能源供电设备的研发。、生产、销售。

06-18
香港理工大学研发出适用于可穿戴电子装置的高透气超弹导电材料

2020年3月24日，香港理工大学（理大）研发出适用于长时间佩戴电子装置的高透气超弹导电材料一段时间。。这种创新的导电材料采用涂层或印刷的方法，将液态金属材料添加到静电纺丝制成的弹性纤维网上。它不仅具有高透气性、弹性、导电性且具有高导电稳定性，可广泛应用于健

06-06
冯仑：有了这样的制度环境，创新只是“副产品”

近日，万通集团创始人冯仑在WISE超级进化者大会上谈到创新时表示，个人驱动力是一方面，外部的制度环境也很重要。冯仑表示，必须有一个允许民营企业存在的制度环境，企业才愿意创新。比如，土地1-2年不开发就被拿走，比如加大健康住房的投入，但登记价格和不创新一样，企业

06-18
杨迪、麻子、谢广坤都做出了“爆炸性的改变”，这背后是谁？

亚洲换头术的魔力在短视频继续放大。前一分钟杨迪还自嘲小眼睛，后一分钟成功变身男团酷偶像。苹果手机的面部识别功能在真正的“苦力”面前不得不被打败。《狂飙》中的麻子哥变身为五官精致的清秀美男。无奖猜测。原本只是想看热闹的网友们大概没有想到，看完一个视频后

06-18