CCIG 2024:和合信息文档解析技术突破及应用前景

发布于:2024-10-24 编辑:匿名 来源:网络

背景今年5月24日至26日,中国图像图形大会(CCIG)在西安召开。会议由中国图像图形学会、空军主办,军医大学、西安交通大学、西北工业大学承办,南京理工大学、陕西省图像图形学学会、陕西生物医药协办工程学会,并得到陕西省科学技术协会的支持。

于奇峰院士、郑海荣院士、焦立成教授、王大一研究员、于静一教授等多位知名学者将作主题演讲并带来前沿学术分享。会议期间将举办25场学术论坛、7场专题论坛、2场企业论坛,汇聚专家学者,搭建开放创新、跨界融合的交流平台。

本次活动中,合合信息智能创新事业部研发总监常阳致辞。常阳老师分享了和合信息在文档解析技术方面的最新研究成果,并探讨了如何利用这些技术来加速大型模型的训练和应用。

文档解析技术在大型模型的开发中发挥着至关重要的作用,尤其是在应对训练标记耗尽、语料质量要求高、解析不准确等挑战方面。高效获取高质量数据的方法包括文档元素识别、布局正确解析和快速转换速度等关键技术。

本文将对常阳老师的演讲进行详细展开。当前大型模型训练和应用面临的问题: 训练 token 耗尽 大型模型(如 GPT-4、BERT 等)在训练过程中需要处理大量文本数据,并且这些数据被分解为更小的单元,称为代币。

每个 Token 代表一个单词、单词的一部分或标点符号。随着模型变得更加复杂和数据需求的增加,训练令牌的耗尽成为一个主要问题。

这意味着模型在训练过程中会消耗大量的Token。如果Token不足,模型的训练效果将会受到限制。

训练语料质量要求高质量的训练语料是保证大型模型性能的关键。低质量或嘈杂的数据可能会导致模型学习到不正确的信息,从而影响其性能。

高质量的语料库需要准确、丰富、多样,以确保模型能够理解并生成高质量的语言。 LLM文档问答应用中的文档解析不准确在大型模型应用中,例如文档问答(Document QA)系统,文档解析的准确性至关重要。

文档解析不准确会导致模型无法正确理解文档内容,影响问答的准确性和用户体验。例如,当文档中的表格、公式、图表等复杂元素无法正确解析时,模型可能会提供不正确或不完整的答案。

合合信息的文档解析技术合合信息在文档解析技术方面进行了深入的研究和开发。其核心研究方向包括多文档元素识别、布局分析和高性能文档解析技术。

这些技术不仅提高了文档解析的准确性和效率,也为大型模型的训练和应用提供了强有力的支持。 1. 识别多个文档元素的能力。

多文档元素识别能力是指系统能够识别和区分文档中不同类型的元素,如表格、段落、公式、标题等。每个元素在文档中都有其特定的结构和语义。

准确识别这些元素是文档解析的基础。技术实现: 深度学习模型:使用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,训练系统识别不同的文档元素。

特征提取:通过图像处理技术提取表格线、段落边界、公式符号等特征,提高识别的准确率。标注数据集:构建一个大的标注数据集,包含各种文档元素的标注信息,用于模型训练和验证。

应用场景: 自动化文档处理:在办公自动化、电子文件管理等场景中,实现文档自动分类和元素提取。教育科研:识别学术论文中的图表和公式,协助科研数据的组织和分析。

2、具备布局分析能力 布局分析能力是指系统能够正确分析文档的布局,识别文档中的栏、节、段落等布局结构。复杂的文档布局,如双栏、三栏、文本和表格混合布局等,给解析带来了巨大的挑战。

技术实现: 物理布局分析:使用基于回归的单阶段检测模型(如Faster R-CNN、YOLO)来检测文档中的物理布局元素(如列、节)。逻辑布局分析:通过语义分析技术,了解文档的语义结构和层次关系,将不同的文本块组织成段落、列表等语义单元。

混合方法:结合物理和逻辑布局分析方法,提高分析复杂文档布局的能力。应用场景: 出版印刷:分析图书、报纸、杂志等出版物的版式结构,优化排版印刷流程。

档案数字化:将纸质档案数字化,保持原有布局,提高数字档案的可读性和可用性。 3.高性能文档解析高性能文档解析技术可以快速处理和转换大型文档,尤其是数百页的PDF文档,确保恢复正确的阅读顺序,避免混乱的词序。

技术实现: 并行处理技术:利用多线程和分布式计算技术,加速大规模文档的解析。优化算法:优化文档解析算法,提高处理效率,减少时间消耗。

硬件加速:利用GPU加速技术,进一步提升文档解析的性能。应用场景: 大数据处理:在金融、法律、医疗等领域,快速解析和处理大量文档,提高数据处理效率。

实时应用:在实时文档问答、即时信息提取等应用中提供快速、准确的文档解析服务。 4. 高度准确、高效的文档解析。

文档解析的准确性和效率是衡量技术性能的重要指标。和合信息的文档解析技术可以提供高精度、高效的解析结果,适合大型模型训练和应用场景。

技术实现: 精细化模型训练:通过精细化模型训练和调优,提高文档解析的准确性。纠错机制:引入错误检测和纠错机制,自动识别并纠正解析过程中的错误。

用户反馈系统:利用用户反馈信息不断优化和改进分析算法。应用场景:大模型训练:在大模型训练过程中,提供高质量的训练数据,提高模型性能。

知识库问答:在知识库问答系统中,快速准确地解析文档内容,提供高质量的问答服务。多面板部分示例文档解析的典型技术难点在文档解析过程中,会遇到很多技术难点,包括文档元素覆盖重叠、布局复杂、文档元素多样、页眉页脚、多列布局和表格等。

无线桌子和合并。细胞,以及各种公式的识别和处理。

下面对这些技术难点进行详细列举。元素覆盖和重叠:文档中的各种元素(例如文本、表格、公式等)可能会相互遮挡或重叠,给解析带来挑战。

复杂布局:文档可能采用双栏、跨页、三栏等复杂布局。这些布局结构需要准确识别和分析。

元素本身的多样性:不同类型的文档元素(如标题、段落、表格、公式等)具有不同的特征,需要有针对性地识别和分析。页眉和页脚的形式复杂:页眉和页脚的形式可能多种多样,需要准确识别和区分。

多列布局及其对表格的影响:多列布局和插入多列的表格会给文档解析带来额外的挑战。无线表和合并单元格:无线表和合并单元格的标识。

各种公式:单行公式、行内公式、表内公式等元素重叠、固有多样性、复杂模板示例元素重叠、固有多样性、复杂模板示例单行、行内、表内公式示例结合信息提出文档解析技术解决方案文档图像预处理算法框架主要包括以下几点区域提取: 提取文档区域干扰去除:去除手指、阴影、云纹图案等干扰。 变形校正:包括倾斜透视校正、弯曲图像修复:去除阴影、摩尔纹等去除图像增强:增强锐化等操作、图像文档弯曲校正算法、变形文档图像建模、使用偏移场对变形文档图像进行建模、通过DocUNet进行变形校正网络,空间变换,根据偏移场信息对图像进行空间变换,完成弯曲。

校正边缘填充采用Inpainting技术对校正后的图像进行边缘填充。图像文档干扰去除算法。

文档图像预处理使用U2net卷积网络进行背景提取。使用信息融合和干扰消除模块消除摩尔纹和灯光效果等干扰。

干扰去除算法效果。可以有效去除手指、阴影等干扰,提高文档图像质量。

文档图像预处理算法的整体效果如下。布局分析算法框架物理布局分析——文档布局分析采用基于回归的单阶段检测模型,如FasterRCNN、YOLO等,对文档中的各种布局元素进行检测和定位。

检测模型可以识别文档中的布局元素,例如列和部分。逻辑布局分析-语义结构分析逻辑布局分析算法主要关注文档的语义结构和布局关系。

通过建立层次概念和建模布局关系,实现对文档逻辑结构的分析和理解。根据语义关系对不同的文本块进行建模,形成文档的层次结构,如页面、段落、列表等。

布局分析算法的发展 和合信息最近的研究发现,现实世界的文档布局类型非常丰富,并且不能简单地用单柱、双柱等类别来定义。例如下面列出的目录、报纸、试卷等。

因此,判别式技术路线可以很好地处理大多数文档,但仍然无法真正对现实世界中的各种文档进行良好的布局分析。近年来,开放词汇对象检测(OVD)、视觉语义对齐(Alignment)等工作以及生成模型等前沿发展将为布局分析带来新的研究思路。

Textln文档解析效果总结常阳老师在CCIG会议上的演讲深入探讨了和合信息在文档解析技术上的突破性进展。这些技术不仅解决了大型模型训练和应用中的诸多挑战,而且大大提高了文档解析的效率和准确性。

和合信息通过先进的图像预处理、布局分析和语义结构分析,为大型模型在文档问答、知识库问答等应用场景中的表现提供了坚实的技术支撑。预计这些创新技术将为未来的研究和工业应用带来更多可能性。

CCIG 2024:和合信息文档解析技术突破及应用前景

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 镁伽科技黄瑜清:智能自动化给生命科学带来巨大变革

    镁伽科技黄瑜清:智能自动化给生命科学带来巨大变革

    近日,戈壁创投年度投资峰会在线上举行。 戈壁创投邀请LP及被投企业经理参加会议,分享收获,共同努力。 探索趋势,见证未来。 2019年,国际环境复杂严峻,资本市场波动剧烈,加上疫情影响,股权投资面临前所未有的考验。 在“危机”与“机遇”交叉的环境下,戈壁创投继续保持

    06-18

  • 超星星完成数亿元C轮融资,加速释放优质碳化硅衬底产能

    超星星完成数亿元C轮融资,加速释放优质碳化硅衬底产能

    据投资界(ID:pedaily)12月14日消息,江苏超星星半导体股份有限公司超星行(以下简称“超星行”)近日完成数亿元C轮融资。 本轮融资由国际知名投资机构领投,商洛电子、老股东策资本跟投。 云秀资本担任本轮融资独家财务顾问。 超星星成立于今年4月,总部位于江苏南京。 致

    06-18

  • 以36.5亿元卖掉公司后,他流落街头说:我再也不会创业了,我要投资!

    以36.5亿元卖掉公司后,他流落街头说:我再也不会创业了,我要投资!

    沉寂了五个多月后,橙晶创始人乌海因为一篇文章再次回到公众视野。   2天前,吴海参加了摩根士丹利举办的一场“庆祝交易成功”的聚会(橙晶酒店“卖身”给华住酒店)。 “为了庆祝我的公司出售,我的心情可能不太好。 我不知道为什么。 醉了。 ”在《卖了酒店,昨晚,我喝醉

    06-18

  • 13小时破1207亿!砍单的背后是单打的狂欢,潮流已至

    13小时破1207亿!砍单的背后是单打的狂欢,潮流已至

    13:09:49,天猫双11全球狂欢成交额破亿元!地球已经无法阻挡国人“恐怖”的购买力了!虽然本次双11小败家的最终战斗力尚未揭晓,但与去年的亿元数据相比,已经提前了10小时50分11秒。 在同时喊出“痛”和“爽”的同时,国人到底能以怎样的数字打破世人的想象,还有待观察。 很

    06-17

  • 首次发布 - Gluetacs Therapeutics完成A轮融资,加速蛋白降解药物临床转化

    首次发布 - Gluetacs Therapeutics完成A轮融资,加速蛋白降解药物临床转化

    投资界(ID:pedaily)5月31日消息,Gluetacs Therapeutics宣布获得A轮融资,由黄埔生物医药基金领投,其次是广东造币投资、南湾百奥、思南元科。 本轮融资将重点关注博信生物的产品管线GT、GT的临床一期推进及临床前项目开发。 标新生物是上海科技大学免疫化学研究所孵化的一

    06-17

  • 机构也“疯狂”!北京交易所成立以来,累计开展调查762次,谁是“机构调查之王”?

    机构也“疯狂”!北京交易所成立以来,累计开展调查762次,谁是“机构调查之王”?

    作者|徐明辉编辑|六耳源|直达北京交流 年已结束。 回顾今年的经济发展,北京证券交易所是中国资本市场绕不开的话题。 北京交易所作为服务创新型中小企业的主阵地,将成就一批中小企业。 一些企业从被忽视,到如今已颇具规模,如今正站在聚光灯下,接受机构的深入研究。 据

    06-18

  • 菜鸟驿站进军数字化社区生活,正式推出团购、洗衣、回收服务

    菜鸟驿站进军数字化社区生活,正式推出团购、洗衣、回收服务

    进军团购、洗衣、回收……菜鸟驿站刚刚宣布,将从快递服务全面升级为数字化社区生活服务。 据投资界(微信ID:pedaily)消息,今日(6月23日)全球智慧物流峰会上,菜鸟小站宣布升级为数字社区生活小站:通过团购将值得信赖的产品送到你家门口、洗衣、回收等便捷服务。 这意味

    06-17

  • 投资界独家-传闻宝宝树引入互联网巨头加持,估值约150亿元

    投资界独家-传闻宝宝树引入互联网巨头加持,估值约150亿元

    据投资界5月28日消息,有消息称,国内母婴龙头企业宝宝树将引入互联网+来自巨头互联网的新一轮战略投资,最新估值约为1亿元人民币。   援引该消息,人士表示,投资合作计划将于近期公布。 除了战略资本合作、进一步优化股东结构布局外,这个互联网平台也将极大赋能宝宝树在

    06-17

  • iQOO Z3图赏:售价2000元以下的“能手卡”

    iQOO Z3图赏:售价2000元以下的“能手卡”

    不到一个月的时间,iQOO就接连发布了两款新机,有点让人应接不暇。 iQOO Neo 5和iQOO Z3都打“性价比”牌,都有一定的特色,是iQOO品牌主打销量的两条产品线。 ▲新发布的iQOO Z3。 我们在体验iQOO 7时,曾说它是“三双”高手。 它的存在就是带领整个队伍的进攻去攻占城市和领

    06-21

  • 普通人对亚运会的热情尽在快手

    普通人对亚运会的热情尽在快手

    这个中秋国庆假期,没有什么话题能比杭州亚运会更火爆了。 自上月14日亚运会门票开售以来,不少赛事门票都被观众抢购一空。 除了观看赛事本身,看明星在亚运会上讨论比赛、为中国队加油、分享自己的观赛感受也成为一种热潮。 随着29日比赛男子50米蛙泳决赛覃海洋率先冲线,中

    06-18

  • 上海港汽车出口同比增长超过50%

    上海港汽车出口同比增长超过50%

    上海港汽车出口开门红。 海通码头1月份出口各类车辆超过2万辆,同比增长超过50%。 上海作为全国最大的汽车进出口口岸,正在改变过去“出口产品低端、出口市场低端”的局面。 过去60%以上出口到拉美、非洲、中东等地区,到现在欧洲、美国、新西兰、澳大利亚等发达国家占比接近

    06-18

  • 硅谷精英所信奉的“AI宗教”到底是做什么的?

    硅谷精英所信奉的“AI宗教”到底是做什么的?

    作者 |高念编辑|靖宇 滑雪的终点是骨科,科学的终点是……神学? 2019年是当之无愧的“AI+大模型”年。 以ChatGPT为代表的生成式AI的快速进步,甚至让人们认为大型语言模型有资格被称为“世界模型”——人工智能从未像今天这样。 如此接近“神性”。 更难以想象的是,八年前,

    06-17