文本数据预处理：你可能需要注意这几点

发布于：2024-10-24 编辑：匿名来源：网络

本文关键词：文本数据预处理、中文文本预处理、自然语言处理摘要：要开展自然语言处理相关的工作，文本数据预处理是必不可少的过程。本文将对文本数据预处理相关内容进行总结整理，主要包括以下四个方面：文本数据获取常规文本数据预处理任务文本数据预处理相关内容文本预处理工具 1.文本数据获取《巧妇难为无米之炊》它”“没有米饭就不能做饭”。

要处理文本数据，首先需要获取文本数据。对于这个问题，大家可以“八仙过海，各显神通”，通过一切合法合理的方式收集数据集。

一般来说，数据可以通过三种渠道获取：自有数据编译、公共数据爬取和开源数据引用。自己的数据：收集和组织您自己或组织内可用的数据集。

爬取数据：爬虫是获取数据的重要手段，但在执行此操作之前必须遵守相关法规和Robots协议，并在爬取数据后合法应用数据。通常，大部分爬取任务都可以通过requests、BeautifulSoup4、Selenium等python工具完成。

图片豆瓣影评爬取可以参考：项目链接项目概况 CLUEDassetSearch 收集了很多中英文 NLP 数据集 funNLP 整理了很多 NLP 数据集和项目分类 Awesome-chinese-nlp 收集了中文自然语言处理相关资料 Chinese_medical_NLP 收集了医学NLP领域的评估数据集和论文相关资源（主要针对中文）。由此，在收集了原始数据集后，就可以进行后续相关的NLP分析。

特别是，数据集可以保存为txt、json、csv、tsv、sql表等格式，只要你喜欢就行（哈哈哈，有些格式可能会占用更多内存，所以使用较大的数据集时需要注意）。这里的图分享了一个csv大文件数据读取技巧，即利用pandas的chunksize来分块读取。

代码语言：txt copy import pandas as pddf = pd.read_csv("data.csv", chunksize=0) # 每次读取1w行数据 for df_chunk in df: print(df_chunk) 2、常规文本数据预处理文本数据 As一种非结构化数据，除了经过特殊处理的数据集外，大多数直接采集的文本数据都会或多或少地夹杂着无用信息。直接对其进行相关的文本分析和建模是没有帮助的。

通常，文本数据需要首先进行预处理。文本数据预处理一般有两个主要目的，即：（1）清理文本数据（按标准定制）（2）格式化文本数据（按需求定制） 2.1 清理文本数据中的空格和换行符，使用替换操作，将原文中的空格、制表键、换行符\n、\r等与文本无关的字符直接替换为空格。

消除无用信息，例如禁用单词列表构建。标点符号去除，使用正则表达式去除标点符号。

中英文标点符号可以通过以下两种方式获取。中文标点符号：from zhon.hanzi import punctuation（需要安装包：pip install zhon）英文标点符号：from string import 标点符号。

特别是在文本情感分析中，可以保留具有情感倾向的标点符号，如：？和！从噪声数据中提取所需数据，并使用正则表达式完成数据提取。例如：当只需要提取汉字时，可以使用常规的\u4e00-\u9fa5简体和繁体转换。

您可以安装该软件包：pip install opencc。英文数据：词形还原、大小写转换等（推荐python包：NLTK） 2.2 格式化文本数据文本根据标点符号分为句子。

文本切分，根据换行符或其他数据规则进行切分。文本按照字段存储：半结构化文本数据存储excel数据提取，建议安装python包pandas，pip install pandasdocx格式数据提取，建议安装python包python-docx，pip install python- docxpdf数据提取，可以安装包 pdfminer.six ， pip install pdfminer.six 此时，经过正规的预处理，文本数据会变得比较干净、规整，可以用于后续的NLP研究和应用。

（注意，适用于自己任务的操作是必要的，其他操作请参考奥卡姆剃刀“除非必要，否则不要添加实体”）。 3、与任务相关的文本数据预处理前面已经介绍了一般情况下文本预处理可能涉及到的注意点，但要真正做好数据预处理，还是要结合具体任务。

例如：数据不平衡问题、数据增强问题、数据标注问题等。 3.1 不平衡问题不平衡分类问题：在实际应用中，数据存在长尾分布现象，需要注意处理不平衡分类问题。

python 包balanced-learn 提供了几种很好的过采样和欠采样方法，您可以尝试。不平衡回归问题，链接一篇好文章：数据增强问题如果数据太少，那么就需要用规则和算法来增强数据，使数据多样化。

3.3 数据标注问题手动标注，好处：毕竟人多力量大，有人工智能就有多少智能。缺点：价格昂贵。

主动学习标注，目的：通过一定的技术手段和方法降低标注成本。具体来说，可以使用单一机器学习模型或集成学习的思想来提取需要人工审核和注释的数据。

标注平台和工具：可以开发相应的自动化预标注平台，通过人工审核获得标注的高质量数据集。 4.一些可用的文本预处理工具。

对于文本预处理工作，目前有一些具有各种功能的专门工具包。您可以尝试一下，以提高您自己的数据处理效率和质量。

数据预处理您如何看待“文本预处理”？欢迎留言讨论实用的自然语言处理。特别是本文如有疏漏之处，欢迎留言指出，以便纠正和完善。

如果看到文章的朋友对nlp话题感兴趣，欢迎留言交流讨论，共同写文章分享。

站长声明

标签：

上一篇：海量数据存储和访问瓶颈解决方案——数据分割

下一篇：【k8s学习笔记2】腾讯云harbor私有仓库部署实践

浙江大学与木溪集成电路共建针对GPU芯片的研究中心

近日，“浙江大学-木溪集成电路GPU芯片设计与应用联合研究中心”正式成立并举行揭牌仪式。据木希官方消息，该联合研究中心由木希集成电路（上海）有限公司与浙江大学联合共建。将由木犀集成电路、浙江大学计算机辅助设计与图形学国家重点实验室和浙江大学微纳电子学院联合研

06-06
锦州市与深圳市赛金投资有限公司（简称：赛金资本）签订2亿元纺织合同

投资界（ID：pedaily）消息，7月1日，锦州市签订纺织协议与深圳市赛金投资有限公司签署化工产业投资基金战略合作框架协议。一、基金投资迈出新步伐。此次签约基金规模达2亿元，为锦州市首都注入金融活力。这是锦州市优化招商引资服务的新举措，是锦州市结合产业特点开展基

06-17
重庆康佳光电技术研究院显示产品带来新惊喜

9月9日，第22届中国国际光电博览会（CIOE）在深圳国际会展中心盛大开幕。全球光电行业知名企业齐聚一堂，展示产品。开发自己的新技术、新产品。中国企业展台上，康佳集团旗下重庆康佳光电技术研究院的产品引起了人们的关注。现场，重庆康佳光电技术研究院展出了三款新研发

06-06
Lightspeed China Partners II, L.P.完成2.6亿美元超额募资

Lightspeed China Partners今天宣布，已完成Lightspeed China Partners II, L.P.本次募资，基金规模达到2.6亿美元，超过预计目标为2.2亿美元。　　该基金将重点关注中国市场互联网、移动、技术驱动的服务行业和企业技术解决方案行业的早期投资。光速安贞中国董事总经理曹大

06-18
潮流时尚品牌“INXX”获数亿元B轮融资，君联资本领投，险峰旗云也参与投资，

据投资界3月22日消息，潮流时尚品牌“INXX”近日宣布完成君联资本、险峰旗云领投的投资。联合投资者数亿元B轮融资。据悉，本轮募集资金将主要用于品牌、渠道、供应链、团队等方面的建设。　　INXX成立于2007年，是一个潮流时尚品牌集合平台。旗下拥有INXX、Pilgrimage、S

06-17
提升加油站服务质量：沃丰科技在线客服系统助力客户服务转型升级

.wp-block-column h3{margin-left:0} 加油站客户服务系统是一个综合信息管理系统，可以帮助加油站提高运营效率，为消费者提供更便捷的服务。加油站客户服务系统可以提供以下便捷服务：会员积分服务：消费者可以在加油站客户服务系统中注册成为会员，通过用气积累积分。这些

06-18
锐驰智慧获数百万元天使轮融资，联想创投、KIP中国联合投资

投资圈（ID：pedaily）据7月6日消息，智能割草机器人品牌“锐驰智慧”宣布已完成数据100万元天使轮融资。本轮融资由联想创投和KIP中国共同投资。本轮融资资金将主要用于产品研发及量产、营销和团队建设。公司新一轮融资也正在进行中。锐驰智慧成立于2007年，是一家总部位

06-17
多玩网获1亿美元巨额融资，计划年底海外上市

据人士透露，经营语音聊天工具和游戏门户的多玩网计划海外上市年底，承销商也已确定。　　据悉，多玩网的上市也是受到其天使投资人董事长和雷军的推动。计划今年年底前上市融资，进一步扩大市场份额。　　除了游戏资讯和社区之外，多玩的主要产品是多玩语音工具YY。 YY（

06-18
阿里巴巴、副总裁、家洛：天猫双十一发40亿现金红包

上头条10月21日凌晨，天猫双十一预售正式启动，双十一大战打响。在天猫双十一全球狂欢季新闻发布会上，阿里巴巴集团副总裁和家洛透露，今年将是“史上最大的双十一平台投资”。平台将发放40亿现金红包、1亿品类补贴、1亿品类补贴。品牌大优惠券整体规模是去年的两倍。据悉

06-17
回宫吧！比特大陆吴忌汉强势回归，詹克团出炉

语音播放文章内容深声科技提供技术支持您的浏览器不支持音频元素。据雷锋网报道，10月29日，全球最大矿机制造商比特大陆发生重大人事变动：比特大陆创始人吴忌涵向全体员工发出邮件通知，宣布解除詹克团的职务。比特大陆的所有职位立即生效。雷锋网注意到，除了比特大陆

06-17
学生的好消息- 「擎朗智能」完成2亿美元D轮融资，由软银Vision

领投，擎朗智能创始人及CEO李通表示，本轮融资将用于扩大自身研发和供应链优势，提升整体销量提升服务能力，加快多应用场景布局，进一步推动全球商用服务机器人规模化落地和普及。 *擎朗智能机器人全家福图片来源擎朗智能擎朗智能公司成立于2007年，去年12月宣布完成数亿元

06-18
阔博智能全资收购欧洲风电智能运维公司Aerodyne AtSite

投资界，4月8日，阔博智能今日宣布全资收购欧洲风电智能运维先行者Aerodyne AtSite成为海上风电技术领域的先行者，打造全球领先的王牌风电巡检系统，并进一步深化在欧洲风电市场的战略布局，优化中美三大核心市场的资源配置。欧洲，并持续巩固久保智能在全球风电检测市场的领

06-17