NLP数据增强方法——动手实践

发布于：2024-10-24 编辑：匿名来源：网络

目前的模型基本解决的是数据集，而不是任务，所以数据极其重要。图像中的数据可以通过旋转、翻转变换、RGB转灰度、添加白噪声等方式进行增强，语义不会改变。

然而，NLP 中经常发生语义变化。已经探索了一些 NLP 的数据增强方法。

同义词替换应该是最早的方法。通过替换句子中的同义词，确保了语义不变性。

根据同义词的来源，可以分为几种方案。 WordNet 通过 WrodNet 中的同义词回忆相似的单词。

请参阅代码语言： javascript Copy import nltkfrom nltk.corpus import wordnetnltk.download('omw')word = "AIR CONDITIONER" for every in wordnet.synsets(word, lang='cmn'): print(each.lemma_names('cmn) '), )# [ '空调', '空调', '空调', '空调装置', '空调设备'] 完整代码参见：word_sim.pysynonymssynonyms是一个中文同义词工具包，参见代码语言： javascript copy import synonymsword = "空调" print(synonyms.nearby(word))# (['空调', '空调', '空调设备', '空调系统', 'Wavebox', '汽车' , '制冷', '空调', '空调', '总线输入'], [1.0, 0., 0., 0., 0., 0., 0., 0., 0., 0. ]) 完整代码参见：word_sim.py 词向量召回基于词法和框架语义嵌入的数据增强方法词向量召回主要将单词映射为低维稠密向量，并通过向量召回来召回同义词。上下文嵌入方法。

回忆起的单词可能不是同义词。例如，W2V主要是基于单词分布的向量化，因此位置分布相似的单词可能会被回忆起来，但语义可能会不同。

因此，也有人提出了Frame-Semantic Embeddings方法。代码语言：javascript copy from gensim.models.keyedvectors import KeyedVectorsword = "Air Conditioner"# 词向量召回，词向量下载：= "./cn_bi_fastnlp_d.txt" w2v_model = KeyedVectors.load_word2vec_format(w2v_file)print(w2v_model.similar_by_word(word) ) [:10])# [('空调', 0.), ('暖气', 0.), ('风扇', 0.), ('电暖气', 0.), ('风扇' , 0.), ('暖气', 0.), ('暖气', 0.), ('电暖气', 0.), ('通风', 0.), ('隔音', 0.) ] 完整代码参见：word_sim.py TF-IDF 用于一致性训练的无监督数据增强 TF 表示该术语在文档 d 中出现的频率，IDF 表示逆文档频率 TF-IDF。

分数较低的单词无法提供信息，因此可以在不影响句子的情况下使用。在没有事实依据的情况下更换/插入它们。

原句：The Quick Brown Fox Jumps Over the Lazy Dog Tf-Idf 替换：A Quick Brown Fox Jumps Over the Lazy Dog Tf-IdF 插入：下沉 The Quick Brown Fox Jumps Over the Lazy Sidney Dog 取决于语料库本身足够丰富。源代码：word_level_augment.pyEDA EDA-Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks 提出了一种数据增强方法：同义词替换（SR）：随机选择句子中的 n 个不间断单词。

对于每个单词，随机选择一个同义词来替换该单词。随机插入（RI）：随机选择句子中不是停用词的单词，随机选择该单词的同义词，将该同义词随机插入句子中n次。

随机交换（RS）：随机选择两个单词并交换它们的位置n次。随机删除（RD）：对于句子中的每个单词，以概率 p 选择它进行删除。

同义词替换已存在。说实话，其他三种方法不太好用，会产生很多错误的查询。

由于随机替换、交换和删除会让原本序列化的句子的顺序变得不重要，因此模型更关注某些单词是否出现，这增加了模型误识别的风险。更详细的可以参考EDA作者，他也开源了英文EDA代码：kuratalabeled，kuratalabeled），VAE（yoovariational，xieunsupervised）等方法。

我个人感觉它们与任务耦合，通用性不是很强。相反，使用语言模型进行生成更为可靠。

。主要参考Context Augmentation，通过Bi-LSTM训练语言模型，并添加数据标签来控制生成。

Conditional BERT Contextual Augmentation在上一篇文章的基础上介绍了BERT。对于分类问题，作者将BERT原来的segment embedding替换为label embedding，然后继续使用MLM任务对数据继续finetune。

训练后，预测过程的输入包括：原始查询的标记，但会制作一些随机掩码进行预测。蒙面的话。

用于分类的类别标签，保证语义不变性。关于中文数据，笔者认为其实我们可以基于此做一些优化。

可以改变mask策略，利用分词的方法，将随机mask改为分词mask。同时，还可以随意插入口罩。

同样，插入位置是在单词之间而不是单词内部。基于此，我们来尝试一下。

对于原始输入，使用此方法后增强的数据：原句：帮我查一下航班信息。生成句子：请帮我查看航班信息，帮我查看航班信息，帮我查看航班信息代码： bert_main.py 提取数据与其生成句子，不如从现有语料库中挖掘潜在相关数据。

Wangs 从 Twitter 中挖掘日志。作者使用聚类的方法来标注相似的数据，进行预标注，然后手动标注每个聚类的类别。

在聚类方法中，设定聚类数量，需要对聚类结果进行合并或分裂，然后对结果进行人工审核。本文还提出使用word2vec来回忆同义词并进行同义词替换。

回译将目标句子翻译成外语，然后再将外语翻译成中文。翻译一般都会重新组织句子结构，因此增强后的数据具有一定的句子丰富度。

以下是使用百度翻译API的结果。代码语言：javascript copy if __name__ == '__main__':querys = '帮我查一下航班信息，查一下航班信息，附近有什么好玩的东西'.split(",") # 根据语言列表，可以翻译分成多个句子，语言：en,jp,kor,fra,spa,th,ara,ru,pt,de,it,el,nl,pl,bul,est,dan,fin,cs,rom,slo,swe, hu ,cht,vie... 对于查询中的查询： out_arr = [] lan_list = "en,jp,kor".split(",") 对于 lan_list 中的 tmp_lan：对于 baidu_translate(query, tmp_lan) 中的 tmp_q：out_arr。

extend (baidu_translate(tmp_q, 'zh')) print(list(set(out_arr))) # ['帮我查一下航班信息', '请帮我查一下航班信息。', '帮我查一下航班信息。

', '检查我的航班信息。 '... #【'询问航班信息。

', '查看航班信息', '查看VOO信息', '查看航班信息', ... # ['这里有什么有趣的？ ', '这里有什么有趣的地方', '这个地方有什么有趣的地方？ ', ...完整代码参见：back_translate.py mixup Augmenting Data with Mixup for Sentence Classification: An Empirical Zhu等人提出主要用于分类问题，应用于图像。两张图片按比例随机组合，形成新图片。

郭等人将其应用到NLP中。 wordMixup就是混合词向量，将句子padding到相同的长度，然后按照新的embedding的比例对每个token的embedding进行加权，用于下游分类，标签也是两个句子的标签比例。

如下图左侧所示，sentMixup是句子向量的混合。句子向量被随机加权并求和。

标签也是原始两个句子的加权标签。

站长声明

标签：

上一篇：基于ChatGLM-6B构建个人知识库

下一篇：Ubuntu下安装Teamspeak服务器

东湖高新区创业投资引导基金（二期）申报指南

一、引导基金定位武汉东湖新技术开发区（以下简称“高新区”）创业投资引导基金（以下简称“高新区”）简称“区引导基金”）是由高新区管委会专门设立、实行市场化运作的政策性基金。通过财政资金持续投入，围绕高新区“5”产业格局，引导社会资本投资新一代信息技术、高端

06-17
便携式应急储能电站服务商“CTECHi Staqi”获数千万元A轮融资

投资界（ID：pedaily）10月19日报道，便携式应急储能电站服务商“CTECHi Staqi”获近期获得数千万元A轮融资。本轮融资由睿德智能和宏盛投资共同投资。融资资金将主要用于产品研发、团队建设和市场营销。 CTECHi Staqi是深圳芯科达旗下品牌。芯普成立于2007年，主要致力于

06-18
创东方富凯基金成立，选定瑞星作为首个投资项目

据投资界10月29日消息，深圳市创东方投资有限公司（以下简称“创东方”）昨日发布公告称，旗下最新基金——创东方东方富凯基金募集金额达到2.56亿元，远超原计划2亿元目标。　　据了解，富凯基金采用有限合伙形式，合伙人主要来自深圳。这是深圳市出台创业投资管理相关政策

06-18
工信部：做好布局解决传统产业数字化转型问题

数字经济发展特别是传统产业还面临能不能用、能不能用的担忧和质疑敢不敢用，安全不安全。在这个过程中，必须培养服务商和解决方案的运营商。 12月24日，在国务院新闻办举行的新闻发布会上，工业和信息化部规划司司长卢山表示。他介绍，党的十九届五中全会明确提出加快发展

06-18
韩国SK首次量产5N级HF气体原料

据韩国《中央日报》报道，SK集团旗下专门生产半导体材料的子公司SK Materials已开始量产超高纯度 (99.%) 氟化氢 (HF) 气体。超高纯氟化氢气体被列入日本限制向韩国出口的物资清单。是半导体生产过程中必不可少的清洁气体。随着半导体工艺变得越来越复杂，韩国对这种气体的

06-06
意法半导体在CES 2019展示下一代先进应用技术和解决方案

VIP展将有60多个展品，重点关注工业和汽车系统、个人电子以及计算和通信基础设施解决方案客户可以使用意法半导体的技术开发新应用程序的解决方案，这些应用程序在性能、可靠性、能源效率、安全性和便利性方面树立了市场基准。多个展览重点关注在 STM32 微控制器上运行神经网

06-06
新产能投产， Sun国际半导体公司3月营收再创新高

全球最大的半导体减薄代工厂Sun 3月营收再创新高，达到2.16亿元，月增20.95%，年增39.09%。一季度累计营收同比增长28.57%；去年下半年以来，随着产能的开启，Sun半导体的营收持续增长，并且随着新项目的加入，第二季度营收有望再次上升。 Sun Semiconductor 是一家特殊的半导

06-06
台积电中国2nm工厂移交再次推迟

科创板日报国家科技局近日宣布推迟台积电2nm工厂的开发进度。预计10月完成征地及相关规划手续，11月移交。随后，公共工程和制造商同步开工建设。据悉，台积电中科台中园区2纳米工厂二期扩建项目，规划了两期、四座晶圆厂。原定于今年开工建设，第一座2纳米晶圆厂最快年

06-06
日本新日本石油将以18亿美元收购日本可再生能源公司

据碳氢加工新闻10月8日报道，日本最大炼油商新日本石油计划以约18亿美元收购新加坡主权财富基金GIC。收购日本可再生能源公司。这笔交易将标志着日本顶级石油公司对可再生能源公司的首次重大收购，日经新闻称新日本石油正在寻求摆脱化石燃料的转型。日本可再生能源公司成立

06-08
天华阳光上市IDG-Accel中国资本基金、IDG-Accel中国投资者、大族世纪、金茂资本获得退出

2019年11月13日，天华阳光控股有限公司在纳斯达克证券交易所挂牌上市。发行500,000股ADS股票，发行价为每股ADS股票8.00美元，募集资金总额为40,000美元。天华阳光集团成立于2007年，是一家以光伏为核心，专注于新能源电力项目投资和电力资产运营管理的全球跨国企业。集团在

06-17
小米10来了，雷军敢卖多少钱？

图为雷军在小米9发布会上宣布售价。图片来自：雷锋网。发布会还没开，小米10已经差不多曝光了。支持LPDDR5、标配UFS 3.0闪存、支持WiFi 6、搭载骁龙……在雷军的微博上，小米10的配置从2月6日开始就被一点点透露。不仅如此，雷军还透露消息称小米10将于2月13日在线直播。

06-18
创业老手造无人机，复亚智能完成新一轮股权融资

投资界（ID：pedaily）9月9日消息，据36氪报道，近日，上海复亚智能科技有限公司（以下简称“复亚智能”）完成新一轮股权融资。富亚智能（简称“富亚智能”）宣布完成新一轮数千万元股权融资。投资方为国宏嘉信资本、图灵创投、永辉基金。富亚智能创始人表示，本轮融资将主

06-18