Python3使用fastText进行文本分类新闻分类

发布于：2024-10-24 编辑：匿名来源：网络

背景?我们可以使用标准多核CPU在不到十分钟的时间内训练fastText，并在不到一分钟的时间内对K类中的50万个句子进行分类。首先引用论文中的一段话，看看作者是如何评价fasttext模型的性能的。

本文的模型非常简单。之前了解过word2vec的同学可以发现它和CBOW的模型框架非常相似。

，例如，输入是一个句子，结果是该句子的单词或n-gram。每一个对应一个向量，然后对这些向量求平均得到文本向量，然后用平均向量得到预测标签。

当数量不多时，就是最简单的softmax；当标签数量巨大时，使用“hierarchical softmax”。该模型非常简单，没有什么可说的。

提一下论文中的两个trick：“hierarchical softmax”，当类别较多时，构建一个Huffman编码树来加速softmax层的计算，这和word2vec中之前的trick是一样的。 “N-gram特征”只使用unigram，否则会丢失词序信息，所以我们通过添加N-gram特征来补充，并使用哈希来减少N-gram的存储。

介绍。本博客将简单记录一下使用python版本的fastText对不同类别的新闻进行分类，中间会用到口吃分词。

，用pandas进行数据处理。可以使用清华大学的新闻数据。

安装取决于Python版本： 3.6 安装stutter分词和fasttext代码语言： javascript copy pip install jiebapip install fasttext分词处理分词过程中，一些常用的停用词会被删除。对于停用词，可以使用 jiebaimport pandas as pdimport codecsimport mathimport randomstopwords_set = set( )basedir = '/Users/derry/Desktop/Data/'# 分词结果文件 train_file = codecs.open(basedir + "news.data.seg .train", 'w', 'utf-8')test_file = 编解码器。

open(basedir + "news.data.seg.test", 'w', 'utf-8')# 停止词文件 open(basedir + 'stop_text.txt', 'r', encoding='utf-8 ' ) as infile: 对于 infile 中的行： stopwords_set.add(line.strip())train_data = pd.read_table(basedir + 'News_info_train.txt', header=None, error_bad_lines=False)label_data = pd.read_table(basedir + ' News_pic_label_train.txt', header=None, error_bad_lines=False)train_data.drop([2], axis=1, inplace=True)train_data.columns = ['id', 'text']label_data.drop([2, 3 ],axis=1, inplace=True)label_data.columns = ['id', 'class']train_data = pd.merge(train_data, label_data, on='id', how='outer')对于索引，train_data 中的行。 iterrows(): # 结巴分词 seg_text = jieba.cut(row['text'].replace("\t", " ").replace("\n", " ")) Outline = " ".join(seg_text )outline = " ".join(outline.split()) # 去失效词与HTML标签outline_list =outline.split(" ")outline_list_filter = [item for item inoutline_list if item not in stopwords_set]outline = " ". join(outline_list_filter) # 写入 if not math.isnan(row['class']): Outline = Outline + "\t__label__" + str(int(row['class'])) + "\n" train_file.write (outline) train_file.flush() # 划分数据集 # if random.random() > 0.7: # test_file.write(outline) # test_file.flush() # else: # train_file.write(outline) # train_file.flush()train_file.close()test_file.close() 分类预测当使用fasttext进行训练时，调整参数word_ngrams。

原来的默认值是1，效果可能会更好，但是需要在最后加上bucket=（默认值），否则会出错。我在问题里查了一下。

看来fasttext的Python版本比较旧。如果你使用官方的C++版本就不会出现这种情况。

问题。

站长声明

标签：

上一篇：手把手教Redis7配置哨兵模式（一主二从三哨兵）

下一篇：MySQL主从复制原理与实践：从配置到故障监控

证监会：加强对拟上市公司投资的离职系统员工监管

投资圈（ID：pedaily）4月20日消息：近日，有媒体报道中证建投系统离职员工证监会对拟上市公司的惊人投资，引起各方关注。证监会对此高度重视，坚持防范违法违规“创富”，维护市场“三公”秩序，加强监管队伍廉洁建设。坚持问题导向、举一反三，对在审企业进行全面排查，对

06-17
今晚，4500万人与周杰伦“时光倒流”

，应该是一场激情的爱情约会。但当晚19点35分，还没等两人晒出甜蜜合照，他们的朋友圈就被一个许久没有出专辑的男人入侵了。你谈你的爱情，我看我的青春。天晴在等待烟雨，粉丝在等待“地表最强妖天伦”。数千人在视频号直播间回忆青春。当34岁的周杰伦带着八块锋利的巧

06-21
为打造平价时尚服装市场，919氢仓获得青松基金等两轮合计数千万元融资，

据投资界（ID：pedaily）6月4日消息，平价时尚服装市场品牌“氢仓”宣布，先后获得青松基金天使轮和个人投资者战略轮共计数十轮投资。融资数百万元。据其创始人&CEO席一舟介绍，本轮融资将主要用于供应链建设、门店扩张和团队建设。 “公司将重点打造江苏、安徽、四川等地

06-18
鹤壁市长郭浩：中国5G产业创新创业大赛推动高质量发展

4月2日下午，“中国5G产业创新创业大赛”作为5G产业前沿创新的重要舞台，已日益突出和影响。吸引力持续增强，为推动高质量发展提供更多活力。 ”鹤壁市市长郭浩在中国5G产业创新创业大赛全国总决赛颁奖典礼暨鹤壁市旗滨区重点产业座谈会上表示。 “最近几年。鹤壁积极适应新

06-17
北京理工大学与珠海学院联合成立集成电路技术现代产业学院

7月4日，集成电路技术现代产业学院成立暨揭牌仪式在珠海高新区举行。这所产业学院由北京理工大学珠海学院（信息学院）、广东中兴电子股份有限公司、珠海英思科技有限公司联合创办。图片珠海高新区珠海高新专区新闻显示，北理工珠海学院院长赵显礼表示，集成电路发展关系产

06-06
2024年北京车展，看这26款新车就够了

时隔4年，2024年北京车展终于又来了。 4年的时间并不算长，但对于汽车行业来说已经是一个巨大的变化。如果说去年的上海车展让世界看到了中国新能源汽车的快速发展，那么今年的北京车展则证明了一件事情：世界新能源汽车潮流就在这次北京车展。可以说，这种四年积累的潜力，

06-21
视联科技获凤凰卫视战略投资

》据4月26日消息，视联科技近日完成新一轮战略融资。本轮投资由凤凰卫视集团旗下凤凰创新产业基金投资，此次获得的融资将主要用于人工智能产品的落地，加快业务拓展和服务体系升级。

06-18
阿里云智能总裁张建锋：创新是丽水绿色发展之路

“创新是我们的第一动力，也是丽水绿色发展的路径。 ” 6月9日，阿里云智能总裁、阿里巴巴达摩院特朗张建锋在国家数字生态系统创新发展峰会上致辞时表示。阿里云智库总裁、阿里巴巴达摩院院长张建锋总结称，自2016年丽水市政府与阿里巴巴集团签署战略协议以来，在双方共同努

06-17
小度迎新期待：百度集团CIO李莹轮流担任CEO

10月7日最新消息，百度小度公司迎来新任CEO，百度集团副总裁、百度集团CIO李莹博士，直接向李彦宏汇报工作。业内人士分析，这轮新一轮干部轮换对小度来说意义重大。李莹在担任百度集团CIO期间，打造了以人工智能和知识管理为核心的智能工作平台，为百度AI基础技术和产品应

06-17
诺和诺德斥资7亿美元使用蛋白质组学药物

年底，Ventus Therapeutics宣布与诺和诺德达成全球*许可协议。根据该协议，诺和诺德将获得Ventus专有的NOD样受体pyrin结构域相关蛋白3（NLRP3）外周抑制剂的开发和商业化权利。诺和诺德将向Ventus预付 10,000 美元，并提供研发 (R&D) 资金。 Ventus还可能收到总计 6.33 亿美

06-17
中国南车香港上市获批， A+H股IPO拟募资20亿美元

据悉，中国最大的铁路机车装备制造商中国南车车辆股份有限公司首次公开发行股票(IPO)计划已经香港联交所批准。获批后，连同在上海IPO，拟募集资金规模将达20亿美元，约1亿港元。　　新闻人士表示，总部位于北京的中国南车股份有限公司计划在香港IPO发行最多20亿股，并将于

06-18
以旧换新平台有德汇获人保远望基金近亿元B+轮融资

据投资界12月29日消息，全品类以旧换新平台有德汇今日宣布完成近百笔融资获得人保财险、人保财险的B+轮融资。人保远望基金是与启迪科技合作设立的。据悉，本轮资金将用于拓展线下市场、升级后端渠道。　　优德火此前已获得多轮融资：　　获得龙腾资本天使轮投资；　　再

06-18