首页 > 网络技术迭代 > 内容

海量社交短文本中发现热点话题的方法

发布于：2024-10-24 编辑：匿名来源：网络

随着社交网络的发展和积累，内容的产生、传播、消费已经深度融入人们的生活。于是内容分析的工作就进入了人们的视野。

近年来，各种大众趋势分析产品不断涌现，各大公司纷纷利用自己的资源抢占一席之地。大众趋势分析平台利用自然语言处理和机器学习方法分析数据，为用户提供舆情分析、竞品分析、数据营销、品牌形象塑造等帮助。

其中，热点发现问题是大众趋势分析的重要组成部分。热点发现通过分析海量数据（本文重点关注文本数据）来发现相关人群关注的内容。

在我们的业务场景中，快速高效地从海量社交短文本中发现实时话题，可以帮助产品、运营、公关等同学更好地吸引用户。然而，直接从大量文本中生成语法正确且含义清晰的主题并不容易。

本文主要介绍一种用于主题生成的相对简单且高效的方法。所谓话题，目前在很多内容平台上都有话题集合，有相关产品策略或者运营同事支持。

例如，让用户自定义主题并用特定符号进行标识，例如“#白情人节#”。在一些文本场景中，这些条件是不支持的，我们需要直接从海量的用户社交文本中提取热点话题，或者热点事件。

本文的目的是从海量社交短文本中自动发现热点事件或热门话题。很多相关工作都是利用主题分析方法来提取主题，使用主题模型（LDA等）、聚类等方法。

然而，这个想法输出一些主题词或每个主题的相关词，而不是直接生成它们。主题短语。

可以考虑引入事件抽取或者文本摘要的思想来解决此类场景下的热点话题抽取问题，但往往需要有监督数据。本文介绍了提取一个简单实用的热点话题的尝试。

具体做法本文提出了一种从热点词提取出发的热点话题提取方法。下面是该方法的整体流程图。

首先提取热点词，然后根据热点词进行主题提取。下面分两部分进行详细介绍。

热词提取的主要思想是利用词频梯度和平滑方法。如上图所示，词语的流行度受到多方面的影响。

对市场的影响：白天和凌晨、周末和工作日、节假日和平日，社交消息总量会出现较大波动。词间影响力：可能语料库中的某个段落突然变得非常流行，导致一些平时不相关的词突然成为热词。

周期性影响：24小时、星期几、月份、节气等的周期性变化，常常使“早安”、“星期一”、“三月”等事件意义不大的词语成为热词。自我趋势：这是我们最关心的流行信息。

这些由事件引起的相关词的突然增量增加正是我们的算法想要识别和分析的。针对上述影响因素，我们从以下几个方面开展热词抽取工作。

1、预处理：主要包括文本去重、广告识别等方法，对数据做一些去除噪声的工作。 2、梯度：词频增量的主要衡量标准。

3. 贝叶斯平均值：一种使用外部信息（尤其是预先存在的信念）来评估总体平均值的方法。贝叶斯平均的典型应用包括用户投票排名、产品评分排名、广告点击率平滑等。

以用户投票排名为例。如果投票和评分的用户很少，那么计算平均分可能不够客观。

这时引入外部信息，假设有一部分人（C人）投票，并且都给出了平均分（m分）。将这些人的评分添加到现有用户的评分中，然后对其进行平均。

可以对平均分数进行修正，在一定程度上或角度增加最终分数的客观性。不难看出，当选民人数较少时，得分会趋于平均；当选民人数较少时，得分会趋于平均；投票人数越多，贝叶斯平均结果越接近真实投票的算术平均值，添加的参数对最终排名的影响越小。

4. 热度分数计算：使用贝叶斯平均来校正梯度分数。这里，公式中的平均词频在贝叶斯平均公式中为C，平均得分在贝叶斯平均公式中为m。

也就是说，在热词提取中，我们使用平均梯度分数作为先验m，平均词频作为C。在热词提取中可以理解为，每出现一个词，就相当于对流行度进行评分这个词的。

词频低意味着评分的人少，评分的不确定性较大，需要用平均分进行修正和平滑。这里你可以降低一些词频较少的词的高分。

例如，某个词今天出现了 18 次，昨天出现了 6 次。这里的梯度分数比较高，0.75，但这种词实际上更可能不是热词。

单词。词频高的词，远大于平均词频，意味着评价它的人很多。

那么分数就会更接近你的实际分数，平均分数的影响就会变小。这是合理的。

比如一个原本百万级的词，第二天就会暴增三倍，这里的热度值就会明显提升。 5、区别：这里主要考虑的是解决热词周期性影响的问题。

具体方法很简单。比较的时间间隔需要包括一些效果比较明显的时间段。

例如，按小时统计热词时，最好在同一时间点比较今天和昨天。 6、同现模型：对互为同现词的热词进行一层筛选。

通过频繁项集、word2vector等方法，发现共现词之间的关系。利用共现词的信息进行一轮热词筛选，提取最有价值的热词，避免信息冗余。

7.时间序列分析：考虑更详细的历史因素。通过词频时间序列分析，可以更详细地区分短期、长期、周期性热点；对于一些比较有价值的热词可以进行高温预警；综上所述，我们通过周期性时间间隔内的贝叶斯平均校正词梯度分数来分析词的流行度，并利用语料库中词的共现信息进一步筛选出热词。

通过时间序列分析，可以获得热词的特征和增长趋势。话题提取提取的是热点词，但词表达事件或话题的能力是有限的。

这里我们从热词入手，进一步提取话题。这里的主题提取工作也分为两个步骤。

第一步是找到一些候选主题短语；第二步利用Attention的思想从候选短语中找到包含更重要单词的短语作为输出主题。候选短语提取候选短语的提取主要基于信息熵理论，利用以下特征。

1.内部聚集度——互信息这要从信息熵说起。信息熵用于衡量随机变量的期望值。

变量的信息熵越大，则其可能出现的状态越多，不确定性也越大，即信息量越大。互信息可以描述两个随机变量之间关系的强度。

定义如下：通过对上式进行变换，可以得到：表示Y的不确定性；表示X已知时Y的不确定性，当X已知时变为Y的条件熵。可以看出，它代表了X对Y造成的不确定性降低的量。

它越大，说明发生了相反的情况之后。在实际应用中，短语的内部聚合度就是词与词之间的内部聚合度。

对于一个短语，我们选择最能减少不确定性的单词组合来说明该短语的内部聚合。 2.上下文的丰富性——左右信息熵。

刚才提到，信息熵解释了信息量的大小。所以如果一个短语的左右信息熵越大，即该短语的左右情况可能越多，那么左右搭配就越丰富；这意味着该短语在不同上下文中可以讨论的事物越多，它就越有可能独立解释一个事件或主题。

3、常见吗？这可以通过该短语出现的频率直观地衡量。针对某个热点词，主题精筛选选出一批候选词组。

每个短语包含不同的单词并包含不同的信息量。例如，对于3月9日的热词“巴黎”，我们提取的候选短语包括“巴黎球迷”、“巴黎球员”、“淘汰巴黎”、“心疼巴黎”、“巴塞罗那逆转巴黎”、“巴黎，法国”、“巴黎时装周”。

但在“巴塞罗那球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”等短语中，很多地方都使用了“球员”、“球迷”、“淘汰”、“心疼”等词。其他条款。

它们经常出现在上下文中，并且方向不明确； “法国巴黎”的信息量只有一个地点。 “巴塞罗那复兴巴黎”和“巴黎时装周”还包含了更具体的信息——足球比赛、球队、结果、地点或时装秀等，让活动的方向更加清晰。

在这里，我们需要筛选候选主题短语。筛选的主要依据或者说思想其实和Attention机制是一样的。

关键是找到重要的单词。例如，当与“巴黎”、“巴塞罗那”、“逆转”和“时装周”搭配时，比“球迷”、“球员”、“心疼”和“法国”包含更多信息，意义更大。

可以想象，“巴塞罗那”、“逆转”、“时装周”等词语并不常出现在其他不相关的语料库中，而“球迷”、“球员”、“心疼”、“法国”等词却经常出现在不同的语料库中。。

信息不清楚。因此，在我们的问题中，Attention可以通过TF-IDF的思想来确定。

具体来说，它衡量短语中每个单词的特异性。我们有理由相信，“巴塞罗那”、“逆转”、“时装周”等词语出现在包含“巴黎”的相关语料中的概率较高。

热门词候选短语s的事件或主题表征能力得分可以通过以下公式得到：其中N为候选短语中的单词数，为候选短语中包含的第i个单词，语料库(w)代表单词w相关的语料库。另一方面，我们还需要考虑该短语的频率。

该短语出现的次数越多，该事件就越重要。综上所述，我们利用事件或主题表征能力得分以及候选短语出现的频率来精确筛选出与热词相关的主题。

站长声明

标签：

上一篇：Python中的多线程和多进程编程【线程池和进程池的应用和最佳实践】

下一篇：功能即服务，一步到位！

【创业24小时】2023年8月1日

2023年8月1日行业大公司小红书与美团“死对头”。点击查看微信“小绿本”。它能成为下一个小红书吗？点击查看京东与永辉正在洽谈收购事宜。刘强东拟在十年内投入万亿元研发，对数千家门店进行研发。专利费如何帮助华为“回血”？点击查看当地生活莫小贤想去海外，谁给他

06-17
【创业24小时】2023年8月29日

2023年8月29日，行业各大公司奋战抖音，美团逆袭已见成效。点击查看知乎上半年“王牌”营销服务低迷，职业培训成为“全村的希望”？点击查看全球最强企业，格力的好日子真的到头了。点击查看东方精选财年：营收45亿元，同比增长%，自营产品及直播电商营收39亿，净利润9.7亿

06-18
安全有效！全球首例COVID-19疫苗人体试验结果公布，陈薇团队

中国科研团队在COVID-19疫苗研发上再次迈出重要一步。 5月22日晚，国际学术期刊《柳叶刀》在线发表了中国工程院院士陈薇团队研发的新冠病毒疫苗。结果表明，该疫苗是安全的，并且在志愿者体内成功产生了抗体。同时，作者指出，虽然试验结果显示了疫苗的良好前景，但还需要进

06-18
包馔夜包子完成近千万元天使轮融资，原力创投

投资圈（ID：pedaily）10月27日报道，包子轨道连锁品牌“包馔夜包子”近日完成近千万元天使轮融资，本轮由原力创投投资。包馔夜包子成立于2007年，是一家以川渝风味麻辣小笼为特色、主打夜宵场景的快餐连锁品牌。在天使轮融资之前，包馔夜包子今年上半年还获得了斋门强光盈

06-18
五源科技：软硬件一体化，携手阿里云打造制造业全流程智能化

作为先进制造技术与新一代信息技术的深度融合，智能制造已成为制造业发展的大趋势全球制造业，受到业界内外的青睐。广泛关注。据统计，2018年，尽管资本市场整体低迷，但智能制造行业投融资交易笔数依然较高。同时，随着人工智能、云计算、物联网等前沿技术的不断进步，制

06-18
深圳芯医疗获数千万天使轮融资，成功研发超小型磁悬浮人工心脏

11月27日投资界消息。近日，记者获悉，人工心脏研发公司“深圳芯医疗”科技有限公司”深圳市芯医疗科技有限公司（以下简称深圳芯医疗）获得和唐创业投资管理（北京）有限公司（以下简称和唐创投）投资的数千万元天使轮融资。本轮融资将主要用于GMP车间建设、磁悬浮离心式人

06-17
七部门：9月15日至年底，重点推动高校毕业生就业创业

近日，中共中央组织部、人事部等七部门教育部印发《关于实施高校毕业生就业创业推进行动的通知》（以下简称《通知》），决定自9月15日至12月31日，重点实施促进高校毕业生就业创业行动帮助最近和以前失业的大学毕业生找到并创办自己的企业。其中《通知》指出，县级以上人力资

06-18
智能云摄影服务商Ohtu完成数千万Pre-A轮融资

投资界（ID：pedaily）4月28日消息，智能云摄影服务专家“Ohtu”近期完成数千万Pre-A轮融资融资方面，本轮融资由雨泽资本独家提供。本次融资将主要用于产品研发和渠道拓展。接下来，“Ohtu”将拓展更多企业服务的业务类别，加速视频直播、VR全景拍摄等产品技术的市场普及。

06-18
AI设计建造引擎开发商小库科技获亿元战略融资

6月24日消息：近日，小库科技获亿元战略轮融资，由预制投资基金碧桂园创投投资、金地集团三大产业资本共同投资，并得到凌霄资本协助。值得注意的是，这是小库科技12个月内完成的第三轮融资（前两轮由嘉誉基金与金茂+创和汇基金、SIG与五源资本共同投资）。本轮融资后，小库

06-18
IDC公布2019年中国投影市场数据，极米科技再次夺得第一

近日，国际知名研究机构IDC发布《IDC 年第四季度中国投影机市场跟踪报告》。报告全面分析了中国投影机市场现状，分析了全球主要投影厂商在中国市场的表现。份额比例进行了排名。 2017年，中国品牌极米以67.6万台的出货量占据中国投影机市场15%的份额，连续两年位居中国投影

06-18
无锡梁溪设立100亿元科技创新产业基金中的基金

据投资界（ID：pedaily）报道，首届梁溪古运河创业投资峰会在江苏无锡举行暨梁溪科技成立仪式产业母基金将于11月18日召开，届时将设立百亿科创产业母基金，10支子基金将签约落户梁溪。同时，多个基金引进项目将现场签约。此次设立的梁溪科技创新产业基金总规模1亿元，首期

06-17
享受数字营销的乐趣，有用的内容和激动人心的活动都在这里！

一篇文章了解数字营销 1.什么是数字营销？数字营销已成为当今主流推广方式之一。它主要利用数字渠道和各种网络平台，通过互联网技术来推广和宣传产品或服务。包括但不限于搜索引擎优化（SEO）、搜索引擎营销（SEM）、社交媒体营销、内容营销、电子邮件营销、在线直播和在线

06-17