手摇充电宝、太阳能转换器,这些“变态”的充电宝实用吗?
06-21
随着社交网络的发展和积累,内容的产生、传播、消费已经深度融入人们的生活。于是内容分析的工作就进入了人们的视野。
近年来,各种大众趋势分析产品不断涌现,各大公司纷纷利用自己的资源抢占一席之地。大众趋势分析平台利用自然语言处理和机器学习方法分析数据,为用户提供舆情分析、竞品分析、数据营销、品牌形象塑造等帮助。
其中,热点发现问题是大众趋势分析的重要组成部分。热点发现通过分析海量数据(本文重点关注文本数据)来发现相关人群关注的内容。
在我们的业务场景中,快速高效地从海量社交短文本中发现实时话题,可以帮助产品、运营、公关等同学更好地吸引用户。然而,直接从大量文本中生成语法正确且含义清晰的主题并不容易。
本文主要介绍一种用于主题生成的相对简单且高效的方法。所谓话题,目前在很多内容平台上都有话题集合,有相关产品策略或者运营同事支持。
例如,让用户自定义主题并用特定符号进行标识,例如“#白情人节#”。在一些文本场景中,这些条件是不支持的,我们需要直接从海量的用户社交文本中提取热点话题,或者热点事件。
本文的目的是从海量社交短文本中自动发现热点事件或热门话题。很多相关工作都是利用主题分析方法来提取主题,使用主题模型(LDA等)、聚类等方法。
然而,这个想法输出一些主题词或每个主题的相关词,而不是直接生成它们。主题短语。
可以考虑引入事件抽取或者文本摘要的思想来解决此类场景下的热点话题抽取问题,但往往需要有监督数据。本文介绍了提取一个简单实用的热点话题的尝试。
具体做法本文提出了一种从热点词提取出发的热点话题提取方法。下面是该方法的整体流程图。
首先提取热点词,然后根据热点词进行主题提取。下面分两部分进行详细介绍。
热词提取的主要思想是利用词频梯度和平滑方法。如上图所示,词语的流行度受到多方面的影响。
对市场的影响:白天和凌晨、周末和工作日、节假日和平日,社交消息总量会出现较大波动。词间影响力:可能语料库中的某个段落突然变得非常流行,导致一些平时不相关的词突然成为热词。
周期性影响:24小时、星期几、月份、节气等的周期性变化,常常使“早安”、“星期一”、“三月”等事件意义不大的词语成为热词。自我趋势:这是我们最关心的流行信息。
这些由事件引起的相关词的突然增量增加正是我们的算法想要识别和分析的。针对上述影响因素,我们从以下几个方面开展热词抽取工作。
1、预处理:主要包括文本去重、广告识别等方法,对数据做一些去除噪声的工作。 2、梯度:词频增量的主要衡量标准。
3. 贝叶斯平均值:一种使用外部信息(尤其是预先存在的信念)来评估总体平均值的方法。贝叶斯平均的典型应用包括用户投票排名、产品评分排名、广告点击率平滑等。
以用户投票排名为例。如果投票和评分的用户很少,那么计算平均分可能不够客观。
这时引入外部信息,假设有一部分人(C人)投票,并且都给出了平均分(m分)。将这些人的评分添加到现有用户的评分中,然后对其进行平均。
可以对平均分数进行修正,在一定程度上或角度增加最终分数的客观性。不难看出,当选民人数较少时,得分会趋于平均;当选民人数较少时,得分会趋于平均;投票人数越多,贝叶斯平均结果越接近真实投票的算术平均值,添加的参数对最终排名的影响越小。
4. 热度分数计算:使用贝叶斯平均来校正梯度分数。这里,公式中的平均词频在贝叶斯平均公式中为C,平均得分在贝叶斯平均公式中为m。
也就是说,在热词提取中,我们使用平均梯度分数作为先验m,平均词频作为C。在热词提取中可以理解为,每出现一个词,就相当于对流行度进行评分这个词的。
词频低意味着评分的人少,评分的不确定性较大,需要用平均分进行修正和平滑。这里你可以降低一些词频较少的词的高分。
例如,某个词今天出现了 18 次,昨天出现了 6 次。这里的梯度分数比较高,0.75,但这种词实际上更可能不是热词。
单词。 词频高的词,远大于平均词频,意味着评价它的人很多。
那么分数就会更接近你的实际分数,平均分数的影响就会变小。这是合理的。
比如一个原本百万级的词,第二天就会暴增三倍,这里的热度值就会明显提升。 5、区别:这里主要考虑的是解决热词周期性影响的问题。
具体方法很简单。比较的时间间隔需要包括一些效果比较明显的时间段。
例如,按小时统计热词时,最好在同一时间点比较今天和昨天。 6、同现模型:对互为同现词的热词进行一层筛选。
通过频繁项集、word2vector等方法,发现共现词之间的关系。利用共现词的信息进行一轮热词筛选,提取最有价值的热词,避免信息冗余。
7.时间序列分析:考虑更详细的历史因素。通过词频时间序列分析,可以更详细地区分短期、长期、周期性热点;对于一些比较有价值的热词可以进行高温预警;综上所述,我们通过周期性时间间隔内的贝叶斯平均校正词梯度分数来分析词的流行度,并利用语料库中词的共现信息进一步筛选出热词。
通过时间序列分析,可以获得热词的特征和增长趋势。话题提取提取的是热点词,但词表达事件或话题的能力是有限的。
这里我们从热词入手,进一步提取话题。这里的主题提取工作也分为两个步骤。
第一步是找到一些候选主题短语;第二步利用Attention的思想从候选短语中找到包含更重要单词的短语作为输出主题。候选短语提取候选短语的提取主要基于信息熵理论,利用以下特征。
1.内部聚集度——互信息 这要从信息熵说起。信息熵用于衡量随机变量的期望值。
变量的信息熵越大,则其可能出现的状态越多,不确定性也越大,即信息量越大。互信息可以描述两个随机变量之间关系的强度。
定义如下:通过对上式进行变换,可以得到: 表示Y的不确定性;表示X已知时Y的不确定性,当X已知时变为Y的条件熵。可以看出,它代表了X对Y造成的不确定性降低的量。
它越大,说明发生了相反的情况之后。在实际应用中,短语的内部聚合度就是词与词之间的内部聚合度。
对于一个短语,我们选择最能减少不确定性的单词组合来说明该短语的内部聚合。 2.上下文的丰富性——左右信息熵。
刚才提到,信息熵解释了信息量的大小。所以如果一个短语的左右信息熵越大,即该短语的左右情况可能越多,那么左右搭配就越丰富;这意味着该短语在不同上下文中可以讨论的事物越多,它就越有可能独立解释一个事件或主题。
3、常见吗?这可以通过该短语出现的频率直观地衡量。针对某个热点词,主题精筛选选出一批候选词组。
每个短语包含不同的单词并包含不同的信息量。例如,对于3月9日的热词“巴黎”,我们提取的候选短语包括“巴黎球迷”、“巴黎球员”、“淘汰巴黎”、“心疼巴黎”、“巴塞罗那逆转巴黎”、“巴黎,法国”、“巴黎时装周”。
但在“巴塞罗那球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”等短语中,很多地方都使用了“球员”、“球迷”、“淘汰”、“心疼”等词。其他条款。
它们经常出现在上下文中,并且方向不明确; “法国巴黎”的信息量只有一个地点。 “巴塞罗那复兴巴黎”和“巴黎时装周”还包含了更具体的信息——足球比赛、球队、结果、地点或时装秀等,让活动的方向更加清晰。
在这里,我们需要筛选候选主题短语。筛选的主要依据或者说思想其实和Attention机制是一样的。
关键是找到重要的单词。例如,当与“巴黎”、“巴塞罗那”、“逆转”和“时装周”搭配时,比“球迷”、“球员”、“心疼”和“法国”包含更多信息,意义更大。
可以想象,“巴塞罗那”、“逆转”、“时装周”等词语并不常出现在其他不相关的语料库中,而“球迷”、“球员”、“心疼”、“法国”等词却经常出现在不同的语料库中。 。
信息不清楚。因此,在我们的问题中,Attention可以通过TF-IDF的思想来确定。
具体来说,它衡量短语中每个单词的特异性。我们有理由相信,“巴塞罗那”、“逆转”、“时装周”等词语出现在包含“巴黎”的相关语料中的概率较高。
热门词候选短语s的事件或主题表征能力得分可以通过以下公式得到: 其中N为候选短语中的单词数,为候选短语中包含的第i个单词,语料库(w)代表单词w相关的语料库。另一方面,我们还需要考虑该短语的频率。
该短语出现的次数越多,该事件就越重要。综上所述,我们利用事件或主题表征能力得分以及候选短语出现的频率来精确筛选出与热词相关的主题。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-17
06-06
06-06
06-18
06-06
最新文章
【玩转GPU】ControlNet初学者生存指南
【实战】获取小程序中用户的城市信息(附源码)
包雪雪简单介绍Vue.js:开学
Go进阶:使用Gin框架简单实现服务端渲染
线程池介绍及实际案例分享
JMeter 注释 18 - JMeter 常用配置组件介绍
基于Sentry的大数据权限解决方案
【云+社区年度征文集】GPE监控介绍及使用