海量社交短文本中发现热点话题的方法

发布于:2024-10-24 编辑:匿名 来源:网络

随着社交网络的发展和积累,内容的产生、传播、消费已经深度融入人们的生活。于是内容分析的工作就进入了人们的视野。

近年来,各种大众趋势分析产品不断涌现,各大公司纷纷利用自己的资源抢占一席之地。大众趋势分析平台利用自然语言处理和机器学习方法分析数据,为用户提供舆情分析、竞品分析、数据营销、品牌形象塑造等帮助。

其中,热点发现问题是大众趋势分析的重要组成部分。热点发现通过分析海量数据(本文重点关注文本数据)来发现相关人群关注的内容。

在我们的业务场景中,快速高效地从海量社交短文本中发现实时话题,可以帮助产品、运营、公关等同学更好地吸引用户。然而,直接从大量文本中生成语法正确且含义清晰的主题并不容易。

本文主要介绍一种用于主题生成的相对简单且高效的方法。所谓话题,目前在很多内容平台上都有话题集合,有相关产品策略或者运营同事支持。

例如,让用户自定义主题并用特定符号进行标识,例如“#白情人节#”。在一些文本场景中,这些条件是不支持的,我们需要直接从海量的用户社交文本中提取热点话题,或者热点事件。

本文的目的是从海量社交短文本中自动发现热点事件或热门话题。很多相关工作都是利用主题分析方法来提取主题,使用主题模型(LDA等)、聚类等方法。

然而,这个想法输出一些主题词或每个主题的相关词,而不是直接生成它们。主题短语。

可以考虑引入事件抽取或者文本摘要的思想来解决此类场景下的热点话题抽取问题,但往往需要有监督数据。本文介绍了提取一个简单实用的热点话题的尝试。

具体做法本文提出了一种从热点词提取出发的热点话题提取方法。下面是该方法的整体流程图。

首先提取热点词,然后根据热点词进行主题提取。下面分两部分进行详细介绍。

热词提取的主要思想是利用词频梯度和平滑方法。如上图所示,词语的流行度受到多方面的影响。

对市场的影响:白天和凌晨、周末和工作日、节假日和平日,社交消息总量会出现较大波动。词间影响力:可能语料库中的某个段落突然变得非常流行,导致一些平时不相关的词突然成为热词。

周期性影响:24小时、星期几、月份、节气等的周期性变化,常常使“早安”、“星期一”、“三月”等事件意义不大的词语成为热词。自我趋势:这是我们最关心的流行信息。

这些由事件引起的相关词的突然增量增加正是我们的算法想要识别和分析的。针对上述影响因素,我们从以下几个方面开展热词抽取工作。

1、预处理:主要包括文本去重、广告识别等方法,对数据做一些去除噪声的工作。 2、梯度:词频增量的主要衡量标准。

3. 贝叶斯平均值:一种使用外部信息(尤其是预先存在的信念)来评估总体平均值的方法。贝叶斯平均的典型应用包括用户投票排名、产品评分排名、广告点击率平滑等。

以用户投票排名为例。如果投票和评分的用户很少,那么计算平均分可能不够客观。

这时引入外部信息,假设有一部分人(C人)投票,并且都给出了平均分(m分)。将这些人的评分添加到现有用户的评分中,然后对其进行平均。

可以对平均分数进行修正,在一定程度上或角度增加最终分数的客观性。不难看出,当选民人数较少时,得分会趋于平均;当选民人数较少时,得分会趋于平均;投票人数越多,贝叶斯平均结果越接近真实投票的算术平均值,添加的参数对最终排名的影响越小。

4. 热度分数计算:使用贝叶斯平均来校正梯度分数。这里,公式中的平均词频在贝叶斯平均公式中为C,平均得分在贝叶斯平均公式中为m。

也就是说,在热词提取中,我们使用平均梯度分数作为先验m,平均词频作为C。在热词提取中可以理解为,每出现一个词,就相当于对流行度进行评分这个词的。

词频低意味着评分的人少,评分的不确定性较大,需要用平均分进行修正和平滑。这里你可以降低一些词频较少的词的高分。

例如,某个词今天出现了 18 次,昨天出现了 6 次。这里的梯度分数比较高,0.75,但这种词实际上更可能不是热词。

单词。 词频高的词,远大于平均词频,意味着评价它的人很多。

那么分数就会更接近你的实际分数,平均分数的影响就会变小。这是合理的。

比如一个原本百万级的词,第二天就会暴增三倍,这里的热度值就会明显提升。 5、区别:这里主要考虑的是解决热词周期性影响的问题。

具体方法很简单。比较的时间间隔需要包括一些效果比较明显的时间段。

例如,按小时统计热词时,最好在同一时间点比较今天和昨天。 6、同现模型:对互为同现词的热词进行一层筛选。

通过频繁项集、word2vector等方法,发现共现词之间的关系。利用共现词的信息进行一轮热词筛选,提取最有价值的热词,避免信息冗余。

7.时间序列分析:考虑更详细的历史因素。通过词频时间序列分析,可以更详细地区分短期、长期、周期性热点;对于一些比较有价值的热词可以进行高温预警;综上所述,我们通过周期性时间间隔内的贝叶斯平均校正词梯度分数来分析词的流行度,并利用语料库中词的共现信息进一步筛选出热词。

通过时间序列分析,可以获得热词的特征和增长趋势。话题提取提取的是热点词,但词表达事件或话题的能力是有限的。

这里我们从热词入手,进一步提取话题。这里的主题提取工作也分为两个步骤。

第一步是找到一些候选主题短语;第二步利用Attention的思想从候选短语中找到包含更重要单词的短语作为输出主题。候选短语提取候选短语的提取主要基于信息熵理论,利用以下特征。

1.内部聚集度——互信息 这要从信息熵说起。信息熵用于衡量随机变量的期望值。

变量的信息熵越大,则其可能出现的状态越多,不确定性也越大,即信息量越大。互信息可以描述两个随机变量之间关系的强度。

定义如下:通过对上式进行变换,可以得到: 表示Y的不确定性;表示X已知时Y的不确定性,当X已知时变为Y的条件熵。可以看出,它代表了X对Y造成的不确定性降低的量。

它越大,说明发生了相反的情况之后。在实际应用中,短语的内部聚合度就是词与词之间的内部聚合度。

对于一个短语,我们选择最能减少不确定性的单词组合来说明该短语的内部聚合。 2.上下文的丰富性——左右信息熵。

刚才提到,信息熵解释了信息量的大小。所以如果一个短语的左右信息熵越大,即该短语的左右情况可能越多,那么左右搭配就越丰富;这意味着该短语在不同上下文中可以讨论的事物越多,它就越有可能独立解释一个事件或主题。

3、常见吗?这可以通过该短语出现的频率直观地衡量。针对某个热点词,主题精筛选选出一批候选词组。

每个短语包含不同的单词并包含不同的信息量。例如,对于3月9日的热词“巴黎”,我们提取的候选短语包括“巴黎球迷”、“巴黎球员”、“淘汰巴黎”、“心疼巴黎”、“巴塞罗那逆转巴黎”、“巴黎,法国”、“巴黎时装周”。

但在“巴塞罗那球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”等短语中,很多地方都使用了“球员”、“球迷”、“淘汰”、“心疼”等词。其他条款。

它们经常出现在上下文中,并且方向不明确; “法国巴黎”的信息量只有一个地点。 “巴塞罗那复兴巴黎”和“巴黎时装周”还包含了更具体的信息——足球比赛、球队、结果、地点或时装秀等,让活动的方向更加清晰。

在这里,我们需要筛选候选主题短语。筛选的主要依据或者说思想其实和Attention机制是一样的。

关键是找到重要的单词。例如,当与“巴黎”、“巴塞罗那”、“逆转”和“时装周”搭配时,比“球迷”、“球员”、“心疼”和“法国”包含更多信息,意义更大。

可以想象,“巴塞罗那”、“逆转”、“时装周”等词语并不常出现在其他不相关的语料库中,而“球迷”、“球员”、“心疼”、“法国”等词却经常出现在不同的语料库中。 。

信息不清楚。因此,在我们的问题中,Attention可以通过TF-IDF的思想来确定。

具体来说,它衡量短语中每个单词的特异性。我们有理由相信,“巴塞罗那”、“逆转”、“时装周”等词语出现在包含“巴黎”的相关语料中的概率较高。

热门词候选短语s的事件或主题表征能力得分可以通过以下公式得到: 其中N为候选短语中的单词数,为候选短语中包含的第i个单词,语料库(w)代表单词w相关的语料库。另一方面,我们还需要考虑该短语的频率。

该短语出现的次数越多,该事件就越重要。综上所述,我们利用事件或主题表征能力得分以及候选短语出现的频率来精确筛选出与热词相关的主题。

海量社交短文本中发现热点话题的方法

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 手摇充电宝、太阳能转换器,这些“变态”的充电宝实用吗?

    手摇充电宝、太阳能转换器,这些“变态”的充电宝实用吗?

    用手机扫描二维码支付,骑自行车,通过微信或电话联系人,打开外卖应用程序并安排您的日常膳食。 无处不在的电力和互联网构成了现代人的全部生活。 触手可及的便利很容易让人意识不到它有多么宝贵,因为在风平浪静的日子里,停电、断网都是一个遥远的话题。 然而,一场大雨打

    06-21

  • 为企业上云提供关键支撑,需要打好“存储和超融合”两个基础

    为企业上云提供关键支撑,需要打好“存储和超融合”两个基础

    云计算的快速发展,让越来越多的中国企业开始探索上云之路。 超融合市场也经历了爆发式增长。 未来很长一段时间,整个市场将基于多云共存,而从私有云到混合云再到公有云,超融合无疑可以提供平滑过渡的解决方案。 超融合架构采用软件定义技术,整合计算、存储、网络等资源,

    06-18

  • webview,用于 C-C++ 的小型跨平台 webview 库,下载webview的源码_GitHub_酷徒使用 WebKit(在 GTK-Cocoa 上)

    webview,用于 C-C++ 的小型跨平台 webview 库,下载webview的源码_GitHub_酷徒使用 WebKit(在 GTK-Cocoa 上)

    GitHub 上的 webview 库是一个紧凑而高效的解决方案,用于在 C/C++ 中创建跨平台图形用户界面 (GUI)。 它利用本机系统 Web 视图,例如适用于 Linux 和 macOS 的 WebKit 以及适用于 Windows 的 Edge WebView2,提供轻量级且资源高效的替代方案。 该库支持双向 JavaScript 绑定

    06-18

  • 奈雪PRO店开始卖咖啡,是要抢星巴克市场吗?

    奈雪PRO店开始卖咖啡,是要抢星巴克市场吗?

    11月25日,奈雪新茶饮店模式“耀茗”在深圳正式亮相,并在南山金地科技园和福田天安数码城开设“双店”。 奈雪PRO也是继奈雪茶馆、奈雪酒屋、奈雪梦工厂之后的第四类商店。 据奈雪茶相关负责人介绍,与以往奈雪店多位于高端商圈不同,奈雪PRO将聚焦一线城市,进军商务办公区和

    06-17

  • 2023年7月融资月报

    2023年7月融资月报

    一、互联网巨头企业投资概况 7月值得关注的互联网巨头投资案例中,投资方包括阿里、美团、腾讯、小米等13家企业,其中阿里、小米投资2家-速度。 7月,阿里领投AR眼镜公司致敬未来天使1万美元,美团投资1亿元人民币入智谱华章公司B2轮,小米集团战略投资元潼科技数千万元,腾

    06-18

  • 红杉种子掌控150亿,正在找你

    红杉种子掌控150亿,正在找你

    这是一个非常引领潮流的场景。 投资界获悉,今日(2月28日),红杉中国种子基金(简称:红杉种子)宣布旗下第三只种子基金(红杉中国种子基金III)已完成募集4.8亿美元(约合人民币30亿元) )并于近期进入投资期。 截至目前,红杉种子已管理资金近亿元,成为国内管理规模最大

    06-17

  • eSignBao获超10亿元D轮投资,电子签名再次迎来行业最大融资!

    eSignBao获超10亿元D轮投资,电子签名再次迎来行业最大融资!

    在不可逆转的全球数字化趋势推动下,电子签名行业迎来新的重大利好。 2019年11月5日,e闪宝正式宣布获得深创投、恒大高科技集团、大辰财智领投,元一投资、泛创资本等机构跟投,合计超过1亿元。 D 系列融资。 本轮融资将继续用于继续加大产品和技术研发投入,聚焦签约和合同,

    06-18

  • 德高化学汽车半导体封装树脂材料项目已开工

    德高化学汽车半导体封装树脂材料项目已开工

    据天津高新区官方微信报道,4月26日,天津德高化学新材料有限公司“汽车半导体封装树脂材料项目”开工海洋科技园创新创业园建设正式启动。 据悉,本次已开工的汽车半导体封装树脂材料新生产线项目将在高新区创新创业园建设汽车半导体封装树脂材料洁净车间。 共建设3条生产线,

    06-06

  • 无锡光子芯谷创新中心正式开工建设

    无锡光子芯谷创新中心正式开工建设

    无锡滨湖发布 近日,无锡光子芯谷创新中心(一期)奠基仪式举行。 滨湖区区委书记孙海东宣布项目正式开工。 市科技局局长赵建平,上海交通大学地方研究院发展办公室主任李健,上海交通大学无锡光子芯片研究院院长、上海市教授金宪民交通大学、区领导高阳,王鲁新、姚旭江、李

    06-06

  • 智翔科技获数千万元A轮融资

    智翔科技获数千万元A轮融资

    投资界7月31日获悉,据36氪报道,深圳市智翔科技有限公司(以下简称“智翔科技”),一家停止IT综合运维产品供应商”)宣布获得数千万元A轮融资,由深圳市投资控股东海投资有限公司领投。 智翔科技于2019年5月注册成立,正式投资2018年开始研发,2018年4月推出第一代IT综合运

    06-18

  • 超过2.5GW!风能和太阳能进入哥伦比亚私人拍卖候选名单

    超过2.5GW!风能和太阳能进入哥伦比亚私人拍卖候选名单

    哥伦比亚地区电力经销商 Air-e 周二表示,22 家国内和国际公司已进入其私人组织的可再生能源拍卖的资格预审阶段。 Air-e表示,来自瑞典、法国、西班牙、挪威、中国、墨西哥和葡萄牙的公司以及哥伦比亚同行提交了出售39个风能和太阳能项目电力的提案,这些项目的总发电量超过

    06-08

  • 八亿空间拟投资16.8亿元建设电子材料基地项目

    八亿空间拟投资16.8亿元建设电子材料基地项目

    7月11日,上市公司八亿空间发布公告,拟利用超募资金投资建设电子材料基地项目。 “浙江上虞电子材料基地项目”。 公告显示,随着信息技术的不断发展和进步,全球对电子材料的需求不断增长。 中国作为全球电子材料行业主要的产业聚集地,一方面拥有巨大的市场需求,另一方面国

    06-06