首页 > 网络技术迭代 > 内容

浅谈贝叶斯平滑在CTR

发布于：2024-10-24 编辑：匿名来源：网络

0上的实践。简介项目得分的计算通常用于召回，并与用户兴趣画像结合使用。

计算项目得分的方法可以分为三类：千人同（最常用）：通常是CTR流行度，会基于整个用户而变化，但波动不大。千人：折衷方案，通过用户分组找到有代表性的用户。

千人千面：消耗大量资源，一般不可能。本文围绕“千人”项目评分计算方法简单谈谈贝叶斯平滑在CTR上的实践。

1、以内容分发为例。在计算item评分时，可以有很多维度，比如item的交互流行度、变化率、创建时间、CTR、负面反馈等。

如果以CTR作为召回item的评分依据，我们希望召回一批点击率高、数据相对可信的项目。这时可能会出现以下两个问题：新商品没有曝光点击数据，所以不会有评分。

（当然这也可以通过一些冷启动策略来解决）两个项目，第一个CTR=10/20，第二个CTR=/。此时的CTR分数是完全一样的，但是很明显后者的数据更有信心。

2、思维简单。最简单的想法是，我们可以人为地设置两个值a和b，将CTR转化为：CTR=\frac{click+a}{imp+b}。

然而，这样的改造只能解决问题。 1.问题2的解决方案不太好。

所以我们想，我们可以在这里做一些不那么“暴力”的事情吗？一个更简单的变换是取历史日志的平均点击量和曝光量，但还是不够优雅，而且如果给定的a和b值太大，所有item的分数都会向平均值集中。我们知道，一项是否被点击符合伯努利分布，而伯努利分布中只有一个参数P。

我们可以通过取一些log来计算P，然后得到后验，然后后验可以作为下一次迭代的先验，但这很难计算。 3. beta分布的改进因此，我们希望先验和后验属于同一个分布，但参数不同。

这样我们在实现的时候只需要更新参数就可以了，不需要进行大量的计算。伯努利分布的共轭分布是β分布，因此β分布可以用于贝叶斯平滑，CTR得分可以转化为：CTR=\frac{click+\alpha}{imp+\alpha+\beta}其中α β是通过矩估计得到的，具体为： \alpha=\mu\times [\frac{\mu\times(1-\mu)}{\sigma^{2}}-1 ]\beta=(1-\ mu)\times [\frac{\mu\times(1-\mu)}{\sigma^{2}}-1 ]其中 μ 是平均值，σ 是方差。

4. Beta分布图 Beta分布的横轴和纵轴分别代表随机变量的值和概率密度函数（PDF）的值。横轴表示 Beta 分布中随机变量的值。

取值范围为[0,1]，可以理解为某个事件发生的概率，比如CTR。 Beta分布中，横轴的取值范围由Beta分布的参数α和β决定。

纵轴表示随机变量在 Beta 分布中取特定值的概率密度。取值范围为[0,∞)，表示横轴上某一点的概率密度。

使用 python 绘图：代码语言：python 代码运行次数：2 Copy Cloud Studio code run import numpy as npfrom scipy.stats import betaimport matplotlib.pyplot as pltab_pairs = [(2.81,21.92), (14.19,.57)]x = np .linspace(0, 1, )[1:-1]对于 ab_pairs 中的 a, b: print(a, b) dist = beta(a, b) y = dist.pdf(x) plt.plot(x, y , label=r'$\alpha=%.1f,\ \beta=%.1f$' % (a, b))# 设置标题 plt.title(u'Beta Distribution')# 设置 x, y轴值范围 plt.xlim(0, 1)plt.ylim(0, 25)plt.legend()plt.savefig("./beta.svg", format="svg")4.1 beta 分布示例图当 alpha 时beta分布的和 β参数较小时：表示分布的概率密度函数在中心点较高，但尾部的概率密度函数下降较快。这通常被解释为分布方差较大，即数据相差很大，没有明显的趋势或结论。

因此，当α和β参数很小时，通常意味着我们对数据的先验知识很少，或者数据源不可靠。当β分布的α和β参数较大时：意味着分布的峰值比较尖锐，方差较小，分布趋于对称。

这反映出样本数据对真实参数的估计非常准确，使得数据置信度非常高。（这里先埋个坑，后面详细解释） 5.工程实践接下来我们要计算α和β。

此时，我们可以根据粒度想到三种选择：仅对所有项计算一组α和β作为平滑参数（粗粒度）。对于每个类别，计算一组 α 和 β 作为每个类别的平滑参数（折衷）。

对于每个项目，根据平滑参数（细粒度）计算一组 α 和 β 很明显，无论从实现还是贝叶斯平滑的角度来看，方法 3 都是错误的。【我们希望的是】：我们可以用一批“有代表性”的item来找到它们的beta分布，平滑所有item。

同时，如果一个item的曝光点击数据很小，我们认为它的数据不够自信，那么我的先验（α和β）应该起主导作用；如果一个物品的曝光点击数据足够大，我们认为它足够有信心，那么先验（α和β）效应几乎没有用处。因此，可以采用方法1和方法2。

下面还将讨论这两种方法。 5.1 方法1仅计算一组α和β作为所有项目的平滑参数（粗粒度）。

实际中通常取一个周期（比如7天），然后每天根据uid、itemid、traceid进行去重。，然后分别计算每个item的CTR，然后根据这些CTR计算当天的方差和均值，根据方差和均值计算每天的α和β，然后求出7个的平均值α和β天。

使用SparkSQL实现，代码如下：代码语言：sql copy SELECT AVG(alpha) AS avg_alpha, AVG(beta) AS avg_betaFROM( SELECT ftime,mean,variance,mean*(mean*(1-mean) /variance- 1) AS alpha , (1-mean)*(mean*(1-mean)/variance-1) AS beta FROM( SELECT ftime , AVG(ctr) AS 均值 , VARIANCE(ctr) AS 方差 FROM ( SELECT ftime 、 item_id 、 imp 、 clk 、 ctr 来自 mid_tb WHERE imp> ) GROUP BY ftime ) WHERE NOT isnan(variance))WHERE alpha 不为空且 beta 不为空。这里应该注意的是，在计算方差和平均值时，曝光可能会被卡住。

该阈值消除了长尾数据。例如，这里是 WHERE imp>。

如果不消除长尾数据，CTR的方差就会太大，导致矩估计计算出的平滑参数太小，从而导致平滑效果失效。下图反映了卡门槛前的贝塔分布和卡门槛后的贝塔分布： 5.1 卡门槛前后的贝塔分布。

上图可以看出，黄色曲线没有刷卡门槛，并且有很多长尾数据，比如3次曝光、2次点击。，点击率=2/3。

结果计算出来的α=0.1、β=2.3基本没有平滑作用。原因是长尾数据的点击率不可信增加了方差。

但实际上不难发现，即使曝光阈值卡在方法一中，计算出来的α和β仍然不是很大，平滑力度仍然有限??。 5.2 方法二：计算一组α和β作为桶分类下每个类别的平滑参数（折衷）。

方法一实现起来比较简单，在线项目部署也比较方便，因为只需要一组α和β。但它也有一定的局限性：不同品类的商品的CTR分布自然会有所不同，而这种差异与产品形态有关。

例如：对于一款主打交友的产品，“交友”类帖子的点击率可能普遍高于“体育”类帖子的点击率。下图展示了产品中不同类别的CTR差异。

横轴为类别，纵轴为CTR： 5.2 不同类别下的CTR（纵轴CTR）基于上述情况，如果直接使用方法1，计算出的方差仍然较大，导致平滑粒度不够。解决这个问题的一个简单方法是人为放大平滑参数，增强平滑强度，但会改变其原有的分布。

例如，方法一中α=1.7，β=35.9，人为放大4倍，则变为α=6.8，β=.6。 5.3 放大4倍后的β分布的一个更优雅的方法是：由于每个类别CTR的分布差异很大，所以可以针对每个类别分别计算α和β。

一方面可以减少方差，增加平滑强度。另一方面，它也考虑了每个类别本身不同的CTR分布。

然而，这里有一个陷阱（在第 4 章末尾提到）。如果类别（或标签）过多，即划分过于详细，可能会导致每个类别（或标签）下的商品数量较少。

长尾类别出现。这时候如果计算每个类别下的α和β，很可能会发现α和β特别大，因为可能只有一两个数据，而且方差很小，导致β分布认为数据足够有信心，但事实上却不够。

解决这种情况的方法是采用粗粒度的类别体系，保证每个类别下的数据量充足。或者退回并使用 5.1 中的方法 1。

站长声明

标签：

上一篇：曝光去重设计与实践

下一篇：【TDP Plus福利】文档有奖反馈活动

南京诺唯赞生物科技有限公司完成5.5亿元C轮融资

据投资界5月8日消息，南京诺唯赞生物科技有限公司（以下简称“诺唯赞”）宣布完成人民币C轮5.5亿元融资。本轮融资由国寿健康基金独家领投，夏尔巴投资等跟投。诺唯赞成立于2007年，是国内为数不多的具备自主研发生物技术关键原材料能力的高新技术企业之一。现已发展成为一

06-17
微软：恭喜你，现在可以在元宇宙里做PPT了

8月，北半球还陷在炎热的夏天，Facebook还没有更名Meta。一群科技媒体记者戴上VR耳机，准备参加虚拟新闻发布会，远程体验Facebook的办公应用Horizo??n Workrooms。虚拟会议室里，只有上半身的虚拟人物正在好奇地看着、摸索。而扎克伯格和其他 Facebook 高管则愉快地介绍了

06-21
会话转录可以实时完成吗？微软新研究进展告诉你答案

雷锋网报：对话转录能实时进行吗？并且还支持多人、远场语音转录？是的，这些新的转录功能都是微软研究院最近在口语处理方面取得的新进展。雷锋网将文章全文整理如下。在强大的云计算基础设施和大量训练数据的支持下，深度学习算法现已成为人工智能进化之旅中最重要的驱动力

06-18
《雪王》终于要开播了？

1月2日，“新茶饮料”企业蜜雪冰城向港交所提交上市申请。早在今年9月，蜜雪冰城就申请A股上市，计划在深交所主板募资64.96亿元，但最终未能成功；这次蜜雪冰城再次寻求IPO，但行业已经发生了变化。如今，行业竞争已进入发展窗口期。不少企业开始进攻万店及二三线市场，行

06-17
为了测试人类能否在火星上生存，NASA要求他们在南极洲徒步4000公里

南极洲是地球上最冷、最空旷、最危险的地方之一。这片大陆面积约一万平方公里，大部分表面都覆盖着厚厚的冰层。但这片冰冷的沙漠有可能成为遥远世界的可能性的证明。 ▲ 从空中俯瞰南极洲玛丽伯德土地。图片来自：NASA 科学家认为，南极洲的极端条件和特殊景观与宇航员未来

06-21
圆通快递：5月快递产品收入29.94亿元，同比增长23.99%

圆通快递公布，5月快递产品收入29.94亿元，同比增长23.99%；业务完成量14.69亿元，同比增长2.711%。

06-18
广式餐饮圈内崛起，“迅云集团”完成1000万元Pre-A轮融资

据投资界（ID：pedaily）12月16日消息，36氪报道新粤式餐饮品牌星云集团于今年9月完成Pre-A轮融资，由北京生活服务业发展基金独家投资数千万元。此次融资主要用于子品牌门店扩张及供应链建设。天眼查公开信息显示，星云集团成立于2008年。 2008年，主创团队在北京三元里推

06-17
2023年第二季度及上半年中国新经济创投数据分析报告

关键词：融资、投资作者：阿里云 xIT Orange 发布日期：2023年8月报告简介本报告涵盖中国一级市场投融资交易详情、中国并购交易明细、中国IPO数据明细、值得关注的初创企业及数据等下载阅读报告预览今年上半年，国内一级市场投融资交易全面启动，同比减少29%；交易金额1亿

06-18
利润丰厚！眼镜镜片成本仅6元，十年间我国眼镜相关企业年注册量增长1072%

近日，陈道明背书的“明月镜片”向深交所提交招股书并可能在创业板上市。其招股书显示，“明月镜片”每片镜片成本为6.23元，每副眼镜成本为56.09元。由此，眼镜行业的暴利引发了网友的热议。创头条获悉，企查查数据显示，2018年我国注册眼镜相关企业数量达到29.3万家，同比

06-17
她是春节档最大赢家

本次春节档，电影《热辣滚烫》《飞驰人生2》《熊出没之逆转时空》和《第二十条》票房位列前4，总计超过55亿元（截至2 月 16 日 9:00）。这背后有一个人。人物——万达电影新董事长和总裁陈祉希。陈祉希在影视圈早已是家喻户晓的名字，但她更出名的是她的作品：《你好，李焕

06-18
谷歌、苹果、微软等科技巨头市值蒸发1620亿美元；阿里巴巴成立经济发展委员会 -雷锋晨报

美股周一暴跌，五大科技巨头市值蒸发1620亿美元。 8月6日消息，美国当地时间周一，美国股市大幅下跌，其中科技股受到的打击尤其严重。道琼斯工业平均指数下跌近 30 点，随后在下午晚些时候反弹，收于 30 点。包括许多科技公司在内的纳斯达克综合指数下跌 3.4%（即 0.10 点）

06-17
新三板退市企业石美药业已完成上市辅导备案

江西石美药业股份有限公司（以下简称：石美药业）拟首次公开发行股票并在A-板上市股票，于2020年5月13日截止至江西证监局办理辅导及备案函。

06-17