首页 > 网络技术迭代 > 内容

腾讯视频短视频特征优化总结

发布于：2024-10-24 编辑：匿名来源：网络

|简介特征对于机器学习至关重要。在大多数机器学习任务中，特征复杂度决定了算法效果的上限。

本文主要分享特征工程的一般方法论以及腾讯视频短视频场景的特征实践工作。主要内容包括短视频排序特征、特征工程方法论、特征在机制中的应用。

1、短视频排序特征腾讯视频短视频场景中用到的特征主要包括：视频和CP特征、用户特征、因果特征、会话特征。 1.1.视频特征视频特征主要包括视频ID、标签、统计特征、视频作者、视频作者ID、视频作者标签等。

ID类特征是点击率预测模型中非常重要的特征，主要负责提供模型的记忆能力。但同时，ID类型的特征不利于提高模型的泛化性，也不利于新的视频预测。

因此，在训练模型时，我们可以随机复制一些样本，并将这些样本的ID设置为默认值进行训练。估计时，使用默认值填充新的视频ID特征。

视频的统计特征也非常重要。例如，视频的点击率（CTR）可以是模型的预测值或用作特征。

视频的点击次数（Click）除以曝光量（Impression）。），用r表示点击率r=C/I。

但在实际操作中，会遇到两个问题： 1、新视频点击率的计算：对于新视频，它的曝光度为0，点击量也为0。此时，视频的CTR应该为被设置为 0 或分配一个初始值。

？ 2、不同视频点击率对比：有两个视频A/B，点击率分别为ra=1/10，rb=/，ra=rb，但视频A只有10次曝光，而视频B 有曝光。这样的比较合理吗？第一个问题是，初始值设置为0是可以的，但是不合理。

意味着视频根本没有点击，这不符合常理。通常，给出大于 0 的初始值。

第二个问题不合理。人们普遍认为，曝光次数越少的视频权重应该越低。

平滑技术可以用来解决以上两个问题。最简单的办法就是在计算CTR的公式的分子和分母上加上一个数字，r=(C+a)/(I+b)，公式中的a、b如何确定？这两个数字可以手动设置，但如果设置不合理，数据会被放大。

一种方法是利用历史数据计算统计显着性的a和b，即贝叶斯平滑。平滑的思想是为CTR预设一个经验初始值，然后根据当前的点击量和曝光度来修正这个初始值。

如果某个产品的点击量和曝光量都为0，则该产品的CTR为经验初始值；如果产品A和产品B的曝光度差别很大，可以通过这个经验初值进行修正，使曝光度大的商品权重增加。贝叶斯平滑是确定该经验值的过程。

贝叶斯平滑基于贝叶斯统计推断，因此计算经验值的过程取决于数据的分布。具体计算方法这里不再讨论。

由于视频数据分为两个层次：视频作者-->视频，所以平滑时可以按照层次关系进行平滑。核心思想是同一视频作者的点击率服从贝塔分布，同一视频的点击率服从贝塔分布。

因此，参数a/b是针对不同的视频作者计算的。当遇到新视频时，利用视频作者来修正点击率比从单一维度进行平滑要好。

对视频作者也更加友好。如果历史业绩好，未来业绩也很可能会好。

1.2.用户特征用户侧特征主要包括用户ID、年龄、性别、应用列表特征、用户画像等。新??用户ID的处理与新视频ID的处理类似。

这里我们主要介绍用户画像特征，它是基于贝叶斯的用户画像计算和用户真实兴趣的定义：1.3。因果特征小视频推荐系统的结构简单来说就是召回->排序->机制的结构；回忆辅助信息对于排序也很重要，可以加强回忆和排序之间的因果推论关系。

这部分特征主要包括触发器及其流行度、点击状态、点击时间等描述召回原因的特征。 1.4.会话特征会话特征通常表示用户最近一段时间内消费过的视频列表，例如用户最近 2 天内点击过的单个视频。

视频列表、视频边信息、统计数据等。更简单的做法是先对每个特征做embedding，然后再做sum pooling。

另外，还可以为序列制作一个Transformer，这样可以更好地捕捉用户历史行为序列中每个视频的关联特征。同时，还可以添加待预测视频，提取行为序列中的视频和待推荐视频。

之间的相关性。1.5. IOS/Android特征分析发现，双端分发效果、视频时长、离线评分顺序差异较大。

iOS上的分发效果远高于Android上。离线测试结果如下图。

对于相同的用户、相同的视频，只是 os 特性不同，得到的 pctr 和 pcvr 也不同。当os特性是Android时，估计会更高，而且顺序关系也不同。

因此在线实验中，os特征统一填写为ios。在线ab实验结果是：每人平均持续时间增加了3点，而每人平均vv保持不变。

IOSAndroidi7lmzr4rank 分数：0.20 pctr：0.03_pcvr：0.08rank 分数：0.6pctr：0.95_pcvr：0.31s9d0dqurank 分数：0.89pctr：0.99_pcvr：0.98rank 分数：0.56pctr：0.72_pcvr：0.39ndtnc08rank 分数：0。 73pctr：0.95_pcvr： 0 .rank Score: 0.41pctr:0.44_pcvr:0.53rrolbi2rank Score: 0.1 pctr:0._pcvr:0.62rank Score: 0.09 pctr:0.14_pcvr:0.. 部分特征效果展示离线auc对比，横坐标为不同时间段，纵坐标是auc，蓝线是基线，橙线是实验线上每人平均时间的比较。

它们是基线桶、实验桶和扩展桶。可以看到扩容后各项指标的提升还是比较明显的。

2. 特征方法论 2.1 数据质量（清洗、覆盖、分布比例）考虑到生产数据可能包含以下噪声，必须保证数据质量。 2.1.1 数据清洗：数据清洗的目标是去除脏数据，需要去除异常值、填充缺失值等。

2.1.2 覆盖率：覆盖率是衡量某个特征是否可用的重要指标。如果覆盖率太低，即存在大量默认值，则基本可以确定该特征不会产生积极的效果。

2.1.3 特征分布：feature 分布是根据每个特征的值的数量、值的比例以及该值对应的点击率。如果某个特征某个值对应的比例过大，或者该值对应的点击率误差不同，则基本可以判定该特征不会产生积极的效果。

2.2 特征对于处理不同类型的数据需要不同的处理方法。 2.2.1 数值特征： a) 归一化：为了消除数值特征之间维度的影响，需要对特征进行归一化，使得不同特征具有可比性。

常用的归一化方法包括：线性函数归一化（Min-Max缩放），对原始数据进行线性变换，使结果映射到[0,1]区间，实现对原始特征的缩放。归一化公式：x = {x - min(x)} / {max(x) - mini(x)}。

零均值归一化（Z-Score Normalization）将原始特征映射为均值为0、方差为1的分布。一般要求原始特征近似服从高斯分布。

假设原始特征的均值为u，标准差为t，则归一化公式为：x = (x - u)/t。 b) 离散化：例如用户偏好特征、用户近一段时间对不同类型视频的曝光和互动次数应该能够更好地反映用户近一段时间的偏好。

然而，曝光和交互数据是连续特征，具有很大的价值空间。如果不进行处理，这些功能可能不会发挥很大的作用。

离散化可以将这些连续特征分割成若干个离散特征；同时，我们认为特征的重要性在不同区间是不同的。对于连续特征，特征的默认重要性与特征有线性关系，但往往是非线性的。

因此，我们希望连续特征在不同区间具有不同的权重。实现这一点的方法是将特征划分为区间，每个区间都是一个新特征。

此外，离散化特征还具有良好的鲁棒性和稳定性，便于快速迭代和扩展。根据是否使用标签，离散化可以分为有监督方法和无监督方法。

有监督离散化方法分为基于错误率、基于熵值或基于统计信息的离散化方法。比较常见的有等频、等宽、聚类离散等。

此类解决方案实施起来相对简单。遵循的一般原则是（1）要保证每个框内的点击率不同，并且每个框的点击率必须不同。

物体之间的 pv 分布应该大致均匀。然而，这种解决方案的问题是它不适合分布不均匀的数据。

等频和等宽都不能很好地反映“尖锐”的数据。除非进行人工干预，否则集群本身对于此类问题的性能也很差。

它不稳定。经常会发生部分“尖点”数据被划分为平坦分布的数据，导致最终的分箱结果不具有代表性。

c) 特征变换：对于连续特征，还可以进行特征变换，以增加特征的表达能力，如对特征进行maht.round、math.log、二次方、平方根等。 2.2.2 类别特征 a) ont-hot/multi-hot 编码。

One-hot编码可以说是最常用的处理特征的方法。通常用于处理类别之间没有大小关系的特征。

使用one-hot编码时，需要注意以下问题：（1）使用稀疏向量来节省空间。在one-hot编码下，特征向量只有一维的值为1，其他位置的值都是0，因此特征向量可以采用稀疏表示，有效节省空间，目前大多数算法都接受以稀疏向量的形式输入。

(2)配合特征选择降维。当类别值较多时，可以使用Multi-hot编码。

特征向量在某些维度上值为1，在其他位置上值为0。 b) Embedding表达式，将每个特征初始化为n维向量，将其连接起来，然后输入到MLP中，同时进行端到端学习。

2.2.3 时间型特征时间型特征既可以视为数值特征，也可以视为类别特征。 a) 可用作数字类型的特征包括：视频时长、观看时长、间隔时间 b) 可用作分类类型的特征包括：一年中的月份、一周中的某一天、一天中的时间等。

2.2． 4 交叉特征：LR时代，为了帮助模型学习更多的非线性和特征之间的关系，尝试了更多的特征交叉操作，主要包括用户侧特征和项目侧特征的交叉以及上下文侧特征的交叉。。

对于深度学习模型来说，由于模型本身可以学习交叉信息，因此对特征交叉的需求并不算太大。然而，显式特征交叉可以帮助模型捕获特征之间的关系。

交叉方法可以选择笛卡尔积或哈达玛积等。在短视频场景中，特征交叉不会带来正收益，也没有负收益。

3.特征在机制中的应用传统的排名预测模型只考虑对，并没有考虑项目之间的相互影响作为推荐列表。 Rerank作为距离用户最近的一层，利用传统Rank模型的输出作为输入，强化物品之间的关系以及物品与用户之间的关系，进行一次排序。

它是一种考虑推荐视频之间的关系和影响的方法。排序模式。

对于不同的用户，列表中的项目分布应该有较大差异，并且要保证推荐的多样性和不重复性。 3.1 多样性控制在推荐系统中，多样性控制非常重要，很大程度上影响用户体验。

如何以合理的多样性分散候选视频，以达到用户体验多样性的目的并保持长期效益是一个非常重要的问题。目前采用子模块方式，使用的特征包括类别1、类别2、标签、cp等。

3.2 Title/Cover Duplication 用户一般不喜欢观看重复的视频。如何对候选视频进行重复过滤也是一个非常重要的问题。

我们目前使用的过滤方法是标题重复过滤和封面重复过滤。使用的功能包括标题嵌入和封面嵌入。

在线计算用户历史消费vid和候选vid的cos，判断是否相似。 4.总结特征工程其实并没有什么专门的理论。

这是一项比较基础但又很重要的工作。需要对业务有深入的了解，需要针对不同的问题重新开始。

它过于依赖人类的经验和判断。因此，自动特征工程就显得尤为重要。

自动特征工程是一种在日志中自动创建候选特征并选择最佳特征进行模型训练的方法。这部分稍后会介绍。

站长声明

标签：

上一篇：面对Properties的各种陷阱，这里有一些你需要了解的Java技巧

图数据库平台-TigerGraph完成1.05亿美元C轮融资，老虎基金领投

图分析平台提供商“TigerGraph”宣布成功完成1.05亿美元C轮融资。本轮融资由老虎基金领投。据悉，TigerGraph成立以来融资总额已超过1.7亿美元。 TigerGraph 是一个针对关联数据的高级分析和机器学习平台。基于分布式原生图数据库，TigerGraph可以支持高级分析和机器学习应

06-18
否认追随阿里巴巴发起股份回购？腾讯表示在业绩会上未回应相关问题

市场有传言称，在财报电话会议上，腾讯的总裁刘炽平否认了市场关于腾讯将效仿竞争对手阿里巴巴推出股票回购计划的猜测。记者证实，腾讯总裁刘炽平在昨天的电话会议上并未回应是否会启动股票回购计划。腾讯表示，过去几个月一直在积极配置京东股票，在市场上积极回购股票，

06-17
全球云呼叫中心：中国企业出海新助力

.wp-block-column h3{margin-left:0} 随着中国经济的快速发展和全球化的加速，越来越多的中国企业开始寻求海外发展。在此过程中，全球云呼叫中心成为重要工具，为企业提供更高效、便捷的客户服务，帮助企业成功拓展海外市场。本文将探讨全球云呼叫中心在中国企业海外扩张中

06-18
医疗口腔数字化管理服务平台Jarvis完成近亿元Pre-A+轮融资

4月26日消息，医疗口腔数字化管理服务平台Jarvis宣布完成近亿元Pre-A+轮融资。本轮融资由创始合伙人CCV领投。本轮融资将主要用于加速产品的市场迭代、完善供应链基础设施、构建更加自动化、智能化的管理工具。

06-18
商务部：上周食用农产品价格回落，生产资料价格运行平稳

据商务部监测，上周全国食用农产品市场价格下降1.8%（6月） 14-20）与前一周相比（下同）。 %，生产资料市场价格与前一周基本持平。肉类价格全面下跌，其中猪肉批发价格为每公斤21.03元，下降6.3%。

06-17
MYNTAI小米智能获3000万元战略融资，申通快递董事长陈德军亲自投资

据投资界1月9日消息，小米智能今日正式宣布获得申通快递1万元战略融资董事长陈德军. 　　据悉，本轮融资完成后，小米智能将继续加强对双目硬件模块、VPS和人工智能技术的投入，并与申通快递开展深度战略合作，应用VPS视觉定位和导航技术应用于包裹揽收及检查、物流无人车、AG

06-18
「贝氪科技」获6000万元A轮融资

近日，「贝氪科技」已完成1万元A轮融资。本轮融资由基石资本领投。本轮融资将用于产品研发和市场投放。据介绍，贝氪科技主要围绕睡眠和办公两大领域，提供健康智能产品。贝氪旗下拥有“Nitetronic Timmian”、“Backrobo 贝氪”、“Blupeace”三大品牌。

06-18
零食集合店“宁氏魔珐”获近千万元天使轮融资

投资界（ID：pedaily）5月10日报道，零食集合店品牌“宁氏魔珐”获近千万元天使轮融资< titlesplit >天使轮融资。，本轮融资由宸睿资本独家提供。本轮融资将主要用于新店筹备、数字化系统开发和供应链建设。 Neighbor Food 魔珐（公司名称，品牌名称“Snacks 魔珐”）是一家

06-17
DISC获济峰资本近亿元A轮投资

投资圈（ID：pedaily）据12月22日消息，青少年近视防治新锐企业珠海博爱光科技有限公司近日，济峰资本宣布完成由周岭资本独家投资的近亿元A轮融资。募集资金将用于人才培养、临床试验、产品研发和业务拓展。珠海博爱光科技有限公司成立于2001年，一直深度涉足儿童青少年近视

06-18
中国互联网投资基金领投，“UINO优锘科技”完成超3亿元C轮融资

据投资界（ID：pedaily）7月1日消息，今年6月，UINO优锘科技，领先的数字孪生制造商，成功完成3亿多元A轮融资。元C轮融资持续获得多家知名投资机构的大力支持。本轮融资由中国互联网投资基金领投。晨兴资本等老股东持续加大投资力度。泰康人寿、凯联资本、普洛斯隐山资本

06-18
“一起学中文”完成数百万元天使轮融资

据投资界5月31日消息，K12中文教育品牌“一起学中文”宣布完成数百万元天使轮融资轮融资。本轮融资由深圳颐和资本投资资助。本轮融资后，一起学汉语将继续发挥课程产品研发优势，加快专业师资培训和教学培训机构市场拓展。一起学汉语是K12汉语教育品牌。该公司于今年10月

06-18
日本强震扰乱半导体产业链

环球时报 3月16日深夜，日本东海岸发生7.4级地震。据日本放送协会电视台（NHK）报道17日，日本多家生产半导体的企业受到地震影响。该工厂已暂时停止生产。 NHK表示，日本是全球半导体产品的重要供应地区之一。发生地震的福岛周边地区是信越化学、瑞萨电子、铠侠、东芝、胜

06-06