腾讯云CDB的AI技术实践：CDBTune

发布于：2024-10-24 编辑：匿名来源：网络

作者：邢嘉树，高级工程师，目前就职于腾讯TEG基础设施部数据库团队。腾讯数据库技术团队维护MySQL内核分支TXSQL，与原生MySQL版本%兼容。

对内支持微信红包、抽奖等集团内部业务，对外提供腾讯云CDB for MySQL的内核版本。简介：CDBTune是腾讯云自主研发的数据库智能性能调优工具。

与业界现有的常见方法相比，CDBTune不需要细分负载类型和积累大量样本。通过智能学习参与参数调优，获得更好的调参效果。

数据库系统复杂，负载多变。调优对于DBA来说是非常困难的：参数很多，不同的数据库有上百种，没有统一的标准，名称、功能、交互都千差万别。

调优依赖人的经验，人工成本较高。工具调整效率低下且不通用。

总结起来，存在三大问题：复杂、效率低、成本高。腾讯云的智能性能调优工具在不断的实践中是如何解决这些问题的呢？实践1：启发式搜索方法/Search-Based Algorithm输入包括两部分：参数约束：包括待调优的参数集合以及参数的上下界；资源限制：调整过程应该在多少轮后停止。

配置采样器：对输入参数进行采样并生成配置；配置将设置为 SUT（即要调整的环境）。系统操纵器：与SUT交互、设置参数、获取SUT性能数据。

性能优化器：根据配置和性能数据找到最佳配置。 PO算法主要包括两种方法：DDS和RBS。

l划分和发散采样（DDS）这里，DDS用于划分参数的子空间，以降低问题的复杂度。首先将每个参数划分为k个区域，那么n个参数就有k^n种组合，从而降低复杂度。

假设如果k和n比较大，空间可能还是很大。怎么处理呢？这时可以采用超采样的方法，只提取k个样本来解决问题。

lRecursive Bound-and-Search（RBS）总能在性能平面上的某个点附近找到性能相似或更好的点，这意味着有可能找到更好的配置。在现有示例中，找到性能最佳的配置。

然后围绕此配置运行多轮，递归地寻找可能更好的配置。基于搜索的方法可能存在的问题是采样和测试可能非常耗时，并且可能陷入局部最优。

实践2：机器学习方法/Machine Learning主要包括三个步骤： l 识别负载特征，降低度量维度。 metric是指系统内部的状态指标，比如MySQL的innodb_metric。

这里使用了两种方法，一种是FA，另一种是K-means聚类。确定配置参数和性能之间的相关性。

有数百个配置参数。首先，通过Lasso线性回归参数与性能的关系对它们进行排序。

优先考虑对性能影响较大的参数。自动调优匹配目标工作负载，即根据负载在不同配置下运行，将显示的指标特征匹配到最相似的负载。

然后根据匹配的负载，推荐最优配置。这里使用的是高斯过程，并且增加了exploration/exploitation，即探索和利用的过程。

这种方法的问题在于，调优过程严重依赖历史数据，需要匹配类似的工作负载，这需要相对较高的训练数据。如果没有匹配，则说明没有找到好的配置。

实践3：深度学习方法/Deep Learning利用深度学习网络推荐最终需要调整的参数：获取工作负载对应的内部度量，学习参数调整过程中内部度量的变化规律，学习最终需要调整的参数。该模型高度依赖于训练数据。

需要获取各种配置下各种负载的性能数据。数据库负载和配置的组合非常多，基本上不可能涵盖它们。

如果无法匹配类似的场景，调优结果可能并不理想。实践4：深度强化学习方法/Reinforcement Learning在强化学习中模拟了人类与环境交互的过程。

Agent会根据观察到的状态采取相应的行动。同时，环境接受动作并改变其状态。

这个过程会按照一定的规则产生相应的奖励，这就是对动作的评价。最后，通过实际比较，我们选择了采用强化学习的模型，并开发了数据库调参工具CDBTune。

它强调调整参数的动作，摆脱以数据为中心的方法。对于强化学习和参数调优，我们定义了以下规则：规则：按一定间隔调整参数，获得性能数据奖励：提高性能获得正奖励值，降低性能获得负奖励值。

目标：尽可能少地调整参数时间/数量，获得较高的期望奖励值状态：系统内部指标指标。我们将系统的内部度量称为内部指标；外部性能数据，如TPS/QPS/Latency等，称为外部指标。

在数据库调参场景中，具体方法是：agent选择一个调参动作（或多个参数）作用于数据库，并在执行该动作后根据外部指标计算应获得的即时奖励。强化学习对应的是参数调优的场景。

这种场景的问题在于，强化学习需要构建一个表格，显示在特定状态下执行特定操作所获得的收益。只有这样我们才知道哪种操作的效益最大。

但数据库的状态空间（性能指标）和动作空间（配置组合）都极其庞大，组装这样一张表是一项不可能完成的任务。这时候深度强化学习就派上用场了。

我们需要通过一个深度网络来近似这个Q表的效果，这就是CDBTune的实现方法。 CDBTune实现S是当前数据库性能状态（内部指标），S'是下一个状态数据库性能状态，r是立即奖励，w是神经网络参数，a是采取的动作（执行配置参数）， Q是状态行为值函数这个模型主要分为两部分。

l数据库环境：在图的左边，会为这个环境设置参数，然后收集该环境的内部和外部指标并反馈到右边的模型。 l 深度强化学习网络：图中右侧，实现算法与DeepMind发布的Nature DQN类似，使用两个Q-Network。

另外，Replay Memory是我们的内存池，历史数据会被记录。然后训练将继续，添加到内存池中。

深度学习网络会从内存池中随机选择样本模型进行训练。在估计一个行动的回报时，它基于一个假设：我们的回报取决于未来每个步骤对结果的影响；而影响最大的就是最近的奖励。

该Q值是通过近似获得的。对于样本(s,a)，我们可以得到真实的回报r。

这时候我们就可以获取他们之前的Loss，调整左边的网络，让两边的Loss越来越小。这样我们的网络就会逐渐收敛并得到更好的推荐。

通过测试数据形式和相关策略效果评估可以看出，CDBTune通过自学习调参过程，无需任何前期数据采集，就达到了较好的调参效果。 CDBTune调优得到的吞吐量和延迟性能都达到了一个相对可以理解的水平。

这也是深度强化学习方法相对于其他方法的优势。总结：基于DQN的智能调参优点是简化复杂度。

参数调整时无需对负载进行精确分类，参数调整动作更符合实际情况。无需获取足够的样本，减少前期数据采集的工作量。

利用勘探和开发。（Exploration & Exploitation）特性，减少对训练数据的依赖，减少陷入局部最优的可能性。

在实践过程中，我们也遇到了一些问题：所选动作的实际操作，训练效率低，训练周期长相对于连续的配置离散化处理可能会导致推荐配置精度低，收敛速度慢。使用动作的最大 Q 值可能会导致 Q 值的高估。

针对这些问题，我们也在不断的优化和完善我们的模型，优化参数。相信CDBTune在未来能够取得更好的成绩。

站长声明

标签：

上一篇：USE方法：系统性能分析第一步

下一篇：单元测试是否模拟？

上海微创医疗器械刘道志：医疗企业产业并购的机遇与挑战

投资界消息8月8日，清科集团举办的“中国股权投资并购年会”上，图为上海微创医疗器械医疗器械（集团）有限公司高层副总裁刘道志。　　以下为现场实录：刘道志：我跟大家分享一下医疗企业产业并购的机遇与挑战。　　医疗器械在中国是一个非常好的行业。无论是投资者、并购

06-17
广西投资集团发起设立广西广州工业高质量发展基金，总规模超60亿元

据投资界3月6日消息，由广西投资集团有限公司发起设立，广投集团有限公司（以下简称“广投集团”）作为主发起人设立的广西广投产业高质量发展基金合伙企业（有限合伙）（以下简称“广投产业优质基金”或“基金”）》）完成工商注册并取得工商营业执照，基金正式开始投资运营

06-17
三星Galaxy Z Flip5-Z Fold5发布：更大更薄，3.4英寸外屏太棒了

时隔数日，三星再次开启折叠屏新篇章。今晚，三星在韩国首尔举办了“Samsung Galaxy Unpacker”发布会。发布会期间，张元英与美女闺蜜用Galaxy Z Flip 5来了一张美美的自拍照，瞬间提升了本次发布会的期待值。高潮。悬念终于揭晓。我们先来总结一下Galaxy Z Flip 5的一些

06-21
版权纠纷告一段落：一首好听的歌曲被发送到QQ音乐

此公告宣告音乐版权纠纷即将告一段落。　　2月9日，国家版权局宣布，腾讯音乐与网易云音乐达成网络音乐版权合作协议，将相互授权音乐作品，达到各自独家音乐作品数量的99%以上。这意味着音乐版权分割的混乱局面终于要结束了。　　截至发稿，网友惊奇地发现，苏运莹、姜宇恒

06-18
青岛高新区天使旗下母基金拟投资海松资本

投资界-解码LP获悉，3月2日，青岛高科创业投资有限公司发布公告《青岛高新区天使母基金参股公示》，此次天使的母基金拟投资海松（宁波）私募股权基金管理有限公司发起设立的青岛高创海松科技投资基金合伙企业（有限合伙）（以工商注册名称为准）（简称如：海松资本）将协商协

06-17
今日头条小说品牌升级为“番茄小说”，独立APP日活超千万

4月21日，世界读书日之际，今日头条小说频道宣布品牌更新为“番茄小说”。该品牌与2016年推出的今日头条独立小说APP名称一致，新的统一品牌口号是：免费好书，尽在番茄。这是今日头条小说业务的最新升级。与此同时，“番茄小说”宣布所有小说免费：即日起，无论是今日头条

06-18
【融资24小时】2022年3月28日投融资事件汇总及明细

今日国内市场共发生23起投资披露事件，其中8起为企业服务（小晶科技、DataPipeline、Pixso、申易）科技、易安联、微步在线、中曲科技、星盘跨境店astro）、先进制造案例5个（耀明中科、微蓝新能源、无锡硅动力、锐骏半导体、迈塔兰斯）、医疗健康案例4个（若易）生物科技、深

06-18
朱啸虎：今年下半年是2015年投资以来最忙的时期

11月26日，第五届小饭桌青年创业者大会上，金沙江创业投资基金董事合伙人朱啸虎发表主题演讲《创业年度资本“市场挑战与解决方案”。他在演讲中指出，互联网已经从以消费互联网为中心，转向消费互联网和企业服务并重。两手都要抓，两手都要用力。谈及今年国内的投资环境，

06-18
教你如何从零开始制作Apple Watch国际系列表盘（内含34款表盘可供下载）

最近，无论是工作群、社区群、健身群还是送餐群，每个人都有一个共同话题。有人调侃“死亡之组”无人生还，有人感叹德意志战车惨遭出局，有人惊讶舍甫琴科率领乌克兰晋级8强……每个人的心都被足球感动了。 6月29日晚，苹果在Apple Store上架了全新国际系列表带，共有22个国

06-21
每日产品回顾：我只想睡你，小米杂货店又补新丁了

微博预热的小米智能家居新品众筹终于在12月1日公布，继小米彩虹电池、小米T恤和小米旅行箱之后，小米推出了硅胶床垫。让我们来看看今天入选雷锋产品库的热门产品和激动人心的评论。小米乳胶床垫——我想和你一起睡。小米超市12月1日推出新品——8H乳胶床垫，“8H乳胶床垫青

06-17
重型机器人公司“博信机器人”获数千万元A轮融资

重型机器人公司“博信机器人”近日宣布完成数千万元A轮融资，共同投资由南通科创投资和梅花盛世投资。本次融资将主要用于推动智能无人起重机系统的深入研发、B仓物流分拣分拣解决方案的落地以及能源重工业的重点发展。听，中小企业反馈平台。倾听用户需求，倾听创业者声音

06-17
国家科技成果转化引导基金拟设立6个子基金，总规模201.93亿元

造头条近日，科技部官网公布了《国家科技成果转化引导基金年度公告》，总规模达201.93亿元。《关于设立国家科技成果转化引导基金创业投资子基金的议案》。据公司内容介绍：国家科技成果转化引导基金拟设立6个创业投资子基金，涉及总规模9300万元，投资金额42.13亿元。这六

06-17