首页 > 网络技术迭代 > 内容

Kubernetes 降本增效标准指南 -容器化计算资源利用现象分析

发布于：2024-10-24 编辑：匿名来源：网络

简介自从云计算发展以来，降本增效一直是企业对云计算的核心关注点，无论是线上业务、大数据，还是AI业务都非常受关注。依赖算力的消耗，成本问题是企业上云决策的核心因素。

从云计算本身的角度来看，简单地将业务从IDC迁移到云端并不会修改任何业务架构。提高计算资源利用率需要非常大的运维成本和人力成本来转变业务适应弹性伸缩和业务可调度性。

。随着云原生技术的普及和推广，容器、Kubernetes等技术可以与业务和基础设施自然融合，简化资源管理、感知业务类型、自动弹性扩展和调度。

为了帮助企业在使用云原生技术时更好地实现降本增效，腾讯云容器团队推出了《kubernetes 降本增效标准指南》系列，包括但不限于提供基于云原生技术的资源利用率改进建议以及多维度的弹性资源使用建议。成熟度模型。

、智能负载推荐提高准确性、腾讯云云原生成本管理指南等。同时将推出一系列帮助容器化降低成本的能力套件，如容器成本构成视图、成本预测与评估工具、成本监控工具和成本计时。

报告等，以及支持智能负载值推荐、成本感知调度、竞价实例回收动态控制器等，敬请期待。本文中，腾讯云容器团队对授权企业客户进行了抽样调查，对资源使用情况进行了真实的数据分析，并用实际行业数据介绍了容器化带来的资源利用率的提升空间。

资源利用数据分析本次调查采样了来自授权企业客户和个人客户的数据。其中，企业客户和个人开发者统计节点数超过5W+。

IDC的计算资源存在冗余，平均利用率低至10%。由于IDC数据中心缺乏弹性，为了保证业务能够应对突发请求等情况，一般资源会出现冗余，资源利用率较低。

首先，我们来看看全球数据中心的利用率。麦肯锡的一份研究报告指出，业务经理在考虑稳定性和提高可用性的同时，还应该将新业务的工作重点放在遏制效率低下和成本上升上。

调查结果显示，许多数据中心多达30%的服务器功能“无法使用”，而服务器日均利用率不足3%；而在整个数据中心中，服务器的日均利用率通常只是最高的。是6%。

上述数据表明，数据中心的服务器成本和资源消耗会给企业造成巨大的“浪费”。图1 图1：授权采集单个腾讯云客户物理机平均资源使用情况（样本数+）上图是典型的白天客户机器繁忙，晚上资源空闲的情况。

由于物理设备弹性较弱，计算资源往往需要根据业务高峰预留一定量的Buff，甚至需要预留更大的资源Buff以保证业务稳定。因此，会造成资源使用的巨大浪费。

IDC上云后资源利用率提升有限。企业上云需要严谨细致的研究工作，包括收集云厂商硬件、网络环境、产品能力等，往往需要从多个不同角度进行分析。

事实上，在上云过程中第一步就是将基础设施迁移到云端，包括计算资源、存储、服务器、数据库等，保证业务和平台系统改动最小的情况下平滑迁移到云端。这一举措不会大幅增加实际资源使用量，但有利于降低企业基础设施采购、建设和运维成本。

图2 图2：常见非容器化计算节点资源使用情况分析数据（样本数4W+）根据以上调查样本分析，大部分非容器化业务整体计算资源利用率不高，为了确保每个业务都有良好的隔离性。一般一台机器上只部署一个业务，即每个业务独立部署，单独管理。

每个企业将独占其专用资源的一部分。在业务低迷时期，其他业务无法利用这些专用资源，造成资源浪费。

基础设施上云后，企业可以根据业务属性进行云化改造，充分利用云的弹性，进一步提高资源利用率，降低IT投资成本。从上述实际研究数据分析，仅利用云IaaS层的弹性伸缩来提升资源利用率的空间有限，并且会给新业务转型和后续运维带来额外的成本投入。

业务云原生改造可提升资源利用率高达60%~70% 图3 图3：普通节点与容器化节点资源利用率分析（样本数：4W普通非容器化节点、1W容器化节点）客户来自从上图可以看出，容器化后整体平均CPU利用率并没有多大提升。主要原因是大量业务虽然已经容器化，但并没有转型为可以动态扩展。

图 4 图 4：部分配置的节点池弹性伸缩业务应用启用 HPA 平均资源使用情况图（样本 + TKE 节点）图 5 图 5：所有样本中平均资源使用分布（样本数量 1W + TKE 节点）从图3、图4、图5可以看出，集装箱化后，不同企业的资源利用率差异很大，少则不足10%，多则高达60%-70%。除了企业本身业务属性不同外，腾讯云原生团队还对样本客户进行了深入调研和访谈，了解到不同企业架构的部署存在较大差异，这是造成企业的资源利用率不同。

。资源利用率低的企业在使用容器时，前期只注重解决与容器的环境一致性问题。

事实上，它们并没有充分利用容器的弹性能力。另外，在部署模式上，单节点容器密度不高，导致整体资源利用率与容器化转型前相差不大。

从实际数据来看，即使业务已经容器化，一定时间内的资源使用情况仍然存在波峰波谷不均匀的情况。因此，为了保证服务的可靠性和稳定性，一般会根据流量高峰期来配置资源规格，以保证业务在高并发时有良好的性能运行。

但在高峰期之后（一般是一小部分时间），当业务恢复到峰谷状态时，实际使用的资源只有一小部分，造成峰谷期间大量的资源浪费期间。资源利用率高的企业，业务容器化后，更多地采用业务混合部署，大大提高容器部署密度，使得平均单节点容器密度为1:10，从而提高资源利用率。

同时，企业如果充分利用容器的弹性扩展能力，资源利用率也能得到大幅提升。对于有峰有谷的非容器化服务，即使配置了弹性伸缩能力，启动速度也只有分钟级，仍然难以保证短时间内启动大规模计算资源应对高并发需求。

容器可以秒级启动，使容器化服务具有高密度和弹性，可以轻松应对突发访问。在这种商业模式中，容器化利用了不同级别的自动弹性伸缩能力，从而解决了低谷时期的资源浪费问题。

容器弹性伸缩能力如下： HPA（Horizo??ntal Pod Autoscaler）：当 pod 数量达到用户定义的阈值（CPU 利用率、CPU 使用率等）时，在 30 秒内自动扩缩容，当 Pod 数量达到上限时触发由于节点资源限制，Pod 处于待处理状态。节点级扩缩容，即CA（Cluster Autoscaler）：两种资源粒度的弹性伸缩能力，保证客户在正确的时间分配合适的资源，最大化资源的高效利用。

另外，基于K8s的调度编排能力，支持根据Pod的实际负载进行动态调度，提高节点资源利用率；当线上服务低负载运行时，可以同时部署“对延迟不敏感”的离线服务，提高资源利用率。提高资源利用率的关键点。

腾讯内部容器化业务资源利用率也是衡量容器化深度的关键指标。基于腾讯云原生团队在容器弹性伸缩方面的实践经验，通过不同维度的弹性能力扩展来查看容器化资源。

提高利用率的关键点首先看一下 Kubernetes 各个组件的主要功能： HPA：维持应用程序的期望状态（通过调整应用程序副本的数量） VPA：（Vertival Pod Autoscaler）估计实际的 Pod 量应用程序使用的资源调度：驱动应用程序引擎CA从期望状态到资源期望状态：维持资源期望状态（通过调整节点数量） image(7).png 那么什么是理想的弹性缩放？什么样的弹性伸缩可以帮助我们更好的节省成本？简单来说，就是在用户需要的时候提供合适的资源。如何保证在需要的时候能够扩展？相关部件必须足够灵敏并快速响应。

如何确保所提供的资源是合适的？计算 StatusApp/StatusRes 时要精确。至此，弹性伸缩的两个核心问题就可以明确了：关键点一：灵敏度，可以从HPA扩容速度、CA扩容速度、节点供给速度、业务扩容方式等方面进行提升。

关键点2：准确性，从应用的期望状态和资源的期望状态出发，从提高CA扩展的准确性/VPA推荐请求的准确性的角度进行改进。资源利用成熟度模型基于本次调查的数据分析，腾讯云原生团队提出了容器化资源利用成熟度模型。

第一阶段：传统部署模式。为了应对不同时间段计算资源的不同使用情况，业务必须根据最高资源使用的峰值加上一定的buff来购买基础设施，平均利用率下降。

第二阶段：简单的容器化改造后，业务上云并容器化。采用容器进行混合业务部署，一定程度上提高了资源利用率。

第三阶段：业务微服务化转型。业务可以利用容器和云的弹性伸缩能力，结合Kubernetes的HPA、VPA、CA等能力，在高峰时扩容，在空闲时减容，极大提高资源利用率。

第四阶段：充分利用云和容器化的弹性，提高弹性伸缩的灵敏度和准确性。如果有离线服务，就会离线混合，以最大化平均资源利用率。

本后续文章通过企业实际业务数据来阐述容器化和计算资源利用的现状和基本原理。为了帮助后续企业利用云原生技术降低业务成本、提高效率，腾讯云容器团队将推出一系列《kubernetes降本增效标准指南》，包括但不限于提高资源利用率的建议、使用多维度的建议等弹性资源、提高智能负载建议的准确性、腾讯云原生成本管理指南等。

同时还计划推出一系列帮助降低容器化成本的能力套件，如容器成本构成视图、成本预测等评估工具、成本监控工具、成本时序报告等，并支持智能负载值建议和成本感知调度。、竞价实例回收动态控制器等，敬请期待。

特别感谢以下客户为本报告提供真实数据支持。作业帮致力于为全国中小学生提供全学科学习辅导服务。

其累计用户设备安装量已超过8亿，月活跃用户约为1.7亿。是中小学在线教育领先品牌。

今年4月至5月，作业邦逐步将部分业务接入腾讯云容器服务TKE，涉及数千个业务应用、数十万个计算核心。它的规模极其庞大且复杂。

除了稳定性和效率之外，作业邦邦还对成本表示了极大的关注。我们以资源利用为出发点。

高峰时段客流量是平时高峰时段的20倍，低高峰时段（凌晨至5点左右）的数百倍，客流量上升曲线陡峭。因此，JobBang对资源的弹性调度能力要求很高。

在这个应用场景中，TKE提供了弹性伸缩的整体解决方案。它使用HPA根据设定的阈值调整Pod副本数量，并与CA结合控制节点数量。

保证业务在高并发下仍然能够以良好的性能运行。同时，通过离线混合部署、共享GPU等解决方案，容器化后，节点平均CPU利用率从10%提升到30%，成本下降40%，接口响应提升10% 。

快看漫画是漫画行业领先的APP。目前漫画市场份额超过50%，APP用户总数超过2亿，MAU超过1万。

该公司于12月开始接入容器服务TKE。到目前为止，近千个服务中90%的应用程序都在容器中运行。

快看漫画容器化之前，由于需要应对活动、节假日、热门作品等多种场景，业务流量呈突发性、周期性。因此，核心业务不得不有数倍的产能冗余，资源无法最大化。

需要人工扩缩容，人工干预程度高。 TKE针对此类场景提供服务分级，优化Request资源；扩展能力、HPA、计划扩展；离线任务、业务低谷执行等产品能力。

容器化后，资源利用率提升30%，成本下降40%以上。。

云集是一个社交型会员电商平台，为电商平台会员提供美妆个护、移动数码产品、母婴玩具、生鲜水果等多个品类的商品选择。年底接入了TKE，现在常用的应用基本已经容器化了。

云集反映，在容器化之前，机器的平均CPU利用率在高峰期不会超过10%，这是极其浪费的。容器化后，整体CPU利用率达到16.6%，成本节省超过50%。

站长声明

标签：

上一篇：MySQL面试题全解析：准备面试所需的关键知识点和实践经验

下一篇：发布变更是否快速且稳定？腾讯运维工程师经验首发

「AI投研邦」团体会员上线！75折解锁会员权益、PDF版研报、AI峰会....

《AI投研邦》群会员上线！ 25折解锁会员权益、PDF版研究报告、AI峰会……2019年12月，我们正式推出《AI投资研究状态》。这几十天，我们听到不少AI+企业为员工购买统一会员的诉求。经过与AI+企业的多次沟通和尝试，“AI投研邦”团体会员服务于1月22日正式上线。我们重点整合

06-18
AT&S半导体封装载板项目落户重庆

美通社：近日，高端印刷电路板制造商AT&S宣布，为应对高性能计算日益增长的市场需求，公司将扩产其战略支柱类型业务为半导体封装载板。计划在重庆建设新工厂，并扩大奥地利莱奥本工厂的产能。为此，该公司计划未来五年投资近10亿欧元，主要用于在重庆建设新工厂。这项投资

06-06
特朗普隔空喊话他不要的无人水下航行器是什么？

12月16日，美国国防部官员表示，中国海军在南海捕获了一艘美国水下无人潜艇。中国国防部回应称，为防止不明装置危及过往舰艇航行安全和人员安全，中国海军一艘救生艇对该装置进行了识别验证，并将通过适当的手段。然而，一向推崇推特治国政策的特朗普却发文：我们不要这艘潜

06-18
58同城宣布任命首任CFO，或为境外上市做准备

据6月27日消息，国内分类信息网站58同城今日宣布任命周浩为公司首任CFO。分析师人士指出，此举意在为公司海外上市做准备。美国IPO准备工作。　　　　58同城CFO周浩　　据悉，这是58同城自2016年成立以来聘请的第一位CFO。 58同城公关部人士透露，58同城还没有聘请过CFO。

06-17
连云港新设20亿基金

投资界（ID：pedaily）4月11日消息，江苏洋泾石化集团有限公司近日发起设立连云港徐圩新区产业投资基金（以下简称“连云港徐圩新区”） “徐威新区产业投资基金”），基金规模20.1亿元，盛世聚鑫担任基金管理人。该基金主要投资于石化行业上下游，重点关注石化等战略新兴产业

06-18
请保留这份笔记本电脑陷阱指南

购买电脑对于很多人来说一直是一件非常烦人的事情。当你打开购物网站时，琳琅满目的商品总是让人眼花缭乱。 CPU、内存、显卡、硬盘，选择一台合适的电脑需要考虑的各种硬件参数并不比买车容易。如果你对硬件参数一无所知，那么买电脑无异于去相亲。你不仅害怕错过眼前的美

06-21
诞生125年后，圆形方向盘即将变成方形？

前段时间，丰田公布了bZ纯电动专属系列首款车型bZ4X的详细信息。新车定位中型纯电动SUV，车身尺寸与RAV4类似。新车的外观我大致了解了一下。它与8个月前上海车展上展示的概念车没有什么不同。虽然值得肯定，但也在情理之中。真正让我惊讶的是方向盘——它采用了异形方向

06-21
MVG紧凑型OTA测试系统订单量持续攀升

领先创新天线测试技术的系统制造商法国Microwave Vision集团（以下简称MVG）公布其专为实验室设计的高精度多探头天线测试和测量系统 StarLab 的订单猛增 44%。 *StarLab 是 MVG 紧凑型便携式测试设备“Little Big Lab”系列的一部分，是同类产品中设计最全面的产品之一。经过

06-06
收入增加，利润减少！云众科技今年一季度利润下滑超20%

科创板上市公司云众科技（60.SH）一季度实现营业收入1.35亿元，同比增长21.37%；归属于母公司股东的净利润。 26万元，同比下降22.53%。

06-17
ASML 柏林火灾最新消息：DUV 线路正常，部分 EUV 系统受到影响

继上周火灾之后，ASML 提供了有关其德国柏林工厂受损情况的最新消息。 Dutch Semiconductor Components是全球最大的光刻系统供应商；提供用于制造集成电路的机器。该公司本周表示，其深紫外（DUV）和极紫外光刻（EUV）生产线均受到影响。但在 DUV 系统可以恢复的地方，EUV

06-08
京东斥资3.71亿港元认购彩生活5%股份，双方达成深度战略合作

据投资界消息，京东集团、旗下京东物流集团、京东数码科技集团与彩生活服务集团股份有限公司达成深度战略合作，同时彩生活将向京东发行新股，京东将出资3.71亿港元认购5股彩生活持股比例。彩生活成立于2007年，是一家集物业服务、建筑智能化、社区服务于一体的科技型、综合性

06-18
【融资24小时】2022年11月3日投融资事件汇总及明细

今日国内市场共发生13起投资披露事件，医疗健康领域4起（智新浩正、科艺药业、科医医疗）联创、集智医疗）、先进制造案例3个（上海超硅半导体、钛金科技、瑶芯微）、智能硬件案例2个（智翔光电、鄂企翔）、区块链案例1个（成都链安）、汽车交通案例1个（上海）车友汇）、企业

06-17