「AI投研邦」团体会员上线!75折解锁会员权益、PDF版研报、AI峰会....
06-18
简介自从云计算发展以来,降本增效一直是企业对云计算的核心关注点,无论是线上业务、大数据,还是AI业务都非常受关注。依赖算力的消耗,成本问题是企业上云决策的核心因素。
从云计算本身的角度来看,简单地将业务从IDC迁移到云端并不会修改任何业务架构。提高计算资源利用率需要非常大的运维成本和人力成本来转变业务适应弹性伸缩和业务可调度性。
。随着云原生技术的普及和推广,容器、Kubernetes等技术可以与业务和基础设施自然融合,简化资源管理、感知业务类型、自动弹性扩展和调度。
为了帮助企业在使用云原生技术时更好地实现降本增效,腾讯云容器团队推出了《kubernetes 降本增效标准指南》系列,包括但不限于提供基于云原生技术的资源利用率改进建议以及多维度的弹性资源使用建议。成熟度模型。
、智能负载推荐提高准确性、腾讯云云原生成本管理指南等。同时将推出一系列帮助容器化降低成本的能力套件,如容器成本构成视图、成本预测与评估工具、成本监控工具和成本计时。
报告等,以及支持智能负载值推荐、成本感知调度、竞价实例回收动态控制器等,敬请期待。本文中,腾讯云容器团队对授权企业客户进行了抽样调查,对资源使用情况进行了真实的数据分析,并用实际行业数据介绍了容器化带来的资源利用率的提升空间。
资源利用数据分析 本次调查采样了来自授权企业客户和个人客户的数据。其中,企业客户和个人开发者统计节点数超过5W+。
IDC的计算资源存在冗余,平均利用率低至10%。由于IDC数据中心缺乏弹性,为了保证业务能够应对突发请求等情况,一般资源会出现冗余,资源利用率较低。
首先,我们来看看全球数据中心的利用率。麦肯锡的一份研究报告指出,业务经理在考虑稳定性和提高可用性的同时,还应该将新业务的工作重点放在遏制效率低下和成本上升上。
调查结果显示,许多数据中心多达30%的服务器功能“无法使用”,而服务器日均利用率不足3%;而在整个数据中心中,服务器的日均利用率通常只是最高的。是6%。
上述数据表明,数据中心的服务器成本和资源消耗会给企业造成巨大的“浪费”。图1 图1:授权采集单个腾讯云客户物理机平均资源使用情况(样本数+) 上图是典型的白天客户机器繁忙,晚上资源空闲的情况。
由于物理设备弹性较弱,计算资源往往需要根据业务高峰预留一定量的Buff,甚至需要预留更大的资源Buff以保证业务稳定。因此,会造成资源使用的巨大浪费。
IDC上云后资源利用率提升有限。企业上云需要严谨细致的研究工作,包括收集云厂商硬件、网络环境、产品能力等,往往需要从多个不同角度进行分析。
事实上,在上云过程中第一步就是将基础设施迁移到云端,包括计算资源、存储、服务器、数据库等,保证业务和平台系统改动最小的情况下平滑迁移到云端。这一举措不会大幅增加实际资源使用量,但有利于降低企业基础设施采购、建设和运维成本。
图2 图2:常见非容器化计算节点资源使用情况分析数据(样本数4W+) 根据以上调查样本分析,大部分非容器化业务整体计算资源利用率不高,为了确保每个业务都有良好的隔离性。一般一台机器上只部署一个业务,即每个业务独立部署,单独管理。
每个企业将独占其专用资源的一部分。在业务低迷时期,其他业务无法利用这些专用资源,造成资源浪费。
基础设施上云后,企业可以根据业务属性进行云化改造,充分利用云的弹性,进一步提高资源利用率,降低IT投资成本。从上述实际研究数据分析,仅利用云IaaS层的弹性伸缩来提升资源利用率的空间有限,并且会给新业务转型和后续运维带来额外的成本投入。
业务云原生改造可提升资源利用率高达60%~70% 图3 图3:普通节点与容器化节点资源利用率分析(样本数:4W普通非容器化节点、1W容器化节点) 客户来自从上图可以看出,容器化后整体平均CPU利用率并没有多大提升。主要原因是大量业务虽然已经容器化,但并没有转型为可以动态扩展。
图 4 图 4:部分配置的节点池弹性伸缩业务应用启用 HPA 平均资源使用情况图(样本 + TKE 节点) 图 5 图 5:所有样本中平均资源使用分布(样本数量 1W + TKE 节点)从图3、图4、图5可以看出,集装箱化后,不同企业的资源利用率差异很大,少则不足10%,多则高达60%-70%。除了企业本身业务属性不同外,腾讯云原生团队还对样本客户进行了深入调研和访谈,了解到不同企业架构的部署存在较大差异,这是造成企业的资源利用率不同。
。资源利用率低的企业在使用容器时,前期只注重解决与容器的环境一致性问题。
事实上,它们并没有充分利用容器的弹性能力。另外,在部署模式上,单节点容器密度不高,导致整体资源利用率与容器化转型前相差不大。
从实际数据来看,即使业务已经容器化,一定时间内的资源使用情况仍然存在波峰波谷不均匀的情况。因此,为了保证服务的可靠性和稳定性,一般会根据流量高峰期来配置资源规格,以保证业务在高并发时有良好的性能运行。
但在高峰期之后(一般是一小部分时间),当业务恢复到峰谷状态时,实际使用的资源只有一小部分,造成峰谷期间大量的资源浪费期间。资源利用率高的企业,业务容器化后,更多地采用业务混合部署,大大提高容器部署密度,使得平均单节点容器密度为1:10,从而提高资源利用率。
同时,企业如果充分利用容器的弹性扩展能力,资源利用率也能得到大幅提升。对于有峰有谷的非容器化服务,即使配置了弹性伸缩能力,启动速度也只有分钟级,仍然难以保证短时间内启动大规模计算资源应对高并发需求。
容器可以秒级启动,使容器化服务具有高密度和弹性,可以轻松应对突发访问。在这种商业模式中,容器化利用了不同级别的自动弹性伸缩能力,从而解决了低谷时期的资源浪费问题。
容器弹性伸缩能力如下: HPA(Horizo??ntal Pod Autoscaler):当 pod 数量达到用户定义的阈值(CPU 利用率、CPU 使用率等)时,在 30 秒内自动扩缩容,当 Pod 数量达到上限时触发由于节点资源限制,Pod 处于待处理状态。节点级扩缩容,即CA(Cluster Autoscaler):两种资源粒度的弹性伸缩能力,保证客户在正确的时间分配合适的资源,最大化资源的高效利用。
另外,基于K8s的调度编排能力,支持根据Pod的实际负载进行动态调度,提高节点资源利用率;当线上服务低负载运行时,可以同时部署“对延迟不敏感”的离线服务,提高资源利用率。提高资源利用率的关键点。
腾讯内部容器化业务资源利用率也是衡量容器化深度的关键指标。基于腾讯云原生团队在容器弹性伸缩方面的实践经验,通过不同维度的弹性能力扩展来查看容器化资源。
提高利用率的关键点首先看一下 Kubernetes 各个组件的主要功能: HPA:维持应用程序的期望状态(通过调整应用程序副本的数量) VPA:(Vertival Pod Autoscaler)估计实际的 Pod 量应用程序使用的资源调度:驱动应用程序引擎CA从期望状态到资源期望状态:维持资源期望状态(通过调整节点数量) image(7).png 那么什么是理想的弹性缩放?什么样的弹性伸缩可以帮助我们更好的节省成本?简单来说,就是在用户需要的时候提供合适的资源。如何保证在需要的时候能够扩展?相关部件必须足够灵敏并快速响应。
如何确保所提供的资源是合适的?计算 StatusApp/StatusRes 时要精确。至此,弹性伸缩的两个核心问题就可以明确了: 关键点一:灵敏度,可以从HPA扩容速度、CA扩容速度、节点供给速度、业务扩容方式等方面进行提升。
关键点2:准确性,从应用的期望状态和资源的期望状态出发,从提高CA扩展的准确性/VPA推荐请求的准确性的角度进行改进。资源利用成熟度模型 基于本次调查的数据分析,腾讯云原生团队提出了容器化资源利用成熟度模型。
第一阶段:传统部署模式。为了应对不同时间段计算资源的不同使用情况,业务必须根据最高资源使用的峰值加上一定的buff来购买基础设施,平均利用率下降。
第二阶段:简单的容器化改造后,业务上云并容器化。采用容器进行混合业务部署,一定程度上提高了资源利用率。
第三阶段:业务微服务化转型。业务可以利用容器和云的弹性伸缩能力,结合Kubernetes的HPA、VPA、CA等能力,在高峰时扩容,在空闲时减容,极大提高资源利用率。
第四阶段:充分利用云和容器化的弹性,提高弹性伸缩的灵敏度和准确性。如果有离线服务,就会离线混合,以最大化平均资源利用率。
本后续文章通过企业实际业务数据来阐述容器化和计算资源利用的现状和基本原理。为了帮助后续企业利用云原生技术降低业务成本、提高效率,腾讯云容器团队将推出一系列《kubernetes降本增效标准指南》,包括但不限于提高资源利用率的建议、使用多维度的建议等弹性资源、提高智能负载建议的准确性、腾讯云原生成本管理指南等。
同时还计划推出一系列帮助降低容器化成本的能力套件,如容器成本构成视图、成本预测等评估工具、成本监控工具、成本时序报告等,并支持智能负载值建议和成本感知调度。 、竞价实例回收动态控制器等,敬请期待。
特别感谢以下客户为本报告提供真实数据支持。作业帮致力于为全国中小学生提供全学科学习辅导服务。
其累计用户设备安装量已超过8亿,月活跃用户约为1.7亿。是中小学在线教育领先品牌。
今年4月至5月,作业邦逐步将部分业务接入腾讯云容器服务TKE,涉及数千个业务应用、数十万个计算核心。它的规模极其庞大且复杂。
除了稳定性和效率之外,作业邦邦还对成本表示了极大的关注。我们以资源利用为出发点。
高峰时段客流量是平时高峰时段的20倍,低高峰时段(凌晨至5点左右)的数百倍,客流量上升曲线陡峭。因此,JobBang对资源的弹性调度能力要求很高。
在这个应用场景中,TKE提供了弹性伸缩的整体解决方案。它使用HPA根据设定的阈值调整Pod副本数量,并与CA结合控制节点数量。
保证业务在高并发下仍然能够以良好的性能运行。同时,通过离线混合部署、共享GPU等解决方案,容器化后,节点平均CPU利用率从10%提升到30%,成本下降40%,接口响应提升10% 。
快看漫画是漫画行业领先的APP。目前漫画市场份额超过50%,APP用户总数超过2亿,MAU超过1万。
该公司于12月开始接入容器服务TKE。到目前为止,近千个服务中90%的应用程序都在容器中运行。
快看漫画容器化之前,由于需要应对活动、节假日、热门作品等多种场景,业务流量呈突发性、周期性。因此,核心业务不得不有数倍的产能冗余,资源无法最大化。
需要人工扩缩容,人工干预程度高。 TKE针对此类场景提供服务分级,优化Request资源;扩展能力、HPA、计划扩展;离线任务、业务低谷执行等产品能力。
容器化后,资源利用率提升30%,成本下降40%以上。 。
云集是一个社交型会员电商平台,为电商平台会员提供美妆个护、移动数码产品、母婴玩具、生鲜水果等多个品类的商品选择。年底接入了TKE,现在常用的应用基本已经容器化了。
云集反映,在容器化之前,机器的平均CPU利用率在高峰期不会超过10%,这是极其浪费的。容器化后,整体CPU利用率达到16.6%,成本节省超过50%。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-06
06-18
06-17
06-18
06-21
06-21
06-06
最新文章
【玩转GPU】ControlNet初学者生存指南
【实战】获取小程序中用户的城市信息(附源码)
包雪雪简单介绍Vue.js:开学
Go进阶:使用Gin框架简单实现服务端渲染
线程池介绍及实际案例分享
JMeter 注释 18 - JMeter 常用配置组件介绍
基于Sentry的大数据权限解决方案
【云+社区年度征文集】GPE监控介绍及使用