全球先进公司建成全球首座8英寸氮化镓代工厂
06-06
背景 腾讯云容器服务TKE自2015年提供以来,已经服务了数千家企业构建容器化平台。一方面,腾讯云容器团队积累并完善了容器服务提供它们时。
我们开发了一套万级K8s集群的etcd管理平台,支撑腾讯云容器产品的稳定运行。这个平台还支持云监控、API网关、开心游戏等腾讯内部业务,另一方面,我们积极参与etcd社区,对我们在大规模实践中遇到的问题和解决方案提供反馈和贡献。
是社区年度最活跃贡献团队之一。容器团队从很多客户访谈中了解到,很多客户并不想自己操作etcd,而是希望利用腾讯云容器服务内部etcd平台的能力和经验。
因此,我们推出了腾讯云原生etcd服务。腾讯云原生etcd服务介绍 什么是etcd? etcd 是一个分布式、高可靠的键值存储,可以容忍集群中部分节点故障,只要超过一半的节点存活就可以对外提供服务。
主要应用于元数据存储、服务发现、分布式选举等场景,如Kubernetes、CoreDNS等。基于etcd提供的Watch机制,可以轻松实现发布、订阅等功能。
为什么推出etcd服务容器团队?在拜访客户时我们了解到,很多客户对etcd的了解不够,导致在实际使用和运维过程中出现了很多问题。例如,有些客户使用v3 API写入数据,但使用v2 API进行数据备份。
部分客户在集群恢复时指定的参数存在问题,导致集群无法正常重建,从而影响业务恢复。更重要的是,由于自动压缩参数配置存在问题,频繁使用defrag进行碎片整理。
也有很多业务因为使用姿势问题导致etcd性能严重下降。频繁的leader选举间接导致业务不可用、数据丢失等。
此外,自建etcd的用户往往需要维护一套etcd监控报警系统和备份恢复机制,增加了运维负担。自建etcd集群很容易忽视监控和备份机制,往往是在问题发生之后才意识到。
。虽然业界已经有很多基于K8s的etcd管理方案,一定程度上减轻了运维负担,比如etcd-operator(目前不再维护)、基于helm部署的etcd等,但这些项目的重点是可用性和易用性。
性方面没有任何保证,而且在出现问题后往往更难恢复。腾讯云容器团队目前在线运维数万个K8s集群,后端使用数千个etcd集群作为支撑存储。
在保证etcd稳定运行的过程中,我们遇到了很多问题,也积累了大量的数据。实践经验,孵化了自动化的etcd管理平台:包括完善的监控报警、备份恢复和容灾机制,强大的巡检能力可以帮助我们进行热点数据分析,混沌工程帮助我们主动发现一些隐藏的Bug、可控的变更和升级机制让我们能够快速升级有问题的版本。
目前,我们已为腾讯内部多个业务团队提供etcd服务,保障业务快速上线和稳定运营。为了服务更多的客户,我们推出了云原生etcd产品服务,提供我们内部的能力。
我们真诚地希望能够帮助您解决etcd的运维负担。腾讯云原生etcd服务介绍。
腾讯云容器团队提供的云原生etcd服务可以帮助您:一键部署经过腾讯内部大规模验证的高可靠高性能etcd集群,支持跨可用区容灾能力,专业团队为您提供优化的性能配置。集成云原生监控能力,提供完善的监控和报警机制,并提供etcd的日常运维管理能力: 备份与恢复:支持自动备份和手动备份。
当发生灾难时,您可以选择从备份恢复来升级或减少集群配置。集群扩缩容:借助腾讯云的计算和存储资源,可以轻松快速地调整etcd集群配置和节点数量。
etcd版本升级:帮助您快速安全地跟进社区bug修复版本更新。版本上线前会经过内部大规模场景验证,避免etcd自身bug带来的问题。
隐患。一键部署etcd集群集群云原生监控除原生指标外,集成云原生监控还支持扩展检查指标,如数据一致性检查、集群健康度检测、业务写入QPS检查等。
etcd集群管理 腾讯云原生etcd服务产品优势 易于使用的托管部署 您可以在腾讯云容器服务控制台中一键创建高可靠、高性能的etcd集群,并在几分钟内启动生产就绪的etcd集群。底层资源基于K8s部署,通过算子进行管理。
支持将节点分散到不同的可用区。在3个可用区的情况下,单个可用区的故障不会影响集群的正常服务。
节点发生故障后,可以快速自愈。 ,以尽量减少不可用时间。
数据持久存储于腾讯云云硬盘,具备多副本容灾能力。你不需要过多关注etcd的复杂参数。
我们会根据您的集群配置自动适应合适的参数配置。安全数据访问支持启用https双向认证和鉴权,让数据访问更加安全。
支持通过安全组限制访问来源。完整的数据备份/恢复 您可以在控制台创建集群时或创建集群后设置etcd备份策略。
支持定时数据备份到腾讯云对象存储COS服务。您也可以手动触发备份。
如果集群数据出现异常需要回滚,可以通过COS备份来恢复集群。全面的监控和报警无缝对接腾讯云原生监控服务(托管的prometheus服务),默认提供了您需要关注的各种性能指标和可用性指标。
您还可以聚合您需要的监控指标和面板,帮助您更好地监控。 etcd 集群状态。
热点数据分析 除了默认的监控能力外,我们还提供热点数据分析和慢查询分析能力,可以帮助您更好地分析异常请求的来源,及时发现问题并进行优化。完善的保障机制云原生etcd服务的高可靠性让您可以将数据安全地放置在云端,无需担心数据丢失。
它还简化了传统运维工作中确保数据高可靠性所需的额外工作量和额外IT。投入成本。
可靠的版本验证和更新机制版本上线前会进行全面的内部测试和大规模验证,并通过混沌工程进行故障演练,确保版本的稳定性。全流程运维服务,您无需担心云原生etcd服务的安装、部署、版本更新和故障排除。
容器团队让您免除后顾之忧。内测邀请诚挚邀请您参与腾讯云原生etcd服务的内测。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-06
06-18
06-18
06-17
06-18
06-18
06-18
06-17
最新文章
【玩转GPU】ControlNet初学者生存指南
【实战】获取小程序中用户的城市信息(附源码)
包雪雪简单介绍Vue.js:开学
Go进阶:使用Gin框架简单实现服务端渲染
线程池介绍及实际案例分享
JMeter 注释 18 - JMeter 常用配置组件介绍
基于Sentry的大数据权限解决方案
【云+社区年度征文集】GPE监控介绍及使用