绱佳获近千万元天使轮融资
06-17
1。
基本概念 可靠性是指系统在一定时间和条件下无故障运行的能力或可能性。
一般用MTBF(平均故障间隔时间)来衡量。
在系统设计之初,可靠性常常作为非功能性需求被边缘化甚至被忽视。
当我们再次提到可靠性时,我们并没有意识到我们已经遭受了惨重的损失。
云上的可靠性建设具有天然的优势:首先,可靠性要求架构具有高可用性,包括多可用区、应用程序的多区域部署,甚至异地多活动;数据需要考虑多副本容灾能力,通过集群或者分片来提高数据可用性。
作为云上的基础资源或者组件,这些自然是得到支持并且随时可用的。
其次,为了进一步提高可靠性,云还提供了相当多的功能和自助服务。
基于此,用户可以构建多层次的可观测能力,实现业务的自动故障发现、自动诊断和自愈能力。
同时,通过混沌工程可以提前发现生产环境中的潜在风险。
与传统IDC相比,云计算的超大规模数据中心和多可用区支持,使用户能够基于云快速构建同城容灾、异地容灾等服务,成本低、扩展性强、可用性高。
可靠性(包括数据)高可用性解决方案。
云计算使用虚拟化和其他技术来保护底层物理硬件免受客户的影响。
同时,云厂商利用虚拟化、热迁移等技术,减少甚至避免物理硬件故障造成的服务损坏,进一步提高用户服务的连续性。
和高可用性。
投资可靠性的成本远小于不做可靠性造成的环境因素的损失。
一般情况下,高可靠性、低成本、低复杂度是一个不可能三角。
很多时候,我们倾向于选择在提高可靠性的前提下,在成本和复杂度上进行适度的投入。
2. 建立可靠性管理能力,避免商业价值损失:根据Statista对全球领先企业停机损失的统计,40%的IT公司因停机而损失10,000美元/小时。
比如每年增长6%,IT企业则下降17%。
机器损耗超过10,000/小时。
建立良好的可靠性能力最直接的好处就是尽可能避免此类损失。
提供确定性:可靠性好意味着质量均衡,可以提供更长期的确定性服务,赢得客户的信任;用户可以在此基础上建立自己的业务,少担心不确定性的影响,集中精力做好业务。
为业务增加价值:在某些服务业务中,可靠性类似于质量。
在其他条件相同的情况下,品质好的价值更高;良好的业务(服务)的稳定性是更具竞争力的表现。
3. 构建可靠的云作为多个层面的基础设施。
由于规模效应,我们积累了大量的业务可靠性经验,并通过产品化惠及每一位云客户。
在物理资源层,多个区域提供资源的统一供给,方便客户根据业务、架构和成本选择最佳资源。
在SaaS层,提供企业级运维免维护服务,业务可以根据需要轻松集成到系统中,基本开箱即用。
可靠性工程涉及部署方式、系统架构、应用拓扑、代码质量等多个方面。
除了不断引入这些层面探索的最佳实践之外,还需要通过工程的方式来观察整体业务,常态化混沌工程能力。
将其引入日常运营中,提前、持续地发现隐患,并定期进行管理。
1)构建多区域容灾架构。
与传统运维相比,云厂商不仅提供超大规模的数据中心,还提供全球多区域服务。
每个地域都是完全独立的数据中心,多个地域之间是完全互联的。
独立的。
每个区域有多个可用区,每个可用区之间的电力和网络相互独立。
云计算具有规模和可靠性的天然优势。
对于可靠性要求较高的应用,通常会部署在同城的多个机房,以避免单个机房因网络、电源等物理故障而导致应用整体不可用。
在该场景下,在云上,用户可以使用同一地域的多个可用区进行部署,并利用多个可用区的互操作能力来完成应用间的通信。
同时,多个可用区的物理隔离极大地提高了应用程序的性能。
灾难恢复能力。
对于部署在多个可用区的服务,云服务提供商不仅会在云资源的供应上提供多个物理隔离的可用区,还会开放OpenAPI能力,供用户查询和控制每个可用区可以购买的不同类型的云资源。
可用区。
,用户可以基于OpenAPI服务能力构建自己的多可用区部署能力。
超大型、重要的商业系统对系统的容灾能力提出了更高的要求。
同城多个机房解决机房维度上的单点问题,无法解决某个城市因天灾人祸造成的城市级故障。
在这种场景下,可以采用云上多区域部署的方式。
另外,多个Region之间的物理距离要适当拉远,避免单Region故障导致整体服务不可用,提高应用的最终高可用性。
与传统IDC异地容灾解决方案相比,云然的多区域支持将大大简化用户跨区域运营服务的成本。
针对高端用户,云服务商会提供GSLB全局负载均衡以及相应的CDN服务,协助支撑基础设施的高可用。
他们还将提供 AutoScaling 功能以实现自动化运维。
用户可以配置AutoScaling策略,实现自动化多区域、多可用区的自动化部署,保证服务基础设施始终处于高可靠状态。
2)数据备份和容灾能力 云服务商在数据高可靠性方面具有天然优势,不仅体现在数据可靠性极高的多副本存储和SLA保障上,而且以服务化的方式为用户提供服务。
暴露OpenAPI,用户可以利用云厂商提供的快照、镜像等能力构建数据备份和容灾的高可靠能力。
快照能力是云厂商提供的数据备份的核心产品能力。
用户可以使用快照来备份系统盘和数据盘。
它还支持增量备份模式,帮助客户节省存储成本。
快照支持手动备份和自动备份。
建议使用自动备份的方式来实现快照的自动生成和轮转。
针对特定业务场景,您可以手动指定快照的生成和保留时间,或者设置为永久保留。
当系统发生故障,需要将磁盘(系统盘或数据盘)数据恢复到历史某一点时,可以利用快照回滚能力,对指定磁盘进行回滚,通过以下方式提高数据的容灾能力:快照数据的恢复能力。
。
同样,用户可以自定义镜像,将快照的操作系统和数据环境信息完整包含在镜像中。
然后使用自定义镜像创建多个具有相同操作系统和数据环境信息的实例。
对于多区域容灾架构,当用户实现多区域部署时,可以利用镜像的跨区域复制能力,实现镜像备份的分布,从而实现多区域部署的数据备份。
3)应用可观测能力 为了帮助用户更快、更直观、更简单地发现系统内部问题,云服务厂商提供了完善的工具和服务能力。
基于此,用户可以构建不同级别的可观测能力并同时使用。
云厂商提供自助服务,可以快速发现云资源甚至自身业务服务的问题。
为了支持不同层次的用户需求,云厂商通常提供以下几类监控服务能力:云资源监控、应用层APM、业务层监控。
云资源监控:监控应用所依赖的底层资源,如CPU、内存、网络等指标的资源使用情况。
通过基础的监控,用户可以自我发现云资源的异常情况,这是最基本的可观察能力。
云厂商还将提供云资源的诊断能力。
用户可以一键启动云资源诊断,自行发现云资源可能出现的问题。
此外,云厂商将提供运维事件能力。
基于云提供的EventBridge事件总线,用户可以通过自动化编排能力感知云资源的异常事件,完成定制化的自动化运维动作。
应用层APM:基于云资源部署的具体应用场景,包括应用指标性能(Metric)、系统调用链(Tracing)、日志监控(Logging)三个维度,如应用JVM指标、线程池监控、RPC等服务成功率、延迟、错误率等业务层监控:应用层监控数据一般通过pull/push方式在数据聚合服务上计算,产生业务指标数据。
指标数据异常检测也是云上提供的基础服务。
用户可以选择传统的曲线变化、同比和环比异常,甚至先进的智能基线比较自动检测功能来监控自己的业务。
云资源监控只能检测云资源的问题。
对于部署在云上的大规模服务来说,监控和定位应用层问题的能力更加复杂和困难。
云需要具备应用维度的监控定位能力,以及应用维度的标准监控能力,比如服务器端应用运行时、线程池、数据库、中间件、接口调用等。
在前端应用中,必须能够从页面打开(测速)、页面稳定性(JSError)和外部服务调用成功率(API)等多个维度来监控页面的健康状况。
从生态角度来看,这些能力必须提供Prometheus、Kubernetes等开源产品形态。
除了应用监控之外,云链路追踪TracingAnalysis为分布式应用开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析等工具,可以帮助开发者快速分析诊断分布式应用架构下的性能瓶颈提高微服务时代的开发和诊断效率。
云服务厂商将通过产品以服务化的方式提供日志服务。
用户将使用日志服务来收集和整合日志、数据,并基于此进行记录和计量。
用户自定义应用系统的内容和格式,通过日志服务进行采集,并在日志服务中配置定制的细粒度监控系统,以观察自己的业务运行情况。
同时,他们配置预警系统,构建用户级问题发现和定位能力。
4)弹性容错 除了基础设施的多区域部署、数据的多副本备份和容灾之外,云服务厂商通常还会提供应用服务的容错能力,帮助用户构建具有弹性和容错能力的分布式系统。
弹性容错:分布式系统最核心的两个弹性容错能力是流量控制和降级。
通过流控来保护应用过载,通过降级来容忍部分业务损失,以换取整体可靠性。
传统的流量控制方法依赖于人工判断和干预。
高层的方法是通过监控系统自动发现热点或异常流量,自动选择自适应过载保护或设置自动降级策略并执行。
混沌工程与故障演练:混沌工程(ChaosEngineer)是一种提高分布式系统弹性的工程实践。
通过主动制造故障,测试系统在各种压力下的行为,可以提前识别生产环境中潜在的故障并避免故障。
真的发生了。
故障演练是遵循混沌工程实验原理的实践之一。
它建立了标准演练流程,包括准备阶段、执行阶段、检查阶段和恢复阶段。
通过四阶段流程,涵盖了用户从规划到修复的完整演练流程,并通过可视化清晰地呈现给用户。
结合观测能力和预警能力,利用混沌工程完成故障检查、故障注入和系统稳定性测量。
5)综合分析方法:FMEA是设计高可靠系统的复杂过程。
由于异常场景较多,只要留有余地,就会存在隐患。
根据墨菲定律,“可能出错的事情最终会出错。
”因此,建议采用FMEA方法对系统进行全面分析。
FMEA(失效模式和影响分析)是指失效模式和影响分析。
具体分发步骤如下:给出初始架构设计图。
假设架构中的一个组件发生故障。
分析故障对系统功能的影响。
根据分析结果(ROI),判断架构是否需要优化。
4.可靠性衡量标准如果您想评估企业可靠性能力的成熟度,建议前往第10章“CloudOps成熟度自评估”。
5、工具推荐 1)阿里云相关工具 阿里云提供从基础设施可靠性、数据可靠性到应用可观测性、APM、自助诊断、弹性容错等服务可靠性的完整产品解决方案。
用户可以利用这一系列的能力来提高自身服务的可靠性。
全球超级数据中心阿里云基础设施目前覆盖全球四大洲,开放并运营25个公有云区域和80个可用区。
此外,还拥有金融云、政务云4个专属区域,并致力于不断新增区域。
规划和建设。
通过全球布局、超大规模数据中心、持续投入、深度布局,确保阿里云的基础设施扎实可靠。
快照和自定义镜像从块存储技术来看,阿里云的块存储设备具有高性能、低延迟的优势,同时还提供极高的SLA来保证数据的可靠性。
云盘采用三份分布式副本。
机制为ECS实例提供99%的数据可靠性保证。
从数据备份和容灾的角度来看,阿里云提供了Snapshot 2.0技术,提供更高的快照配额、更灵活的自动任务策略,进一步降低对业务I/O的影响。
同时,增量快照功能可以以更快的快照创建速度和更小的空间占用,帮助用户提高效率、降低成本。
用户可以通过自定义快照策略实现自动快照备份,以极低的成本完成数据备份。
在故障场景下,用户可以通过控制台或OpenAPI手动或自动完成快照回滚和数据恢复。
同样的原则也适用于自定义图像。
用户可以通过镜像制作、复制、恢复来完成数据的备份、传输和恢复。
自助排查 阿里云的ECS、RDS、虚拟网络等基础云产品和服务提供了云资源侧的自助诊断能力。
以ECS和DAS诊断为例,对此进行简单介绍。
ECS自助故障排除:ECS自助故障排除提供实例健康诊断、运行异常诊断、安全组规则检测、网络连通性诊断等功能,可以帮助用户全面诊断操作系统配置、磁盘状态、网络配置、网络状态实例的。
等待配置异常,并提供修复建议,帮助用户及时处理潜在风险。
数据库自治服务(DAS)是基于机器学习和专家经验,实现数据库自我感知、自我修复、自我优化、自我运维、自我安全的云服务。
帮助您消除因手动操作导致的服务故障,有效保护数据库。
服务稳定、安全、高效。
云监控 CMS云监控服务可用于收集获取阿里云资源的监控指标或用户自定义的监控指标,检测服务可用性,并针对指标设置报警。
让您全面了解阿里云的资源使用情况、业务运行状况和健康状况,及时响应异常报警,保障应用的顺利运行。
基础监控:云上云下统一主机监控方案,100+云产品监控。
网络监控:基于私有网络和公共网络的网络可用性监控。
业务监控:通过日志监控和自定义监控,将业务数据采集到云端,进行统一监控和管理。
日志服务SLS 日志服务(SLS)是一个云原生观察分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时的平台服务。
提供一站式数据采集、处理、分析、报警可视化和下发功能,全面提升云原生观测分析平台的研发、运维、运营和安全场景的数字化能力。
数据采集??:支持Log/Metric/Trace统一采集,支持服务器/应用/移动设备/网页/IoT等数据源接入,支持阿里云产品/开源系统/云间/云外的接入记录数据。
数据处理:通过灵活的语法,无需编写代码即可支持各种复杂的数据提取、解析、丰富、分发等需求,支持结构化分析。
查询分析:提供关键字、SQL92、AIOps函数等方法,支持文本+结构化数据的实时查询分析、异常检查和智能分析。
监控报警:具有丰富可视化组件,可以创建所见即所得的交互式分析仪表板。
还支持实时可编程报警功能,让您随时随地掌握业务动态。
日志审计:实时自动化集中采集账户下的云产品日志并审计,支持合规存储、查询以及升级所需的信息汇总报告。
■ 交付和消费:与各种实时计算和服务实时对接,可实现定制化消费。
支持数据交付到存储服务,支持压缩、自定义Partition、行列等多种存储格式。
应用实时监控服务ARMS应用实时监控服务(ARMS)是一款应用性能管理产品,包含前端监控、应用监控和Prometheus监控三个子产品,涵盖浏览器、小程序、APP、分发性能对应用程序和容器环境的管理可以帮助用户实现全栈性能监控和端到端的全链路跟踪和诊断。
获取实时见解以立即提高应用程序性能。
前端、应用到底层机器、应用实时监控服务ARMS提供完整的数据磁盘监控,展示请求量、响应时间、FullGC次数、慢SQL和异常次数、应用间调用次数和时间等重要关键指标消费等,随时了解您的应用程序的运行状况,以确保为您的用户提供高质量的体验。
全面掌握Web端性能数据,提供优质体验。
应用实时监控服务ARMS前端监控专注于Web端体验数据监控。
它从页面打开速度、页面稳定性和外部服务调用成功率三个方面监控网页的健康状况,帮助您减少页面加载时间,减少JS错误。
,有效提升用户体验。
Prometheus监控,云原生时代一站式体验。
应用实时监控服务ARMS提供Prometheus完全托管的云服务,无需安装和运维。
它可以一键启动,开箱即用,可以监控整个市场。
链路追踪可以帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈,提高微服务时代的开发和诊断效率。
分布式调用链查询与诊断:还支持微服务程序HTTP、Dubbo、HSF等接口进行跟踪和PaaS调用,如跟踪对数据库、NoSQL、MQ等的调用。

应用性能实时汇总:可以通过跟踪整个应用程序中的用户请求以及构成应用程序的各个服务和资源来实时汇总。
分布式拓扑动态发现:可以收集您所有的分布式微服务应用及相关PaaS产品的分布式调用信息。
应用高可用服务 AHAS应用高可用服务(Application High Availability Service)专注于提高应用和业务的高可用能力。
主要提供流量保障、故障演练、多活容灾、倒换预案四大核心能力。
通过各个模块,用户可以快速、低成本地全面提升营销活动场景和核心业务场景的业务稳定性和弹性。
流量监控与防护:提供包括QPS、并发线程、响应时间(RT)、异常、CPU/负载、网络流量等指标的秒级监控能力。
同时提供应用级流量控制、应用间降级隔离、单机自适应过载保护、热点流量检测与防控、脉冲流量削峰填谷、慢法/SQL自动熔断、分布式网关保护:支持Nginx/Ingress网关层流量控制以及Spring Cloud Gateway、Zuul等常用API网关的流量保护,拦截流量入口突然增加的流量,防止下游服务被淹没。
开关计划:支持动态管理代码中的配置项,根据需要开启或关闭应用程序的某些功能,或者设置某个性能指标的阈值。
通常用于设置黑白名单、运行时动态调整日志级别、业务功能降级等场景。
混沌工程和故障演练:提供一站式架构分析、故障检查、故障注入、系统稳定性测量和等功能帮助用户增强分布式系统的容错性和可恢复性,帮助系统平滑迁移到云端。
多活容灾:支持分布在多个站点的系统同时对外提供服务,保证故障场景下业务快速恢复。
横向包含容灾架构从线上、运维、演练、切流、升级到线下的全生命周期。
纵向包含了业务流量的完整路径,从流量接入,到基于服务的调用、异步消息,最后到数据存储 2)阿里云与行业相关工具对比/对比表 《CloudOps云上自动化运维 白皮书2.0》系列文章一:前言:提案CloudOps成熟度模型CARES《CloudOps云上自动化运维 白皮书2.0》系列文章二:CloudOps的主要衡量维度和定义《CloudOps云上自动化运维 白皮书2.0》系列文章三:CloudOps成熟度模型总体及层次描述《CloudOps云上自动化运维 白皮书2.0》系列文章四:自动化能力自动化《CloudOps云上自动化运维 白皮书2.0》系列第五篇:弹性能力弹性《CloudOps云上自动化运维 白皮书2.0》系列文章七:安全与合规能力安全《CloudOps云上自动化运维 白皮书2.0》系列文章八:成本与资源量化管理能力成本《CloudOps云上自动化运维 白皮书2.0》系列文章九:CloudOps成熟度模型全景《CloudOps云上自动化运维 白皮书2.0》系列第十篇:CloudOps成熟度自我评估 尊敬的行业专家和引领浪潮的企业家,阿里云正在进行“客户云消费趋势”调查。
完成10个问题的调查问卷(只需2至3分钟,每家公司只能填写一次)。
您将有机会获得小礼物!问卷请见链接:#阿里云#创业者计划#中小企业服务#创新创业 9月21日,阿里云正式启动阿里云创业者计划,联合知名投资机构、加速器、创意服务机构和创新创业者大企业的力量。
旨在为初创企业提供全方位的赋能和服务,帮助其在阿里云上快速建立自己的业务,开启智能时代的创业新范式。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-17
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态