首页 > 科技未来 > 内容

可靠性能力可靠性

发布于：2024-06-18 编辑：匿名来源：网络

1。

基本概念可靠性是指系统在一定时间和条件下无故障运行的能力或可能性。

一般用MTBF（平均故障间隔时间）来衡量。

在系统设计之初，可靠性常常作为非功能性需求被边缘化甚至被忽视。

当我们再次提到可靠性时，我们并没有意识到我们已经遭受了惨重的损失。

云上的可靠性建设具有天然的优势：首先，可靠性要求架构具有高可用性，包括多可用区、应用程序的多区域部署，甚至异地多活动；数据需要考虑多副本容灾能力，通过集群或者分片来提高数据可用性。

作为云上的基础资源或者组件，这些自然是得到支持并且随时可用的。

其次，为了进一步提高可靠性，云还提供了相当多的功能和自助服务。

基于此，用户可以构建多层次的可观测能力，实现业务的自动故障发现、自动诊断和自愈能力。

同时，通过混沌工程可以提前发现生产环境中的潜在风险。

与传统IDC相比，云计算的超大规模数据中心和多可用区支持，使用户能够基于云快速构建同城容灾、异地容灾等服务，成本低、扩展性强、可用性高。

可靠性（包括数据）高可用性解决方案。

云计算使用虚拟化和其他技术来保护底层物理硬件免受客户的影响。

同时，云厂商利用虚拟化、热迁移等技术，减少甚至避免物理硬件故障造成的服务损坏，进一步提高用户服务的连续性。

和高可用性。

投资可靠性的成本远小于不做可靠性造成的环境因素的损失。

一般情况下，高可靠性、低成本、低复杂度是一个不可能三角。

很多时候，我们倾向于选择在提高可靠性的前提下，在成本和复杂度上进行适度的投入。

2. 建立可靠性管理能力，避免商业价值损失：根据Statista对全球领先企业停机损失的统计，40%的IT公司因停机而损失10,000美元/小时。

比如每年增长6%，IT企业则下降17%。

机器损耗超过10,000/小时。

建立良好的可靠性能力最直接的好处就是尽可能避免此类损失。

提供确定性：可靠性好意味着质量均衡，可以提供更长期的确定性服务，赢得客户的信任；用户可以在此基础上建立自己的业务，少担心不确定性的影响，集中精力做好业务。

为业务增加价值：在某些服务业务中，可靠性类似于质量。

在其他条件相同的情况下，品质好的价值更高；良好的业务（服务）的稳定性是更具竞争力的表现。

3. 构建可靠的云作为多个层面的基础设施。

由于规模效应，我们积累了大量的业务可靠性经验，并通过产品化惠及每一位云客户。

在物理资源层，多个区域提供资源的统一供给，方便客户根据业务、架构和成本选择最佳资源。

在SaaS层，提供企业级运维免维护服务，业务可以根据需要轻松集成到系统中，基本开箱即用。

可靠性工程涉及部署方式、系统架构、应用拓扑、代码质量等多个方面。

除了不断引入这些层面探索的最佳实践之外，还需要通过工程的方式来观察整体业务，常态化混沌工程能力。

将其引入日常运营中，提前、持续地发现隐患，并定期进行管理。

1）构建多区域容灾架构。

与传统运维相比，云厂商不仅提供超大规模的数据中心，还提供全球多区域服务。

每个地域都是完全独立的数据中心，多个地域之间是完全互联的。

独立的。

每个区域有多个可用区，每个可用区之间的电力和网络相互独立。

云计算具有规模和可靠性的天然优势。

对于可靠性要求较高的应用，通常会部署在同城的多个机房，以避免单个机房因网络、电源等物理故障而导致应用整体不可用。

在该场景下，在云上，用户可以使用同一地域的多个可用区进行部署，并利用多个可用区的互操作能力来完成应用间的通信。

同时，多个可用区的物理隔离极大地提高了应用程序的性能。

灾难恢复能力。

对于部署在多个可用区的服务，云服务提供商不仅会在云资源的供应上提供多个物理隔离的可用区，还会开放OpenAPI能力，供用户查询和控制每个可用区可以购买的不同类型的云资源。

可用区。

，用户可以基于OpenAPI服务能力构建自己的多可用区部署能力。

超大型、重要的商业系统对系统的容灾能力提出了更高的要求。

同城多个机房解决机房维度上的单点问题，无法解决某个城市因天灾人祸造成的城市级故障。

在这种场景下，可以采用云上多区域部署的方式。

另外，多个Region之间的物理距离要适当拉远，避免单Region故障导致整体服务不可用，提高应用的最终高可用性。

与传统IDC异地容灾解决方案相比，云然的多区域支持将大大简化用户跨区域运营服务的成本。

针对高端用户，云服务商会提供GSLB全局负载均衡以及相应的CDN服务，协助支撑基础设施的高可用。

他们还将提供 AutoScaling 功能以实现自动化运维。

用户可以配置AutoScaling策略，实现自动化多区域、多可用区的自动化部署，保证服务基础设施始终处于高可靠状态。

2）数据备份和容灾能力云服务商在数据高可靠性方面具有天然优势，不仅体现在数据可靠性极高的多副本存储和SLA保障上，而且以服务化的方式为用户提供服务。

暴露OpenAPI，用户可以利用云厂商提供的快照、镜像等能力构建数据备份和容灾的高可靠能力。

快照能力是云厂商提供的数据备份的核心产品能力。

用户可以使用快照来备份系统盘和数据盘。

它还支持增量备份模式，帮助客户节省存储成本。

快照支持手动备份和自动备份。

建议使用自动备份的方式来实现快照的自动生成和轮转。

针对特定业务场景，您可以手动指定快照的生成和保留时间，或者设置为永久保留。

当系统发生故障，需要将磁盘（系统盘或数据盘）数据恢复到历史某一点时，可以利用快照回滚能力，对指定磁盘进行回滚，通过以下方式提高数据的容灾能力：快照数据的恢复能力。

。

同样，用户可以自定义镜像，将快照的操作系统和数据环境信息完整包含在镜像中。

然后使用自定义镜像创建多个具有相同操作系统和数据环境信息的实例。

对于多区域容灾架构，当用户实现多区域部署时，可以利用镜像的跨区域复制能力，实现镜像备份的分布，从而实现多区域部署的数据备份。

3）应用可观测能力为了帮助用户更快、更直观、更简单地发现系统内部问题，云服务厂商提供了完善的工具和服务能力。

基于此，用户可以构建不同级别的可观测能力并同时使用。

云厂商提供自助服务，可以快速发现云资源甚至自身业务服务的问题。

为了支持不同层次的用户需求，云厂商通常提供以下几类监控服务能力：云资源监控、应用层APM、业务层监控。

云资源监控：监控应用所依赖的底层资源，如CPU、内存、网络等指标的资源使用情况。

通过基础的监控，用户可以自我发现云资源的异常情况，这是最基本的可观察能力。

云厂商还将提供云资源的诊断能力。

用户可以一键启动云资源诊断，自行发现云资源可能出现的问题。

此外，云厂商将提供运维事件能力。

基于云提供的EventBridge事件总线，用户可以通过自动化编排能力感知云资源的异常事件，完成定制化的自动化运维动作。

应用层APM：基于云资源部署的具体应用场景，包括应用指标性能（Metric）、系统调用链（Tracing）、日志监控（Logging）三个维度，如应用JVM指标、线程池监控、RPC等服务成功率、延迟、错误率等业务层监控：应用层监控数据一般通过pull/push方式在数据聚合服务上计算，产生业务指标数据。

指标数据异常检测也是云上提供的基础服务。

用户可以选择传统的曲线变化、同比和环比异常，甚至先进的智能基线比较自动检测功能来监控自己的业务。

云资源监控只能检测云资源的问题。

对于部署在云上的大规模服务来说，监控和定位应用层问题的能力更加复杂和困难。

云需要具备应用维度的监控定位能力，以及应用维度的标准监控能力，比如服务器端应用运行时、线程池、数据库、中间件、接口调用等。

在前端应用中，必须能够从页面打开（测速）、页面稳定性（JSError）和外部服务调用成功率（API）等多个维度来监控页面的健康状况。

从生态角度来看，这些能力必须提供Prometheus、Kubernetes等开源产品形态。

除了应用监控之外，云链路追踪TracingAnalysis为分布式应用开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析等工具，可以帮助开发者快速分析诊断分布式应用架构下的性能瓶颈提高微服务时代的开发和诊断效率。

云服务厂商将通过产品以服务化的方式提供日志服务。

用户将使用日志服务来收集和整合日志、数据，并基于此进行记录和计量。

用户自定义应用系统的内容和格式，通过日志服务进行采集，并在日志服务中配置定制的细粒度监控系统，以观察自己的业务运行情况。

同时，他们配置预警系统，构建用户级问题发现和定位能力。

4）弹性容错除了基础设施的多区域部署、数据的多副本备份和容灾之外，云服务厂商通常还会提供应用服务的容错能力，帮助用户构建具有弹性和容错能力的分布式系统。

弹性容错：分布式系统最核心的两个弹性容错能力是流量控制和降级。

通过流控来保护应用过载，通过降级来容忍部分业务损失，以换取整体可靠性。

传统的流量控制方法依赖于人工判断和干预。

高层的方法是通过监控系统自动发现热点或异常流量，自动选择自适应过载保护或设置自动降级策略并执行。

混沌工程与故障演练：混沌工程（ChaosEngineer）是一种提高分布式系统弹性的工程实践。

通过主动制造故障，测试系统在各种压力下的行为，可以提前识别生产环境中潜在的故障并避免故障。

真的发生了。

故障演练是遵循混沌工程实验原理的实践之一。

它建立了标准演练流程，包括准备阶段、执行阶段、检查阶段和恢复阶段。

通过四阶段流程，涵盖了用户从规划到修复的完整演练流程，并通过可视化清晰地呈现给用户。

结合观测能力和预警能力，利用混沌工程完成故障检查、故障注入和系统稳定性测量。

5）综合分析方法：FMEA是设计高可靠系统的复杂过程。

由于异常场景较多，只要留有余地，就会存在隐患。

根据墨菲定律，“可能出错的事情最终会出错。

”因此，建议采用FMEA方法对系统进行全面分析。

FMEA（失效模式和影响分析）是指失效模式和影响分析。

具体分发步骤如下：给出初始架构设计图。

假设架构中的一个组件发生故障。

分析故障对系统功能的影响。

根据分析结果（ROI），判断架构是否需要优化。

4.可靠性衡量标准如果您想评估企业可靠性能力的成熟度，建议前往第10章“CloudOps成熟度自评估”。

5、工具推荐 1）阿里云相关工具阿里云提供从基础设施可靠性、数据可靠性到应用可观测性、APM、自助诊断、弹性容错等服务可靠性的完整产品解决方案。

用户可以利用这一系列的能力来提高自身服务的可靠性。

全球超级数据中心阿里云基础设施目前覆盖全球四大洲，开放并运营25个公有云区域和80个可用区。

此外，还拥有金融云、政务云4个专属区域，并致力于不断新增区域。

规划和建设。

通过全球布局、超大规模数据中心、持续投入、深度布局，确保阿里云的基础设施扎实可靠。

快照和自定义镜像从块存储技术来看，阿里云的块存储设备具有高性能、低延迟的优势，同时还提供极高的SLA来保证数据的可靠性。

云盘采用三份分布式副本。

机制为ECS实例提供99%的数据可靠性保证。

从数据备份和容灾的角度来看，阿里云提供了Snapshot 2.0技术，提供更高的快照配额、更灵活的自动任务策略，进一步降低对业务I/O的影响。

同时，增量快照功能可以以更快的快照创建速度和更小的空间占用，帮助用户提高效率、降低成本。

用户可以通过自定义快照策略实现自动快照备份，以极低的成本完成数据备份。

在故障场景下，用户可以通过控制台或OpenAPI手动或自动完成快照回滚和数据恢复。

同样的原则也适用于自定义图像。

用户可以通过镜像制作、复制、恢复来完成数据的备份、传输和恢复。

自助排查阿里云的ECS、RDS、虚拟网络等基础云产品和服务提供了云资源侧的自助诊断能力。

以ECS和DAS诊断为例，对此进行简单介绍。

ECS自助故障排除：ECS自助故障排除提供实例健康诊断、运行异常诊断、安全组规则检测、网络连通性诊断等功能，可以帮助用户全面诊断操作系统配置、磁盘状态、网络配置、网络状态实例的。

等待配置异常，并提供修复建议，帮助用户及时处理潜在风险。

数据库自治服务（DAS）是基于机器学习和专家经验，实现数据库自我感知、自我修复、自我优化、自我运维、自我安全的云服务。

帮助您消除因手动操作导致的服务故障，有效保护数据库。

服务稳定、安全、高效。

云监控 CMS云监控服务可用于收集获取阿里云资源的监控指标或用户自定义的监控指标，检测服务可用性，并针对指标设置报警。

让您全面了解阿里云的资源使用情况、业务运行状况和健康状况，及时响应异常报警，保障应用的顺利运行。

基础监控：云上云下统一主机监控方案，100+云产品监控。

网络监控：基于私有网络和公共网络的网络可用性监控。

业务监控：通过日志监控和自定义监控，将业务数据采集到云端，进行统一监控和管理。

日志服务SLS 日志服务（SLS）是一个云原生观察分析平台，为Log/Metric/Trace等数据提供大规模、低成本、实时的平台服务。

提供一站式数据采集、处理、分析、报警可视化和下发功能，全面提升云原生观测分析平台的研发、运维、运营和安全场景的数字化能力。

数据采集??：支持Log/Metric/Trace统一采集，支持服务器/应用/移动设备/网页/IoT等数据源接入，支持阿里云产品/开源系统/云间/云外的接入记录数据。

数据处理：通过灵活的语法，无需编写代码即可支持各种复杂的数据提取、解析、丰富、分发等需求，支持结构化分析。

查询分析：提供关键字、SQL92、AIOps函数等方法，支持文本+结构化数据的实时查询分析、异常检查和智能分析。

监控报警：具有丰富可视化组件，可以创建所见即所得的交互式分析仪表板。

还支持实时可编程报警功能，让您随时随地掌握业务动态。

日志审计：实时自动化集中采集账户下的云产品日志并审计，支持合规存储、查询以及升级所需的信息汇总报告。

■ 交付和消费：与各种实时计算和服务实时对接，可实现定制化消费。

支持数据交付到存储服务，支持压缩、自定义Partition、行列等多种存储格式。

应用实时监控服务ARMS应用实时监控服务（ARMS）是一款应用性能管理产品，包含前端监控、应用监控和Prometheus监控三个子产品，涵盖浏览器、小程序、APP、分发性能对应用程序和容器环境的管理可以帮助用户实现全栈性能监控和端到端的全链路跟踪和诊断。

获取实时见解以立即提高应用程序性能。

前端、应用到底层机器、应用实时监控服务ARMS提供完整的数据磁盘监控，展示请求量、响应时间、FullGC次数、慢SQL和异常次数、应用间调用次数和时间等重要关键指标消费等，随时了解您的应用程序的运行状况，以确保为您的用户提供高质量的体验。

全面掌握Web端性能数据，提供优质体验。

应用实时监控服务ARMS前端监控专注于Web端体验数据监控。

它从页面打开速度、页面稳定性和外部服务调用成功率三个方面监控网页的健康状况，帮助您减少页面加载时间，减少JS错误。

，有效提升用户体验。

Prometheus监控，云原生时代一站式体验。

应用实时监控服务ARMS提供Prometheus完全托管的云服务，无需安装和运维。

它可以一键启动，开箱即用，可以监控整个市场。

链路追踪可以帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈，提高微服务时代的开发和诊断效率。

分布式调用链查询与诊断：还支持微服务程序HTTP、Dubbo、HSF等接口进行跟踪和PaaS调用，如跟踪对数据库、NoSQL、MQ等的调用。

可靠性能力可靠性

应用性能实时汇总：可以通过跟踪整个应用程序中的用户请求以及构成应用程序的各个服务和资源来实时汇总。

分布式拓扑动态发现：可以收集您所有的分布式微服务应用及相关PaaS产品的分布式调用信息。

应用高可用服务 AHAS应用高可用服务（Application High Availability Service）专注于提高应用和业务的高可用能力。

主要提供流量保障、故障演练、多活容灾、倒换预案四大核心能力。

通过各个模块，用户可以快速、低成本地全面提升营销活动场景和核心业务场景的业务稳定性和弹性。

流量监控与防护：提供包括QPS、并发线程、响应时间（RT）、异常、CPU/负载、网络流量等指标的秒级监控能力。

同时提供应用级流量控制、应用间降级隔离、单机自适应过载保护、热点流量检测与防控、脉冲流量削峰填谷、慢法/SQL自动熔断、分布式网关保护：支持Nginx/Ingress网关层流量控制以及Spring Cloud Gateway、Zuul等常用API网关的流量保护，拦截流量入口突然增加的流量，防止下游服务被淹没。

开关计划：支持动态管理代码中的配置项，根据需要开启或关闭应用程序的某些功能，或者设置某个性能指标的阈值。

通常用于设置黑白名单、运行时动态调整日志级别、业务功能降级等场景。

混沌工程和故障演练：提供一站式架构分析、故障检查、故障注入、系统稳定性测量和等功能帮助用户增强分布式系统的容错性和可恢复性，帮助系统平滑迁移到云端。

多活容灾：支持分布在多个站点的系统同时对外提供服务，保证故障场景下业务快速恢复。

横向包含容灾架构从线上、运维、演练、切流、升级到线下的全生命周期。

纵向包含了业务流量的完整路径，从流量接入，到基于服务的调用、异步消息，最后到数据存储 2）阿里云与行业相关工具对比/对比表《CloudOps云上自动化运维白皮书2.0》系列文章一：前言：提案CloudOps成熟度模型CARES《CloudOps云上自动化运维白皮书2.0》系列文章二：CloudOps的主要衡量维度和定义《CloudOps云上自动化运维白皮书2.0》系列文章三：CloudOps成熟度模型总体及层次描述《CloudOps云上自动化运维白皮书2.0》系列文章四：自动化能力自动化《CloudOps云上自动化运维白皮书2.0》系列第五篇：弹性能力弹性《CloudOps云上自动化运维白皮书2.0》系列文章七：安全与合规能力安全《CloudOps云上自动化运维白皮书2.0》系列文章八：成本与资源量化管理能力成本《CloudOps云上自动化运维白皮书2.0》系列文章九：CloudOps成熟度模型全景《CloudOps云上自动化运维白皮书2.0》系列第十篇：CloudOps成熟度自我评估尊敬的行业专家和引领浪潮的企业家，阿里云正在进行“客户云消费趋势”调查。

完成10个问题的调查问卷（只需2至3分钟，每家公司只能填写一次）。

您将有机会获得小礼物！问卷请见链接：#阿里云#创业者计划#中小企业服务#创新创业 9月21日，阿里云正式启动阿里云创业者计划，联合知名投资机构、加速器、创意服务机构和创新创业者大企业的力量。

旨在为初创企业提供全方位的赋能和服务，帮助其在阿里云上快速建立自己的业务，开启智能时代的创业新范式。

站长声明

标签：

上一篇：投资世界24小时 -拼多多市值再次超越阿里巴巴；腾讯跟进大机型价格战；常州A轮，估值50亿

下一篇：安徽安庆文旅产业迎来10亿元金融活力

小米科技创始人雷军：创业者永不退休，创业是一种生活态度

打造头条新闻近日，小米发布了视频专栏新年特别版《雷军请你超大杯》。下一集《慢慢来》，小米科技创始人雷军对话苏炳添。他表示，创业者不会退休，创业是一种人生态度。在下一集的视频中，雷军问苏炳添为什么能在32岁的时候取得这样的成就。苏炳添表示，说体育巅峰30岁就

06-18
电动汽车充电解决方案提供商智充科技获贝壳资本投资

据6月16日消息，电动汽车充电解决方案提供商北京智充科技股份有限公司（以下简称“智充科技”）今日宣布其B轮融资已获壳牌风险投资部门Shell Ventures（以下简称“壳牌资本”）注资。智能充电技术旨在扩展以满足快速扩张的市场对充电服务不断增长的需求。根据国际能源署（I

06-17
麦当劳的新广告全是马赛克，设计越不显眼，就越有吸引力？

除了覆盖物体，马赛克还能怎么用？麦当劳最近提交了一个完美的创意答案——用马赛克做广告。仔细看看下面的图片。你能说出它是什么吗？答案是炸薯条。你花了多长时间才认出它？如此有趣的想法也让不少人惊呼：一张马赛克图居然让我饿了。看到这个马赛克让我饿了。过去的

06-21
流行“阿童木鞋”：上天打不倒妖怪，但可以下地插秧

MSCHF，这个充满想象力的创意团队，又来搞事了！上次我们报道了出圈率爆款的“骨折鞋”，这简直就是创意鞋的流量磁石。这一次，他们故技重施，从无数人童年记忆中的动画片《人物：铁臂阿童木》中汲取灵感。铁臂阿童木的历史可以追溯到《铁臂阿童木》，是一部连载了16年的连

06-21
消息：丨美杰医疗获Mint天使基金1000万元独家投资

据投资界6月12日消息，据媒体报道，上海美杰医疗科技有限公司近日宣布完成天使轮融资1000万元，由薄荷天使基金独家投资。本轮融资将主要用于加速创新多模式肿瘤治疗系统的研发。美杰医疗是多模式肿瘤热物理治疗系统的开发商。该系统是根据生物传热传质实验室的研究成果开发

06-18
投资世界24小时 -女性，世界上财富突破千亿美元的第一人；段永平向浙江大学捐赠超10亿；保险资金一举筹集100亿

时间：1月2日周二随着欧莱雅股价再创历史新高，彭博亿万富豪指数显示欧莱雅集团掌门人、弗朗索瓦丝贝当古迈耶斯的个人财富(弗朗索瓦丝贝当古迈耶斯 (Francoise Bettencourt Meyers) 于 12 月 28 日达到 1 亿美元，成为世界第一。身家超过 1 亿美元的女性在该指数中排名第 12

06-18
纪源资本符绩勋：谨慎积极探索化妆品行业投资机会

近日，纪源资本经理合伙人符绩勋接受了清科专访。在提及3月份完成的对“优视科技”的投资时，符绩勋表示，移动互联网有很大的发展空间，未来还会考虑一些并购计划。 ” ? ? ? ? ? ? ? ? 纪源资本2016年投资了旅游分销技术服务商“汇通天下”。谈及世博会带来的巨大商机，符

06-18
天津设立千亿元规模新一代人工智能产业基金

据投资界5月16日消息，国家发改委、科技部、工信部信息化部、国家网信办、中国科学院、工程院、中国科协、天津市人民政府在天津市人民政府共同主办的第二届世界智能大会上宣布：规模1亿元的天津新一代人工智能技术产业基金即将设立。　　据悉，新一代人工智能技术产业基金

06-18
基石资本公布2018年募资成绩单：5只新基金+双创债，总规模逾100亿元

基石资本公布2018年募资成绩单：5支新基金+双创债，总规模超100亿元。年关即将过去，VC/PE机构迎来了一年的总结时刻。 12月14日，在新基金成立仪式上，基石资本正式宣布已完成每年总规模超1亿元的新基金募集，其中包括5支新基金：40亿元并购基金、 20亿元北城基石产业基金、

06-18
聚焦“北斗+”创新应用，北斗世界以高精度技术赋能传统产业

6月23日9时43分，我国利用长征三号乙运载火箭成功发射北斗系统首个北斗系统西昌卫星发射中心 55颗导航卫星，北斗三号最后一颗全球组网卫星。至此，北斗三号全球卫星导航系统星座部署已提前半年完成。随着北斗系统的逐步完善，千亿市场正等待爆发。 5月18日，中国卫星导航定

06-18
短视频生产服务商小影科技完成近4亿元C轮融资

据投资界（微信ID：pedaily）12月1日消息，小影科技近期完成C轮融资，金额近41亿，由大辰财智、敦鸿资产、吾悦资本领投，耀明投资、杭州金投、永源投资、君润资本等跟投。据悉，本轮募集资金将用于在技??术、产品矩阵孵化、本地化团队建设等方面持续投入。小影科技成立于20

06-18
Gartner发布2021年全球云计算市场份额，阿里云全球第三、亚太第一

4月15日消息：近日，权威行业研究机构Gartner发布2021年全球云计算IaaS市场份额数据显示，阿里云位居市场第一，份额为9.55%，位居全球第三，并连续六年实现份额增长。 Gartner数据显示，2018年全球云计算市场保持稳定增长，从2018年的9000万美元增长至9亿美元。其中排名第一

06-18