首页 > 科技未来 > 内容

微信背后不为人知的大变化:他们是如何“把大象搬进冰箱”的? 1月中旬

发布于:2024-06-21 编辑:匿名 来源:网络

,距离春节不到一周,微信技术架构师Stephen Liu非常着急。

即将到来的除夕夜,是一年中微信业务最繁忙的时候。

这段时间将会有数亿用户来到这里。

微信背后不为人知的大变化:他们是如何“把大象搬进冰箱”的? 1月中旬

我们一直在发新年祝福和微信红包,微信服务器也每年都在受到较大的影响。

为了保证大家能够如期收到新年祝福、抢到微信红包,微信技术团队在每年年底进入“春节保底”模式,进行服务器压力测试,确保微信不丢包。

链。

最关键的时刻,一个非常棘手的问题。

但在春节期间的测试阶段,却出现了问题。

诞生于2009年的微信红包在当年春节期间经历了中度宕机。

部分用户部分时间无法领取红包或查看红包金额。

次年,微信获得春晚广告互动权。

当年除夕夜,中国微信红包收发总数达到10.1亿个,春晚期间微信摇一摇总次数达到1亿次。

微信今年准备充分,总体稳定,偶尔出现小规模宕机。

因此,春节前出现检测问题并不是一个好兆头。

Stephen Liu表示:我们当时想要压测的(目标)值大概是每分钟发送数十亿条消息的数量,但我们测量的水平只有目标的一半,而且距离春节也只有两周了。

所谓压力测试,就是扩大微信在线服务器的容量。

扩容完成后,再进行激进的模拟,模拟除夕午夜的峰值数据,看看今年的数据可能比去年增加多少,然后完全模拟这个量,推送到系统上。

简单理解的话,类似于一个网站对自己进行DDoS攻击,测试该网站可以同时访问多少人而不会宕机。

更通俗的理解是餐厅接待客人。

淡季时,一家餐厅的座位和厨师只能接待一名客人。

但旺季时,可能会有一位客人同时需要就餐。

这时候就需要提前扩建餐厅,招募厨师,类似于“扩建”,或者实在不行就让顾客在外面排队等桌子。

但微信收发消息不能排队等候。

微信技术团队和Stephen Liu这次遇到的问题是,他们明明扩大了餐厅,聘请了更多厨师,但只能同时接待10位客人,并没有达到著名的目标。

而且,此时厨师们都相当空闲,座位也不多。

里面空荡荡的,但外面还排着长队。

微信技术团队之前排查了大约一两周,终于找到了问题所在:网卡性能有问题。

换个比喻,就像餐厅门口的接待员偷懒,没有带客人进房间。

结果餐厅并没有坐满,外面顾客排起了长队。

问题的背后是微信不知道的巨大变化。

之所以往年压测没有问题,今年压测却出现问题,与微信背后的一个巨大变化有关:自研和上云。

这一巨大变化始于2018年腾讯的转型。

2019年9月30日,腾讯再次对公司架构进行重大调整。

原有七大事业群进行重组整合,新成立云与智慧产业事业群(CSIG)、平台与内容事业群(PCG)。

其中,CSIG负责腾讯ToB的宏伟愿景,而微信事业群(WXG)则连接最多的C端用户。

云已经成为腾讯的战略支点业务。

从此,自研业务上云成为业务调整的重要事项,而微信业务自研上云更是重中之重。

腾讯改革之前,腾讯并没有为内部自研业务提供统一的云基础设施,而是采用物理服务器模式。

从宏观角度来看,考虑到微信庞大的用户基础和业务量,自研上云可以带来巨大的成本和效率优势,这对微信和腾讯云业务都有利。

但从微观角度来看,如果一个涉及超过10亿用户的业务需要进行如此大的改变,并且给用户带来不便,就像更换高速汽车的轮子一样。

汽车无法停下来,甚至无法颠簸。

与此同时,轮子也必须改变。

之前的压力测试的问题是在更换轮毂的过程中出现的。

事实上,是时候换轮子了。

Stephen Liu 说:微信只是一个部门。

当公司提出这样的成本优化想法时,我们还是挺紧张的,因为当时部门人不多。

当时只是一个部门,只有三四百人。

2016年之前,微信所有的人力都集中在迭代功能、不断打磨新功能上,所以不太关注后端服务器是如何使用的,包括架构做得如何。

公司有这个要求,后来公司就安排人去各个业务部门参观,看看它做得怎么样,最后选了非常有经验的人。

比如,当时带领团队的人同时也是公司的VP。

不管怎样,我印象很深刻,因为我多次得到他的认可。

就说微信的成本很高,你的服务器没有用好。

▲微信之前的报告PPT这次降本增效的要求,促使微信团队首次优化服务器架构,采用了名为YARD的系统架构。

不过,这次自研和上云需要与腾讯保持一致,采用开源的K8S系统架构。

与YARD相比,K8S架构更加开放,在适应人工智能和大数据框架方面具有先天优势。

如今,微信的很多功能都与人工智能和大数据相关,比如语音转文字、文本翻译功能。

也就是说,微信在2005年采用YARD架构的目的很简单,就是为了帮助灵活调度服务器资源,节省成本。

没有考虑更复杂、更长远的问题,而且当时K8S还没有开源。

随着时间的推移,业务发展不断进步,K8S架构的优势逐渐超过架构迁移的痛苦。

这与腾讯的业务转型不谋而合,这种变化是不可避免的。

微信基础设施工程师Edsel Wang向爱范儿讲述了微信自研迁移上云的宏观步骤:对于微信团队来说,上云可以分为狭义和广义两个层面。

狭义上来说,上云指的是变革之年。

公司变革后,公司推动自研、上云,随后微信开始使用公司提供的统一云基础设施。

从广义上讲,上云意味着微信逐步将整个研发模式云化。

这不仅仅包括将一些后端服务从原来的物理机迁移到云端。

当然,还包括整个研发流程与云端的整合。

经过2018年的变革,公司推进自研和上云至今经历了两个阶段。

第一阶段是2010年到2018年,该阶段公司主要改变提供服务器的方式,即从提供物理机转向CVM(云虚拟机)。

第二阶段从2019年开始,公司进一步要求各业务部门将部分内部调度系统统一改为K8S。

对于我们来说,这意味着从 YARD 迁移到 K8S。

第一阶段,我们从原来的物理机改为使用CVM。

由于我们设计YARD作为它的调度层,所以我们主要的工作就是将YARD适配到云端,因为YARD本来是支持物理机的。

现在YARD支持CVM虚拟机,业务层不需要做太多改动。

第二阶段,对于微信团队来说,需要使用K8S,也就是用腾讯云提供的K8S集群的调度能力来替代自研的YARD平台。

为了让这次迁移更加顺利,我们在用K8S替换YARD的过程中规划了三个步骤。

第一步要解决微信能否在K8S上运行以及程序能否在其上运行的问题。

第二步是将YARD积累的一些经验移植到K8S上,让K8S能够与YARD原有的能力对接,能够继续使用YARD原有提供的所有能力。

第三步,我们需要充分发挥K8S的能力,因为前两步中YARD提供的一切我们都提供了。

第三步,我们要充分利用K8S的能力,主要体现在成本和效率上。

我们在年前完成了前两个步骤。

下半年我们开始大规模使用K8S。

从年初开始,我们进入了第三步。

从目前来看,我们的成本和研究效率,相比原来的YARD,都得到了进一步的提升。

而从广阔的云角度来看,微信团队在推广CVM虚拟机时也有一个里程碑式的事件。

也就是存储团队在上云方面也取得了突破,因为微信一直在使用自己开发的存储系统,我们经历了很多不同的DB(Data Base,数据库)和KV(Key-Value,数据库)系统)历经十年,终于在infinityKV版本实现了存储迁移到云端的能力。

今年下半年,infinityKV开始上线。

微信后台约80%的数据存储在新的infinityKV系统中。

这就是我提到的微信云迁移过程,就是把大象搬进冰箱的步骤。

Edsel Wang进一步介绍了YARD逐渐显现的局限性。

2017年,整个行业对于云平台还没有一个明确的定义。

另一方面,腾讯的硬件环境与现在的云硬件环境有很大不同。

YARD是在当时的硬件环境下开发设计的,导致其缺乏磁盘、网卡虚拟化等一些核心能力。

一开始,微信自研和上云过程中出现的压测问题就定位在网卡上。

原因是腾讯云当时采用了新的模式,CVM操作系统和硬件的适配还不够好。

最后,微信技术架构团队通过走弯路救国的方式简单解决了CPU负载低但网卡性能瓶颈的问题。

简单来说,如果原来的服务器CPU有3核,切片后90核配1块网卡。

结果网卡满载,CPU负载只有20%左右。

微信技术架构团队对CPU核心进行了重新分段,改为1张网卡对应48个CPU核心,使得CPU负载过半。

在充分利用性能的同时,网卡负载不再是瓶颈。

这是临时解决方案,这是临时解决方案,根本解决方案是用CVM优化网卡调度器。

CVM网卡调度器的优化以及向K8S的迁移,让微信后端能够更有效地控制网络流量,进一步提高微信后端部署的灵活性和稳定性。

改变并不可怕,可怕的是改变没有发生。

去年,微信遭遇了最长的一次宕机。

由于挖掘机挖出了通信光缆,华东数据处理中心的业务请求被分流到华南和华北地区,进而导致微信服务瘫痪5个多小时。

此后,次年部署YARD架构时,微信提供了一个重要功能:三园支持。

即在每个城市建设3个机房(园区)。

机房网络、电源独立。

即使其中一个的纤维被切断,也会有另外两个作为支撑。

这是当今服务器部署中常见的“冗余”概念。

现在自研并迁移到云端后,不仅服务器资源虚拟化,新的K8S架构还能走得更远。

服务器资源属于整个腾讯公司。

这个资源水平要大得多,“冗余”也更多。

这就像贷款一样。

微信以前是向市分行借钱,现在是向省总行借钱。

在微信迄今11年的历史中,微信的定义在不断变化。

朋友圈、微信红包、小程序、视频号等节点功能一次又一次拓展了微信的定义。

它是一个社交网络、一个支付工具和一个内容平台。

微信背后的服务器支持也面临着这样的变化过程。

此前,北京的第一场降雪导致当地用户疯狂发朋友圈,这也导致服务器需求瞬间增加。

这时候就需要快速响应扩张。

然而,某个地方的天气变化和用户行为是不可预测的。

春节、除夕夜,半夜集体发红包是不可避免的。

类似的必然还有很多,比如周杰伦的演唱会视频号直播,播放量高达千万。

这对微信服务器来说是一个巨大的考验,但这可以提前进行压力测试和部署。

回想起去年9月份的一次直播,视频号后端开发工程师Bok Zhou仍然感到激动不已。

他表示,得益于迁移到云端的优势,微信团队可以更快地将更多服务器资源上线,避免部分用户在遇到这种意外的流量激增时无法观看直播。

自研迁移上云也是一个长期不断变化的过程,优势会慢慢发现。

现在这个过程还没有结束,但一些优势和愿景已经可以预见。

微信技术架构师Stephen Liu表示:一年多前我和我的团队分享了一个观点,我用自动驾驶的五个级别来比喻。

0 级是手动驾驶,根本没有自动化。

Level 1有一些驾驶辅助,Level 2有更强的驾驶辅助,Level 3已经有一定的自动驾驶能力,然后还有Level 4和Level 5。

我的一个希望是,未来可以像自动驾驶一样春节期间完全由机器驱动。

几年前我们可能处于 0 级。

后来经过YARD之后,就是Level 1。

经过多年对K8S各种能力的探索,我想我们现在应该处于Level 2了。

我希望接下来能达到Level 3,会有比较完善的自动驾驶功能。

微信背后不为人知的大变化:他们是如何“把大象搬进冰箱”的? 1月中旬

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 沃尔沃第四季度调整后营业利润超出分析师预期

    沃尔沃第四季度调整后营业利润超出分析师预期

    沃尔沃第四季度调整后营业利润为3亿瑞典克朗,而分析师预期为89.4亿瑞典克朗(范围为80.3亿瑞典克朗至1亿瑞典克朗)。 第四季度净销售额为 15 亿瑞典克朗,分析师预期为 5000 万瑞典克朗(范围为 4 亿瑞典克朗至 1.7 亿瑞典克朗)。

    06-18

  • 美创科技完成新一轮融资1.5亿元

    美创科技完成新一轮融资1.5亿元

    据投资界5月21日消息,据36氪消息,杭州美创科技有限公司(以下简称“美创科技”),国内数据安全领域的领先公司,近日完成新一轮1.5亿元融资。 本轮融资由盛宇投资、宽带资本领投,赛博乐、鱼跃科技、东方富海跟投。 本轮融资所得资金将主要用于产品研发,坚持技术驱动路线,

    06-18

  • 连物智能获百万天使轮融资,专注文旅+AR

    连物智能获百万天使轮融资,专注文旅+AR

    投资社区(ID:pedaily)据4月12日消息,景区AR服务商“连物智能”近日完成数百万人民币天使投资本轮融资,投资方为华盛仁和。 本轮融资资金将用于内容团队建设和市场开拓。 联物智能成立于2016年,专注于探索景区+AR之路。 目前已与20余家5A级景区签约,开展内容开发、数字I

    06-17

  • 听说你有电池焦虑症?一招教你如何保持MacBook电池健康

    听说你有电池焦虑症?一招教你如何保持MacBook电池健康

    如果你有经常检查电池、待在无法提供持续充电便利的地方时感到不安的“症状”,那么你可能有电池焦虑症。 虽然电池焦虑很常见,但并不可怕。 各种快充方式已经走进了每个人的生活。 有W快充的国产机,也有苹果从12系列开始推出的5V1A快充线。 厂商的进步和改变或多或少可以解

    06-21

  • 5亿元合作!耀明汽车获广东省产业发展基金战略投资

    5亿元合作!耀明汽车获广东省产业发展基金战略投资

    打造头条3月15日消息 近日,耀明汽车宣布与广东粤财投资控股有限公司战略合作,双方投资广东省产业发展基金基金与耀明汽车子公司广州承兴智能汽车科技有限公司达成5亿元合作协议。 耀明汽车CEO何小鹏表示:在政府和相关领导部门的指导下,在粤金控股等合作伙伴的支持下,耀明

    06-17

  • 张朝阳:畅游未来有计划在香港上市,但搜狐还不确定

    张朝阳:畅游未来有计划在香港上市,但搜狐还不确定

    今天,搜狐董事局主席和CEO张朝阳表示,旗下畅游计划于今年在香港上市未来如何,但搜狐还不确定。 这取决于具体情况。 当然。 谈到搜狐未来的定位,张朝阳表示,仍然会采取垂直发展模式,专注做好一件事,做搜狐擅长的事情,那就是专注于媒体业务。

    06-18

  • 骁龙无处不在,是平台也是生态

    骁龙无处不在,是平台也是生态

    Snapdragon无处不在,它是一个平台,也是一个生态系统。 今年是我国新能源汽车快速进步的一年。 在这个历史转折点上有一个小插曲。 今年7月,极氪汽车宣布,所有极氪汽车用户均可免费升级至搭载Snapdragon(第三代骁龙座舱旗舰平台)的全新智能座舱。 此举扭转了一度陷入舆论

    06-21

  • 河南省创业投资引导基金实施方案公布,总规模150亿元,

    河南省创业投资引导基金实施方案公布,总规模150亿元,

    据投资界8月24日消息,河南省发布《创业投资引导基金实施方案》(以下简称《实施方案》)。 《实施方案》明确发挥政府资金的示范引导作用,带动更多社会资本投资创业投资领域。 据了解,创业投资引导基金总规模1亿元,其中协调整合支持创新创业的现有资金50亿元,新增增量资

    06-18

  • 炮轰谷歌“实现量子霸权”理论,IBM拿出终极依据

    炮轰谷歌“实现量子霸权”理论,IBM拿出终极依据

    语音播放文章内容由深声科技提供技术支持。 您的浏览器不支持音频元素。 最近,谷歌遭到IBM的炮轰;这一切都始于一个月前的一篇论文。 谷歌的“量子霸权”雷锋网注:上图来自 Kim Stallknecht/Reuters 今年 9 月,《金融时报》 报道称,谷歌研究人员向 NASA(美国国家航空航天

    06-17

  • 用AI赋能医疗,小白世纪完成数千万元A轮融资

    用AI赋能医疗,小白世纪完成数千万元A轮融资

    据投资界12月28日消息,基于视觉识别的AI公司“小白世纪”已获数十家融资获得广东珠江投资集团数百万元A轮融资。 此前,小白世纪已获得多轮融资:2018年8月获得1万元种子投资; 2018年8月获得清华大学Pre-A轮天使投资1万元,摩洛哥一号基金1万元融资。 小白世纪成立于2007年

    06-18

  • 特斯联实现多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶会顶刊

    特斯联实现多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶会顶刊

    特斯联取得多项计算机视觉科研突破,成果入选CVPR、TPAMI等国际顶级会议顶级期刊。 作为互联网国家枢纽节点,“东数西数”工程正式启动。 作为数据处理核心的新型基础设施,人工智能、物联网、云计算、区块链等技术将迎来更加精细化的发展前景。 。 近期,作为成渝地区的深度

    06-18

  • 先锋薄膜完成45亿元B轮融资,由中金资本旗下基金领投

    先锋薄膜完成45亿元B轮融资,由中金资本旗下基金领投

    投资界(ID:pedaily)9月29日消息,先锋薄膜材料股份有限公司(以下简称“先锋薄膜”)近日宣布完成B轮融资,由中金资本管理旗下基金领投,包括中国建材新材料基金、中电基金、中化高新技术产业基金、中船海洋基金、五矿创投、SK中国、以及国投创合、东三峡、大湾区基金、招

    06-18