50亿,绍兴城市更新基金成立
06-18
*转载文章不代表本站观点。
本文来自微信公众号“贤灶课堂”(xzclasscom)作者:魏煌松时至今日,谷歌在2019年公布的成果“利用SDN将广域网带宽利用率提高到接近%”,仍然是一个对于SDN的基准案例来说,也是一座难以逾越的高峰。
但事实上,当时使用的SDN控制器Onix早已退出历史舞台。
在今年的NSDI大会上,谷歌发表了一篇论文,详细介绍了其第二代SDN控制器Orion的设计原理、整体架构以及在生产网络中的应用。
虽然这篇论文最近才发表,但Orion已经在现网运行了四年,可谓“久经考验”。
今天的文章将分为几个部分,包括谷歌网络整体情况的介绍、第一代SDN控制器Onix的回顾以及谷歌新一代SDN控制器Orion的简要说明以及几个重要的设计注意事项。
图中显示了 Google 网络的概览。
Google的网络主要分为三个部分,B4、B2(也叫Espresso)和Jupiter。
其中,B4是谷歌数据中心互联网络,连接谷歌全球数据中心。
B2是Google面向互联网的网络,负责将用户服务从世界各地的POP点引入到数据中心。
Jupiter 是 Google 数据中心的内部网络。
这里补充一下Google网络承载的业务流量属性。

直到现在,很多运营商专家都表示,Google的流量基本上都是自己的业务,所以更可控,更适合SDN。
运营商网络的流量情况过于复杂。
事实上,随着谷歌产品线的扩张,尤其是云服务业务的增长,谷歌网络内部流量的不可预测性也在增加。
很大一部分流量已经不再是自己的事了。
谷歌的第一代SDN是谷歌的第一代SDN控制器Onix。
总体来说,有几点值得注意:首先,Onix本身是通过合作开发的,而不是自主开发的。
,其次,Onix的引入是一个循序渐进的过程,第三,Onix是一个单体程序。
Onix的研发是Nicara、NEC和Google之间的合作,甚至Nicara的专家也发挥了非常重要的作用。
但说到Orion,从论文来看,作者已经是全谷歌员工了。
可以说,谷歌的网络团队这几年成长迅速。
Onix投入生产的过程也是渐进的,大约花了三年时间才完成切换。
第一阶段是2016年推出的openflow交换机,但新型交换机的外部性能与传统交换机相同,只是网络协议操作是在控制器而不是设备本身完成。
第二阶段是长流切换过程。
直到今年年初,流量才完全切换到openflow网络上。
作为一个单一的程序,Onix 有许多无法解决的固有限制。
这也是Orion出现的原因。
单体程序在稳定性和开发速度方面都有很大的劣势。
以Google的能力,发布新版本需要5个月的时间。
这样的节奏显然与业务发展不相称。
Orion微服务版上线后,两周即可发布一个版本,预计将增加至一周。
分布式程序的稳定性大大提高,控制器完全崩溃的几率变得更小。
Orion的大局和Orion自身的工作模式可以用一个词来概括,那就是和解。
一方面,Orion接收网络管理员(人类或上层应用程序)的意图并逐层翻译。
另一方面,不断感知当前网络的实际运行状态,然后逐步调整网络的运行状态更接近管理层的意图。
从基本设计原理来看,它与 Kubernetes 几乎相同。
从架构的角度来看,Orion是一个典型的微服务应用。
最上层是各种具体的网络应用,比如负责域内路径计算的Routing Engine、负责BGP广播的Raven等。
中间核心层主要实现控制器的通用功能,包括集中的NIB数据库(也是消息队列功能)和负责处理配置、拓扑和流表生成的管理器,以及与路由器通信的OFE。
每个模块都是一个微服务,主要通过NIB承载的消息进行交互,这也保证了故障隔离和开发协调。
值得注意的是,Orion控制的所有路由器都只有openflow协议栈,没有传统协议栈。
BGP信息的广播和接收均在控制器上完成。
可以说SDN已经彻底实现了。
当然,出于安全考虑,Orion并不是一个集中的控制者,而是部署在不同的域中。
这最大程度地保证了网络的鲁棒性,同时牺牲了一些全局优势(例如更好的路径计算、更快的流表更新等)。
Orion的设计认为,作为超大规模生产网络的控制器,基于意图是必然的选择。
谷歌表示,宏观层面的意图比细粒度的流程更加稳定且不易出错。
因此,Orion本身被设计成一个控制器,对意图进行层层翻译和细化,最终将管理员的意图翻译成交换机可以识别的openflow原语。
Orion处理故障的原则也值得学习:积极处理小问题,而忽略大问题(不干扰数据表面的状态)。
如图所示,在数据流自上而下的三层路由器网络中,如果检测到两台路由器损坏,Orion就会将流量引流绕过损坏的路由器。
这是失败关闭的。
而如果感知到四个路由器全部损坏,Orion将不会执行任何操作并维持数据平面的当前状态,即故障静态。
这是因为一方面,Orion可以处理小问题而不影响当前的网络流量,但处理大问题会严重影响现有业务;另一方面,数据面出现大问题的几率其实很小,甚至更大的可能是管理通道或者控制器本身出现问题,所以大的误报的可能性很大。
-规模故障。
最后一点是关于管理渠道。
人们普遍认为带外管理将是一种更可靠的方法,因为它具有独立的管理通道。
但管理通道本身可能会被破坏,并且带外管理大量网元也会产生巨大的成本。
因此,Orion采取了带内管理和带外管理相结合的方式:一方面,只对重要设备进行带外管理,节省了大量成本;另一方面,带内管理和带外管理相互备份,避免管理通道损坏导致网元完全失控。
结论 网络运营追求的无非是安全和效率。
SDN本身就是为了效率而生的。
经过多年的行业实践,这一点没有太大争议,其效率提升也是实实在在的。
现在最大的争议主要集中在安全性和实施成本上。
考虑到网络的自然迭代,成本实际上不是问题,只是一个渐进的转变。
谷歌并不是一夜之间就更换了所有路由器。
至于安全性,我认为谷歌的论文和业界的其他实践已经回答了很多技术问题。
剩下的问题更多的是意识层面的:依靠算法来调度流量更安全,还是深夜进行两人切换更安全?是根据经验反复分析、层层检查得出的割接报告更可靠,还是软件自动计算的排水分析更准确?这些问题的答案并不明显,因为安全的定义很复杂。
这几年,笔者也做了一些网络智能方面的小工作。
总体来说,我们遇到了很多困难,取得了一定的成绩。
但我仍然坚信SDN是未来。
毕竟,人还是要有梦想的。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-08
06-18
06-17
06-17
06-17
06-18
06-21
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持