专栏名称: SDNLAB
SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台,涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域,提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。
目录
相关文章推荐
51好读  ›  专栏  ›  SDNLAB

SDWAN 十二年轮回与网络供给侧改革——活下去

SDNLAB  · 公众号  ·  · 2025-03-10 15:50

正文

2024年,谷歌在SIGCOMM发表论文《A Decentralized SDN Architecture for the WAN》,宣告集中控制模式在谷歌SDWAN的终结,历史意义不亚于谷歌发表在2013年SIGCOMM的SDWAN创世之作《B4: experience with a globally-deployed software defined wan》。


从全球第一个真正意义上的SDWAN官宣至今已有十二年,十二年来,谷歌一直是这一领域的风向标,以集中控制为主体,以分布式控制为辅助的管控模式始终被全行业视为圭臬,偶有争论,也无非是两种控制模式的占比应该7/3开还是8/2开这样的小问题,分布式控制不堪大任几乎成为牢不可破的共识。


然而,世道好轮回,苍天放过谁。谷歌居然在开宗立派十二年之后,把桌子给掀了,而且掀得毫无悬念。因为在过去的十二年中,谷歌极少讨论SDWAN行业热点问题,从谷歌工程师公开出版的图书以及发表的论文来看,谷歌更加关心的问题是如何活下去,或者更准确地说,如何在一个持续演进的世界中以生存谋求发展。


当绝大部分同行在热议如何将更多智能引入运维的时候,谷歌关心的是如何确保云网系统的生存底线不被击穿。


在SDWAN产业热度达到巅峰的2016年,当绝大部分同行在讨论如何让网络变得更灵活、更敏捷、更有利可图的时候,谷歌却喊出了“活下去”的口号。这篇论文的价值是被严重低估的,几乎没有人理解为什么强大如谷歌还要把活下去当成第一要务。


以下是谷歌在过去十二年中发表或参与发表的与SDWAN有关的主要论文列表,其中的关键词是可用性、可扩展性,而不是灵活、智能。 文末附下载


[1]Sushant Jain, Alok Kumar, Subhasree Mandal, Joon Ong, Leon Poutievski, Arjun Singh, Subbaiah Venkata, Jim Wanderer, Junlan Zhou, Min Zhu, Jon Zolla, Urs Hölzle, Stephen Stuart, and Amin Vahdat. 2013. B4: experience with a globally-deployed software defined wan. In Proceedings of the ACM SIGCOMM 2013 conference on SIGCOMM (SIGCOMM '13). Association for Computing Machinery, New York, NY, USA, 3–14. https://doi.org/10.1145/2486001.2486019

[2]Arjun Singh, Joon Ong, Amit Agarwal, Glen Anderson, Ashby Armistead, Roy Bannon, Seb Boving, Gaurav Desai, Bob Felderman, Paulie Germano, Anand Kanagala, Jeff Provost, Jason Simmons, Eiichi Tanda, Jim Wanderer, Urs Hölzle, Stephen Stuart, and Amin Vahdat. 2015. Jupiter Rising: A Decade of Clos Topologies and Centralized Control in Google's Datacenter Network. In Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication (SIGCOMM '15). Association for Computing Machinery, New York, NY, USA, 183–197. https://doi.org/10.1145/2785956.2787508

[3]Alok Kumar, Sushant Jain, Uday Naik, Anand Raghuraman, Nikhil Kasinadhuni, Enrique Cauich Zermeno, C. Stephen Gunn, Jing Ai, Björn Carlin, Mihai Amarandei-Stavila, Mathieu Robin, Aspi Siganporia, Stephen Stuart, and Amin Vahdat. 2015. BwE: Flexible, Hierarchical Bandwidth Allocation for WAN Distributed Computing. In Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication (SIGCOMM '15). Association for Computing Machinery, New York, NY, USA, 1–14. https://doi.org/10.1145/2785956.2787478

[4]Ramesh Govindan, Ina Minei, Mahesh Kallahalla, Bikash Koley, and Amin Vahdat. 2016. Evolve or Die: High-Availability Design Principles Drawn from Googles Network Infrastructure. In Proceedings of the 2016 ACM SIGCOMM Conference (SIGCOMM '16). Association for Computing Machinery, New York, NY, USA, 58–72. https://doi.org/10.1145/2934872.2934891

[5]Kok-Kiong Yap, Murtaza Motiwala, Jeremy Rahe, Steve Padgett, Matthew Holliman, Gary Baldus, Marcus Hines, Taeeun Kim, Ashok Narayanan, Ankur Jain, Victor Lin, Colin Rice, Brian Rogan, Arjun Singh, Bert Tanaka, Manish Verma, Puneet Sood, Mukarram Tariq, Matt Tierney, Dzevad Trumic, Vytautas Valancius, Calvin Ying, Mahesh Kallahalla, Bikash Koley, and Amin Vahdat. 2017. Taking the Edge off with Espresso: Scale, Reliability and Programmability for Global Internet Peering. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 432–445. https://doi.org/10.1145/3098822.3098854

[6]Adam Langley, Alistair Riddoch, Alyssa Wilk, Antonio Vicente, Charles Krasic, Dan Zhang, Fan Yang, Fedor Kouranov, Ian Swett, Janardhan Iyengar, Jeff Bailey, Jeremy Dorfman, Jim Roskind, Joanna Kulik, Patrik Westin, Raman Tenneti, Robbie Shade, Ryan Hamilton, Victor Vasiliev, Wan-Teh Chang, and Zhongyi Shi. 2017. The QUIC Transport Protocol: Design and Internet-Scale Deployment. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 183–196. https://doi.org/10.1145/3098822.3098842

[7]Chi-Yao Hong, Subhasree Mandal, Mohammad Al-Fares, Min Zhu, Richard Alimi, Kondapa Naidu B., Chandan Bhagat, Sourabh Jain, Jay Kaimal, Shiyu Liang, Kirill Mendelev, Steve Padgett, Faro Rabe, Saikat Ray, Malveeka Tewari, Matt Tierney, Monika Zahn, Jonathan Zolla, Joon Ong, and Amin Vahdat. 2018. B4 and after: managing hierarchy, partitioning, and asymmetry for availability and scale in google's software-defined WAN. In Proceedings of the 2018 Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '18). Association for Computing Machinery, New York, NY, USA, 74–87. https://doi.org/10.1145/3230543.3230545

[8]Hari Balakrishnan, Sujata Banerjee, Israel Cidon, David Culler, Deborah Estrin, Ethan Katz-Bassett, Arvind Krishnamurthy, Murphy McCauley, Nick McKeown, Aurojit Panda, Sylvia Ratnasamy, Jennifer Rexford, Michael Schapira, Scott Shenker, Ion Stoica, David Tennenhouse, Amin Vahdat, and Ellen Zegura. 2021. Revitalizing the public internet by making it extensible. SIGCOMM Comput. Commun. Rev. 51, 2 (April 2021), 18–24. https://doi.org/10.1145/3464994.3464998

[9]Leon Poutievski, Omid Mashayekhi, Joon Ong, Arjun Singh, Mukarram Tariq, Rui Wang, Jianan Zhang, Virginia Beauregard, Patrick Conner, Steve Gribble, Rishi Kapoor, Stephen Kratzer, Nanfang Li, Hong Liu, Karthik Nagaraj, Jason Ornstein, Samir Sawhney, Ryohei Urata, Lorenzo Vicisano, Kevin Yasumura, Shidong Zhang, Junlan Zhou, and Amin Vahdat. 2022. Jupiter evolving: transforming google's datacenter network via optical circuit switches and software-defined networking. In Proceedings of the ACM SIGCOMM 2022 Conference (SIGCOMM '22). Association for Computing Machinery, New York, NY, USA, 66–85. https://doi.org/10.1145/3544216.3544265

[10]Mubashir Adnan Qureshi, Junhua Yan, Yuchung Cheng, Soheil Hassas Yeganeh, Yousuk Seung, Neal Cardwell, Willem De Bruijn, Van Jacobson, Jasleen Kaur, David Wetherall, and Amin Vahdat. 2023. Fathom: Understanding Datacenter Application Network Performance. In Proceedings of the ACM SIGCOMM 2023 Conference (ACM SIGCOMM '23). Association for Computing Machinery, New York, NY, USA, 394–405. https://doi.org/10.1145/3603269.3604815

[11]Hong Liu, Ryohei Urata, Kevin Yasumura, Xiang Zhou, Roy Bannon, Jill Berger, Pedram Dashti, Norm Jouppi, Cedric Lam, Sheng Li, Erji Mao, Daniel Nelson, George Papen, Mukarram Tariq, and Amin Vahdat. 2023. Lightwave Fabrics: At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems. In Proceedings of the ACM SIGCOMM 2023 Conference (ACM SIGCOMM '23). Association for Computing Machinery, New York, NY, USA, 499–515. https://doi.org/10.1145/3603269.3604836

[12]David Wetherall, Abdul Kabbani, Van Jacobson, Jim Winget, Yuchung Cheng, Charles B. Morrey III, Uma Moravapalle, Phillipa Gill, Steven Knight, and Amin Vahdat. 2023. Improving Network Availability with Protective ReRoute. In Proceedings of the ACM SIGCOMM 2023 Conference (ACM SIGCOMM '23). Association for Computing Machinery, New York, NY, USA, 684–695. https://doi.org/10.1145/3603269.3604867

[13]Ladislav Pápay, Jan Pustelnik, Krzysztof Rzadca, Beata Strack, Paweł Stradomski, Bartłomiej Wołowiec, and Michal Zasadzinski. 2024. An exabyte a day: throughput-oriented, large scale, managed data transfers with Effingo. In Proceedings of the ACM SIGCOMM 2024 Conference (ACM SIGCOMM '24). Association for Computing Machinery, New York, NY, USA, 970–982. https://doi.org/10.1145/3651890.3672262

[14]Alexander Krentsel, Nitika Saran, Bikash Koley, Subhasree Mandal, Ashok Narayanan, Sylvia Ratnasamy, Ali Al-Shabibi, Anees Shaikh, Rob Shakir, Ankit Singla, and Hakim Weatherspoon. 2024. A Decentralized SDN Architecture for the WAN. In Proceedings of the ACM SIGCOMM 2024 Conference (ACM SIGCOMM '24). Association for Computing Machinery, New York, NY, USA, 938–953. https://doi.org/10.1145/3651890.3672257


即便是只关注谷歌每年在SIGCOMM发表的论文,仍然能够强烈感受到两个截然不同的世界。在谷歌的世界中,云和网络都在快速扩张和演进,技术唯有拼命奔跑才能跟上历史的脚步。而在很多同行的世界中,世界是静止的,大家有足够的时间和精力去锱铢必较、精益求精。这两个世界并行不悖,谷歌也在SDWAN这个行当从走上神坛到淡出热点,直至各说各话,无话可说。


论文《A Decentralized SDN Architecture for the WAN》之所以没有像2013年那样引发广泛的全行业读经运动,甚至鲜有人提及,可能是因为,世界运行的规则本来就是“十则围之 五则攻之 倍则战之”,能用资源碾压的问题绝不依赖复杂的战术,当网络资源供给能力超越了窘境,简单、可靠、充足的供给能力反而成为技术的美德。


一切网络技术的终极价值都可归结为提升网络资源供给能力,但这也是最容易被忽视的价值。


“善战者之胜也,无智名,无勇功。” 一切网络技术的演进,也都可以视为网络供给侧改革的一部分,供给才是网络最大的命题。


我不打算讨论AWS、AZURE、阿里云等等与谷歌体量相当的大厂在SDWAN领域的技术细节和优劣对比,一来我确实没有那么多的学问,二来各家自有各家不可复制的独到之处,各美其美。我只打算以谷歌SDWAN的发展历程为引子,从更大的时间和空间尺度,简单回顾SDWAN的历程,希图一窥通往善战者的道路。


由于篇幅过长,本文将拆分为若干片段,以连载形式发布。至于共有几集,发布到何时,基本取决于我能在什么时间茅塞顿开。如果开不了,就只能断更。所以这并不是一个经过深思熟虑之后的成品,只是记录了我对SDWAN的思考过程。想到哪写到哪,掉进沟里也不是不可能。凑合看吧。



世上没有无缘无故的SDWAN


2013年,谷歌在SIGCOMM发表论文《B4: experience with a globally-deployed software defined wan》,开启软件定义广域网SDWAN(Software Defined Wan)时代。



在此之前,尽管软件定义网络SDN(Software Defined Network)已经在产业界和学术界如火如荼,但部署场景聚焦于数据中心内部网络,能否在复杂的广域网上立足,业界既没有先例,也没有把握。


数据中心内部网络的特点是网络流量流向特征相对稳定,故障率低于广域网,具备很强的可控可管性,本质上仍是局域网,面对的失效风险比广域网低很多。


此外,数据中心内部网络面临的主要矛盾集中在数据平面,即如何突破原有网络技术在容量和成本两方面的结构性瓶颈,大幅度提升网络资源供给能力,同时大幅度降低网络部署成本,以应对云计算带来的数据中心内部流量指数级增长。数据中心内部网络的管理平面和控制平面面临的主要挑战,则是如何适应应用层不断变化的流量生产和消费模式,管控软件和策略更新速度以周乃至日为单位,在数据中心内部增加传输缆线的成本反而微乎其微,可以忽略不计。


但在广域网上,网络运营主体是电信运营商,电信网络提供的服务是相对单一的尽力而为数据转发服务,并不需要针对不同应用的差异性提供贴身服务。受到用户终端数量以及数据产能、网络基础设施承载能力等因素制约,广域网中流量增长速度要比数据中心内部网络和缓得多,带宽供需基本能够维持长期平衡,再加上扩容成本高昂,网络扩容周期以年为单位,全局性的供需矛盾并不突出。


因此在当时的历史条件下,在广域网部署SDN的需求更多是一种试图提高网络资源调度灵活性的技术性探索,虽然在学术界吸引了众多的研究者,但在商业领域并没有强劲的需求支撑。


甚至是在SDN的诞生地局域网或园区网,由“控制器+算法+OpenFlow”组成的SDN铁三角也没有像大多数人预期的那样颠覆传统技术。OpenFlow交换机除了在少数特殊场景表现不凡以外,性价比整体上远低于传统交换机,因此商业化并不算是特别成功。


现在看起来,斯坦福大学Nick McKeown教授藉由OpenFlow成为SDN之父带有很大的运气成分。如果不是因为云计算在2010年前后迅速崛并选择了SDN作为数据中心内部网络的主导技术,这个研究方向的热度持续时间可能不会比一般意义上的学术研究热点方向更长久。但在云计算浪潮的托举之下,这样的好运气甚至一直持续到了P4。


但客观来说,这些好运气又带有必然性。


科学技术在工业革命中对生产力和生产关系演进的革命性贡献,一方面推动科技在全球范围内以史无前例的速度普及,令科技获得前所未有的地位,另一方面也在大众中塑造了对技术的拜物教式崇拜,似乎只要某个天才灵光一现,技术创新就一定会发生,就一定会带来巨大的市场成功。然而对于科技发展背后生产力和生产关系矛盾运动的分析却被有意无意地忽视了。


硅谷批量创造的科技神话进一步强化了这一观念,导致本来并不复杂的技术演进趋势被大众的狂热情绪和资本的精妙设计层层遮蔽,若社会高速发展则皆大欢喜,一旦经济增长乏力或陷入衰退则形成周期性的技术泡沫。


现在,泡沫散尽,SDN才逐渐露出真容。


这本来是一场由云计算需求侧革命引发的网络供给侧改革,核心问题是原有的网络技术体系无法通过对技术架构和技术路线的优化和增强来承载更大规模的数据中心网络以及网络中指数增长的流量。但在很长时间里,SDN却被理解为一种存量优化技术,即如何通过精巧的流量调度,在网络规模和资源总量不变的前提下,承载更多的业务流量。







请到「今天看啥」查看全文