标题:Netflix也难以掌控AWS云计算成本,云效率管理成为新挑战
近日,流媒体巨头Netflix在其官方博客中披露了公司在云效率管理方面面临的挑战。作为亚马逊AWS的知名客户,Netflix竟然也难以准确追踪和理解其AWS资源使用情况及相关成本。
根据Netflix高级分析工程师Jennifer H和数据专家Pallavi Phadnis的博文,公司正在努力开发工具来帮助工程团队更好地了解他们使用的资源、使用效率以及相关成本。为此,Netflix专门成立了平台数据科学工程(Platform DSE)团队,并开发了两个关键工具:
1. 基础平台数据(FPD):为所有平台数据提供集中化的数据层。
2. 云效率分析(CEA):基于FPD构建,提供各种业务用例的时间序列效率指标。
然而,由于业务基础设施的广度和范围以及平台特定功能,Netflix生成的数据集非常复杂。服务可能有多个所有者,每个平台的成本计算方法都是独特的,而且基础设施数据规模庞大。
更令人惊讶的是,Netflix表示计划"通过预测分析和机器学习来优化使用并检测成本异常",这意味着即使是Netflix这样的云计算重度用户,也无法完全掌控其云支出,需要更好地检测异常。
雨生点评:
一. 云成本管理的普遍性挑战:Netflix的案例表明,
Netflix和AWS的合作关系是云计算领域一个著名的案例,这里雨生为您梳理一下它们之间的一些重要历史新闻和里程碑事件:
1. 2008年:Netflix开始使用AWS
Netflix开始将部分非客户facing的工作负载迁移到AWS,这标志着他们向云计算迈出了第一步。
2. 2010年:大规模迁移开始
Netflix宣布计划关闭自己的数据中心,全面迁移到AWS云平台。这一决定在当时被认为是相当大胆的举动。
3. 2012年:圣诞节宕机事件
AWS在圣诞前夕发生故障,导致Netflix服务中断。这一事件引发了人们对云依赖性的担忧,但也推动了Netflix改进其容错和灾难恢复策略。
4. 2015:完成向AWS的迁移 【2015年完成上云,整整7年】
Netflix宣布完成了向AWS的全面迁移,成为全球最大的公有云用户之一。
5. 2016:开源贡献
Netflix开源了多个在AWS上运行的工具,如Chaos Monkey,这些工具帮助提高了云服务的可靠性。
6. 2017:多区域故障转移测试
Netflix成功测试了在AWS多个区域之间进行故障转移的能力,展示了其高可用性架构。
7. 2018:Netflix成为AWS最大客户【AWS GCR 开支过一亿美金的客户才可能被称为 战略account】
报道显示Netflix每年在AWS上的支出超过10亿美元,成为AWS的最大客户。
8. 2020:疫情期间的合作【弹性仍旧是云的一大特色】
在COVID-19疫情期间,Netflix利用AWS的弹性快速扩展服务,以应对激增的流量。
9. 2021:边缘计算合作 【CDN?Edge computer 其实 有的云厂商更擅长,比如cloudflare】
Netflix和AWS宣布在边缘计算领域展开合作,以提高内容分发效率。
10. 2022-2023:成本优化挑战 【Why?】
随着增长放缓,Netflix开始更加关注AWS使用的成本效益,这反映在他们近期的技术博客和财报中。
这段历史展示了Netflix如何从传统IT架构转变为云原生公司,以及AWS如何支持了一个全球性流媒体服务的快速增长。同时,它也反映了云计算行业的发展,从早期的基础设施迁移,到后来的高可用性、弹性扩展,再到现在的成本优化和边缘计算等更高级的主题。
而早在2016年就成为AWS best Case Study 的奈飞,即使是最成熟的云用户也面临着云成本管理的挑战。这反映了云计算生态系统的复杂性和动态性。
二. 数据驱动决策的重要性:Netflix开发FPD和CEA工具的举措凸显了数据驱动决策在云管理中的关键作用。企业需要投资于数据分析能力,以优化云资源使用。
三. 云供应商定价模型的复杂性:AWS等电商类云供应商的SKU复杂,定价模型多变,这增加了用户准确预测和控制成本的难度。云供应商可能需要简化其定价结构,提高透明度。

四. 自动化和AI在云管理中的应用:Netflix计划使用预测分析和机器学习来优化资源使用,反映了AI在云管理中的潜力。这可能成为未来云管理的主要趋势。