专栏名称: 阿里开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
目录
51好读  ›  专栏  ›  阿里开发者

对话| 阿里云大降价后,再谈“降本增效”

阿里开发者  · 公众号  ·  · 2024-03-07 08:30

正文

阿里妹导读


2月29日,阿里云宣布史上最大力度降价,引发行业对用云成本的热议。


近日,在InfoQ发起的圆桌讨论上,InfoQ、极客邦科技创始人 & CEO霍太稳,与阿里云智能集团副总裁、公共云首席解决方案架构师韩鸿源,掌阅科技 CTO、AI 业务负责人孙凯,贝联珠贯创始人&CEO、CCF杰出工程师林昊(毕玄),共同围绕云上的降本增效、Twitter“下云”真相、自建IDC和上云成本比对,及大模型时代的机会,展开思想碰撞。

时间轴:

00:32

怎么看云的降价趋势

03:49

X(原Twitter)“下云”的真相

11:40

自建IDC vs.上云,这笔账怎么算?

19:10

掌阅科技上云的关键一跃

28:22

云不仅是资源,还有更大价值

37:04

大模型时代,如何不掉队?



一、怎么看云的降价趋势?

霍太稳: 今天非常荣幸邀请到三位嘉宾一起聊一个话题,叫“云上的降本增效”。赶的时间比较巧,刚刚阿里云发布了一个重磅消息,要全线下调云产品官网售价,平均降幅达到20%,有的已经拦腰砍了,降幅达到55%。我想一定有人会很开心,像掌阅科技的孙凯,想请你谈一谈现在的感受,怎么看待这个信号?

孙凯: 我们刚刚完成了全面上云,也在与阿里云深度合作,所以这样的降价我们肯定是乐于见到的。我们也非常愿意在降本增效这个方向上投入一些资源,跟我们的伙伴一起去完成降本的动作。

霍太稳: 其实对于云计算公司来说,降价是必须要做的一件事。包括全球的几家云巨头,在发展过程中,有时一年之内都要降价好几次。老韩,你作为一个局中人,你会怎么给大家去传递这个信号?

韩鸿源: 过去这些年里,我们还是持续积累了不少技术优化带来的成本优势,随着规模不断增长,也带来了更大的降本空间。 今天阿里云的降价,是希望能够惠及规模偏小但数量庞大的客户,通过官网来为客户提供服务。 这些客户的确定性需求冲抵了不确定性之后,整体上能给用户去回馈更大的回报。

霍太稳: 其实这个是云计算的优势:随着客户量的扩大,成本在平摊之后,其实价格会更便宜。那随着技术的演进,整体用云的成本还会持续降低吗?

韩鸿源: 我觉得 价格下降的趋势是会持续的。 比如说现在存储设备的密度会持续提高,处理器的处理能力会持续提升,包括云的规模优势,在一个大的标准化的资源池里面,其实是能够有更大空间去做出更多的降本,持续把红利回馈给用户。所以我相信一定会延续下去的。

二、X(原Twitter)“下云”的真相


霍太稳: 虽然用云成本在持续下降,但我们也听过一些说法,说有的企业其实是不愿意上云的,他们觉得自建可能价格更低。包括去年大家讨论比较多的像Twitter“下云“这个事情,我想毕玄应该也关注到了这个事件,你在云计算领域工作了那么多年,你是怎么理解的?

毕玄: Twitter“下云“在公网上传播力度很广,标题非常让人震撼,因为号称下降成本的幅度非常大。但其实看里面的成本构成,大家会知道,其实不光有IT成本,更多的是其他部分。

霍太稳: 更多是人员成本进行了大幅度的削减。

毕玄: 对。我还是认为“下云”这件事情对很多公司来讲是有很大挑战的。下云就意味着要自建,自建对于基础设施来讲其实是非常复杂的。比如说阿里最早也是自建的,从2019年开始往阿里云上搬。在自建的阶段,你可以看到阿里是有非常庞大的服务器、网络、存储等等各种技术团队。 而这样庞大的团队背后也对应着很大的人员成本和人才挑战,因为这方面的人才积累其实是个不小的问题。 Twitter不像Netflix是天然成长在云上的,它是更上一代的互联网公司。所以它天然有一定基础设施相关的团队和人才积累,可以接得住。但对其他很多公司来讲,其实这是一个很大的问题。

另外一个最重要的问题是,要搞清楚自己的IT成本到底是怎样分布的,尤其是跟业务的关联。比如一个业务背后的IT投入到底是多少?我去做了这个动作,是不是真的对业务成本有很大的影响?如果你只是听别人说下云会降很多成本,等到真的动手了,投入了很多,最后可能发现对业务也没有产生很大的帮助。所以我们觉得对很多公司来讲, 第一个要解决的问题是要知道IT成本跟业务关联度的构成到底是什么,我做什么能对业务成本有更直接的影响,是下云还是做云上的优化或者别的其他动作。

霍太稳: 孙凯你看到这个信息的时候,正好是掌阅科技在上云的过程中,当时对你产生什么影响?

孙凯: 这个事情我这么看的,首先它发生在埃隆·马斯克做CEO之后的Twitter,是有特殊性的。第一, 埃隆·马斯克这个人就比较特殊,作为CEO,他对于技术的简洁性是比较有执念的。不管是做SpaceX还是做特斯拉,还是其他一些公司,他能做减法的一定不做加法。这一方面反映在组织上,另一方面反映在他掌管业务之后,一直在给Twitter的业务做减法。这一方面是因为他有能力,另一方面这是他的风格,他喜欢做一些所谓“不走寻常路”的决策。

霍太稳: 所以说看来一个企业要想下云,首先要有一个埃隆·马斯克,这非常关键。

孙凯: 因为我们当时正在上云的过程中,肯定也得从里面学一些东西嘛。首先, 从结果来看,其实我会观察到Twitter下云从结构上不是完全无损的,中间其实出现过一些稳定性的问题,从我们来看就是出现过一些事故。 但因为是他亲自来推动这件事,所以没有看得特别重。实际上用户的抱怨和收入的损失都是有的,只是没有特别去做全面的统计。

再一个,我觉得他推动这件事很快。这一定程度上也加速了我们整个上云的过程。换句话说,僵持的过程、双跑的过程越久,实际上会带来越多的不确定性和复杂性。

这给我们带来两个启发:第一,上云是我们要推进的一个很大的项目,我们尽量要做到稳定性的完全无损和无感,相信大多数像我们这样的企业都是这样去看的。第二,在保证稳定的前提下,尽量把时间压缩,这可能是更明智的选择。

霍太稳: 作为一个云厂商的从业人员,老韩你怎么看?

韩鸿源: 关于这件事情,现在有很多不完全准确的信息。第一,Twitter在所谓的“下云”之前和之后, 始终在用混合云的方式运行自己的业务 ,也就是公共云和自建IDC结合在用。所谓“下云”带来的很多成本变化是发生在它的线下IDC里面。网传的“云的支出降低了60%”,如果你深究一下它的来处,会发现并不是这么夸张的。综合《马斯克传》和其他信息来源会发现, 它是支付给AWS每年的云的费用降了60%,不是Twitter整体成本降60%。 原因是是把萨克拉门托的数据中心整个给退租掉了,运了大概145000台服务器到另一个数据中心去。另外,Twitter在马斯克接管之前是一个非常粗放运行的公司,公司里的人非常舒服,资源也比较铺张浪费。在这个基础上来讲,这个并不是一个上云下云的问题,实际上是资源优化的问题。

就跟马斯克去优化人员一样,8000人的Twitter能优化到2000人,我相信IT方面的支出其实也是有相当比例的。但确实不是说从云上搬到云下省了60%,这个错误可能是需要大家帮着一块去修正的。

其实大家很容易忽视的一点是,如果Twitter所有的资源全都放在自己的机房里,没有结合公共云的话,它是没有可能通过退租来省成本的。 对于这些大企业来讲,对于不确定性的工作负载来讲,混合云实际上是给了你一个弹性的池子,是为持续优化成本提供了更多可能性的空间。 即便这么大体量的公司,它的业务也不可能一直是持续增长下去的,所以你用公共云结合线下机房的方式,其实是可以更好的优化你的成本结构,为未来埋下更多的优化空间。

三、自建IDC vs.上云,这笔账怎么算?


霍太稳: 掌阅刚刚完成上云,你们在衡量“上云”这件事情的时候,有没有去计算过是自建更加划算,还是用云更加划算?

孙凯: 肯定是计算过的。客观来讲,掌阅科技这家公司2008年成立,按照互联网行业来讲,“上云”这件事情上属于偏滞的。如果我们往前去复盘,有两个因素是比较关键的。 第一,是对于公共云的认知问题,比如说公共云能给我们带来什么。 非常早期的时候大家还会有一些困扰,说会不会偷我的数据,或者说我的数据会不会有泄露风险等等的。但随着慢慢的市场教育、认知提升,这方面的顾虑没有了,紧接着其实就是怎么来算这笔账的问题。上云要花的钱真真实实的是要从我账上划走的,但我得到了什么?我觉得算账这个问题可能是阻碍像我们这样的公司上云的一个大问题。

坦白讲, 我觉得算账不是一蹴而就的事。 一开始是要构建算账的逻辑是什么,框架是什么?我们哪部分能算到左边,哪部分能算到右边?左边大于右边的时候我们怎么办?左边小于右边的时候怎么办?接下来框架就要再往下拆解。一开始,这个框架是缺失的,所以也不容易做出在经营层面上的决策。毕竟把整个公司搬到云上,它的成本支出是需要详实的推导和证明。

第二,就是我们怎么看“成本”这件事情。 如果单纯机器对机器,坦诚地讲,我认为是不会有特别大的差异,或者说不是本质上或者结构性上的差异。更多地我们要看到的是,机器买来其实不是问题的结束,不是说买了一插电这活就干完了, 其实这才是问题的开始——后续的使用、优化、版本迭代,从IaaS 层到PaaS 层,把应用真正跑起来,需要中间件、需要软件、需要服务、需要运维,需要方方面面的人才建设,那才是更大的投入成本。 这部分成本至少我们这样类型的公司跟云厂商比起来显然是不具备优势的,把这个整个搭起来,对我们这样的公司来说,其实是比较贵的。

第三,做决策当然要看具体的数字,但更多是一个定性判断。不算细账,算大账,哪怕成本一致,甚至是自建更优,但这是不是我们的业务重心,是不是我们的战略未来要突破的方向,值不值得我们投入这么多的人、时间、精力?我觉得这个账它并不复杂。 我们这家公司是不是要在基础设施上去构建一个很强的团队,答案显然是否定的。

霍太稳 所以如果说只是算一些硬性的成本,便宜一点或者贵一点都有可能,但是如果加上管理成本、时间成本、人力成本、机会成本,可能自建就不太划算。我知道毕玄你们现在也帮助很多企业做云上的成本优化,你会怎么帮企业梳理成本的问题?


毕玄: 刚刚孙凯讲的有一点很重要,你这家公司的定位是什么?自己构建一个基础设施相关的团队,是不是你这家公司在业务层面必须做的一件事情?从软件层面去看,中国市场总体跟国外一样,基本上越来越走向专业化分工, 其实专业化分工从社会效率来讲就是最高的, 你会觉得这些东西我交给一家云计算公司去做,其实更加合理。

第二个对于很多公司来讲,尤其对中小企业,云的弹性是他非常关注的一点。 中小企业的业务波动性非常大,如果构建自己的数据中心,最大的问题就是我买了100台机器,当业务波动的时候我该怎么办?因为这个成本一开始就投进去了的,这是一笔很大的钱。如果用云,成本分摊到每个月,而不是一次占用我这么大的资金成本,其实这对很多企业来讲是很重要的,因为直接影响了他的现金流。

还有一点其实就是你创新的速度。这不仅对中小公司,中国非常头部的公司,也是用云用得非常好的公司。 如果我们去看它用云的方法,很重要的一点是创新型业务,更多深度依赖云服务,包括PaaS层的各种新兴服务。 因为云厂商对新技术的跟进是非常快的,现在科技界有什么,基本上很快就会在公共云上提供这项服务。但对于业务型公司来讲,你很难判断一个新型的技术服务对我的业务到底能产生多大的帮助,如果你自己先建一个团队去探索这个技术,然后再在上面堆业务,投入是非常大的。所以我们可以看到中国很头部的公司,他们会在创新型的业务上直接用云最新的一些技术服务,先探索一下我这个业务能不能走得通,更不用说中小公司。中小公司其实更加依赖云快速地把业务做出来。

四、掌阅科技上云的关键一跃


霍太稳: 刚才我们也谈到掌阅科技终于完成了上云,整个过程中有哪些比较有意思的故事,中间有哪些关键的节点,包括最后一台服务器什么时候下线的,你当时什么样的感觉?

孙凯: 这是个很有意思的问题。先说一个具体问题的答案,在我们目标内的最后一台服务器搬到云上以后,团队核心同学休了一周的假,确实是长舒了一口气。但即便如此,大家在家里依然是随时响应报警。可能很多公司都有这种情况,刚把报警监控系统全部set up起来,阈值设定可能会有不合理的地方,所以报警不一定是出事了,基本上都没事,但心里还是有一点忐忑和紧张。

回到上云这个项目,可以简单跟大家分享一下。我们是2021年做了一个决策,这个决策就是基于我刚才分享的一个逻辑,我们先不算账, 我们先说我们这家公司到底应该在哪去投入人才 ,这个的答案倒是不难得出,就是我们大概率不会在基础设施团队上大规模投入,我们核心的价值输出点还是在于把业务做到持续增长,能够有更好的利润,从而能把公司的经营上一个台阶。我觉得这是对我们技术团队的一个根本定位,这是定性的问题。

定性之后,2020年我做了一个当时不太讲道理的决策, 就是我们的机房从2021年9月份以后就不再进任何一台机器了。 方向是对的,但执行难度是有的,比如业务还在发展,作为研发我们需要去支撑业务的发展,没资源的话怎么支撑?半年为期,我们把手头已有的存粮再盘一盘,有哪些CPU利用率低的,有哪些机器可以混部的,我们基于现有的架构能做什么先做什么。优化了一波,大概腾出了20%的buffer。

半年之后,紧接着来了第一个阶段,我把它定义为“不得不用云”,因为我们前面立了一个flag,这个flag叫不再买机器了。但到了第二年,完成流量上涨后,我们需要通过广告的途径变现。对广告业务来讲,在618或者整个6月份是一个流量高峰,流量高峰机房里没机器,这时候怎么办?五一之后,我们就跟阿里云做了一个紧急专项。 这个阶段为什么叫“不得不用云”?因为你已经有一个决策了,你又要扩资源,请问要扩到哪?只能是往云上走。

第一个618紧锣密鼓开始了,我们同时也进入到第一个阶段,叫混合云阶段。广告业务一方面是QPS或者服务器的压力,一方面是数据计算集群的压力。数据集群在6月16日早上6点就涨到了90分以上,且持续的往上涨。如果当时崩掉了,后面我们力主推的上云就会遇到问题,好在平稳应对过来了。那属于我们第一次初生牛犊。

扛过了整个6月份的业务高峰之后,我们紧接着进入第二个阶段。

第二阶段,变被动为主动。 我们不再是流量来了临时扩容这种逻辑,而开始把一些相对比较独立的、跟历史系统耦合没那么深的系统主动在阿里云上测试。测了小半年,完成了K8S的改造,跟阿里云PaaS层平台的接入,把协议对好,把整个CI/CD部起来。其实也是让大家去感受一下,上云是不是能把效率提升。坦白讲,我们一开始推的时候,不理解的可能也不仅仅是业务团队,技术团队内部很多同学也觉得弄这事好像很麻烦:本来我的开发工作就挺繁重的,你还让我干这个?但从2022年下半年开始,整个舆论转向了,推进难度也变低了。如果从第一波叫被动防御,叫小规模尝试,进入2023年我们就开始大规模出击了。

上半年主要是数据,下半年主要是主站。进入最后冲刺阶段,我们甚至停了一个月的业务迭代,这跟刚才讨论Twitter的案例也有关系。按原有的排期,可能拖拖拉拉要到2024年, 但后来我大概算了一下账,其实不如就快刀斩乱麻 ,因为一边要把整个业务做到完全无感,一边要把整个庞大的历史债务清偿,把中间件完成升级,把架构做优化,再把故障的隐患做成治理,把整个K8S改造适配,再用好阿里云的各个PaaS层应用,这件事情难度还是不低的。最后我们数据迁云大概用了4个月,主站大概用了4个月就全部完成了,这还包括中间有一些高峰月份我们没法动。

复盘下来是这么几个点:
第一,认知问题,这个事情要不要做。 所以第一个阶段我们先做出一个不太讲道理的决策,现在看可能是对的。

第二,决策过程中确实需要算账,把成本结构搞清楚 ,哪些应该在左边的,哪些应该在右边,这个等式怎么列的。坦白讲,并跑的时候确实压力大,所以要快。

第三,在执行过程中,确实需要更多的人看到它的好处。 一开始可能只有一小撮人坚信这个事情是对的,逐步地我们把这个事情的协同难度、推进难度降低,最后完成冲刺。这三点可能就是整个项目的一个复盘吧。

五、云不仅是资源,还有更大价值







请到「今天看啥」查看全文