2022年需要解决的六大云成本优化问题
新年伊始,人们往往会为未来 365 天制定计划,例如多吃蔬菜、多锻炼或减少云服务费用。
后者连续第五年成为企业首要举措。根据《2021年云状态报告》,超过60%的企业计划优化其云成本。
那么究竟哪里出了问题?为什么这么多工程团队在云优化方面举步维艰?
请继续阅读,了解导致我们浪费云资源、时间和金钱的最常见问题,并找到行之有效的解决方案。
本指南包含以下内容:
为什么云成本优化如此具有挑战性?
公有云的按需付费模式为工程团队带来了更大的自由,但这种自由也是有代价的。有时,这笔费用高得惊人,Pinterest等公司的云账单案例就证明了这一点。
研究表明,大多数企业都难以应对不断增长的云支出。典型的公有云支出平均超出预算24%。
造成这种情况的原因有很多。这些原因通常可以归结为成本可见性低、云定价复杂以及难以预测未来需求等问题。所有这些问题都可能使您难以准确了解当前的支出以及未来需要支出的金额(此处双关)。
云服务提供商也并没有真正帮助降低成本。光是解读云账单就可能让人望而生畏。这种恐惧感如此强烈,以至于一些团队选择等到月底才查看云账单,希望收到后会感到惊喜。
如果您不想让云支出听天由命,请继续阅读!
2022年需要解决的六大云成本优化问题
#1:仍然被预订和优惠计划所诱惑
提到云端省钱,首先想到的就是降低团队使用服务的成本。企业选择节省成本的套餐或预购服务,是因为与按需付费模式相比,这些方案能提供大幅折扣。
预先支付看似可预测的云支出听起来很不错。
但如果你仔细观察,就会发现你并没有解决问题,而是在这个问题上得到了折扣,并且还要再忍受几年。
那么,问题出在哪里呢?
你还记得Pinterest之前预付了价值1.7亿美元的AWS服务,但后来又不得不额外花费2000万美元购买额外资源吗?
他们的故事有助于说明,要知道一到三年后你需要多少容量是一项艰巨的任务。
长期只选择一家供应商,会失去灵活性,被锁定,而且如果需求发生变化,可能要付出高昂的代价。
如何处理储蓄计划?
最好的办法就是完全放弃储蓄计划!
不要提前购买资源,而是考虑以下解决云支出问题的方法:
- 调整规模
- 自动缩放
- 装箱
- 资源调度。
#2:陷入过度配置的陷阱
当团队选择的资源大于实际运行工作负载所需时,就会发生资源过度配置。这种做法背后是一种安全意识,因为没有人希望应用程序的运行中断。
在某些企业环境中,团队习惯于“以防万一”而获取超出实际工作负载所需的资源。虽然从性能角度来看,这种做法对工程师来说完全合理,但它会造成云资源浪费和成本增加。
过度配置有什么问题?
最简单的答案是,这会导致云资源浪费和不必要的开支,而且这些开支可能会失控。
从长远来看,让团队养成过度配置资源的习惯绝非明智之举。如果你为了保险起见,习惯性地选择比工作负载所需更大的实例,那么随着公司和应用程序的增长,想想这会造成怎样的后果。你最终会为此付出高昂的代价。
难道把这笔钱花在更有意义的事情上不是更好吗?例如,用来应对气候危机——顺便说一句,过度供应加剧了这个问题。
如何处理资源过度配置?
通常的做法是投资定制化的监控和成本管理解决方案。这些方案提供的资源优化建议可以帮助你减少对过度配置资源的依赖,但你仍然需要手动实施这些建议。
另一种解决方案是自动化。自动调整资源规模可以选择最合适的实例类型和大小,既能满足应用程序的需求,又能降低成本。
每当集群需要额外的节点时,AI 驱动的实例选择算法会选择能够实现最佳性能的资源。
最棒的是,你的团队无需做任何事,一切都会自动发生。
由于过度配置已根深蒂固于许多组织的文化之中,因此建立成本优化机制以平衡性能、可靠性和成本至关重要。自动化可以成为推动组织更广泛变革的重要一步。
#3:被孤立的云资源所困扰
很容易为项目启动一个实例,然后忘记将其关闭。
因此,许多团队都在努力应对无人认领的孤立实例,这些实例虽然没有所有者,但仍会继续产生成本。
还记得Adobe的失误吗?他们每天因Azure意外产生8万美元的费用。这绝对是你想避免的问题。
对于同时开展众多项目且缺乏集中资源管理的大型组织而言,这个问题尤为突出。
在IT部门不知情的情况下,由外部机构管理的IT项目(影子IT)可能占到公司所有IT支出的40%。此外,研究表明,影子云的使用量可能是已知云使用量的10倍。
孤立的云资源有什么问题?
孤立的云资源意味着资金白白流失,并会带来复杂的可持续性问题。
简而言之,数据中心消耗大量电力和硬件,显著增加了信息通信技术行业的碳足迹。其能源需求每四年翻一番,而像AWS或Azure这样的服务提供商每开设一个新区域,都会加剧这个问题。
因此,减少云浪费是阻止不必要支出和相关碳足迹的关键。
如何应对这一挑战?
确保只运行真正需要的资源可能具有挑战性,尤其是在大型组织中。
但是,如何识别并停用未使用的实例呢?这时自动化又能派上用场了。
自动化云优化解决方案可以持续扫描您的使用情况,找出低效之处,并在可能的情况下精简资源。它们还可以关闭未使用的实例和进程,从而降低您的云成本。
第四点:应对需求波动不力
构建电子商务基础设施的工程师们深知形势瞬息万变。例如,一位网红的推荐就可能带来数百万美元的新销售额,也可能因流量激增而导致网站瘫痪。
大多数其他应用程序的使用情况也会随着时间的推移而发生变化,但在成本和性能之间取得平衡仍然是一个持续的挑战。
这有什么问题?
如果您的标签页一直开着,流量高峰可能会导致巨额且无法预料的云账单;如果您对应用程序的资源设置了严格的限制,则可能导致应用程序崩溃。
需求低迷时,你可能会支付过高的价格。而需求旺盛时,你为客户提供的服务质量可能较差。
是的,有一些云成本管理解决方案可以监控您的使用情况,并在超出设定水平或出现任何异常情况时实时发出警报。这些工具还可以为您提供有用的建议,帮助您根据当前需求调整云资源。
然而,手动扩展云容量既困难又耗时。
除了跟踪系统中发生的一切之外,您通常还需要注意以下事项:
- 优雅地应对流量高峰和低谷——并根据您使用的所有服务中每个虚拟机的资源进行扩展和缩减;
- 确保对一个工作负载所做的更改不会对其他工作负载造成任何问题;
- 自行配置和管理资源组,以确保其中包含适合您工作负载的资源。
如何解决这个问题?
这是云自动化可以发挥作用的另一个领域,它可以帮助您节省大量时间和金钱。
自动扩缩容可以自动处理上述所有任务,并有效控制云成本。如果您使用容器编排工具 Kubernetes,则可以受益于其内置的三种机制。
- 水平 Pod 自动扩缩容(HPA) 会根据应用的使用情况变化添加或移除 Pod 副本。它会监控应用,判断 Pod 副本数量是否需要调整,并计算移除或添加副本是否能使当前副本数量更接近目标值。
- 垂直 Pod 自动扩缩器(VPA) 可增加和减少 CPU 和内存资源请求,从而更好地使分配的集群资源与实际使用情况保持一致。
- 集群自动扩缩容程序会在受支持的平台上更改集群中的节点数量。如果它发现某个节点上的 Pod 可以重新调度到集群中的其他节点,则会将这些 Pod 驱逐出该节点并移除该备用节点。
在 CAST AI 等解决方案中,您只需定义水平和垂直自动扩展策略,其余的就交给自主优化工具来处理。
#5:未能充分利用现货实例的机会
云服务提供商以极低的价格出售其未使用的容量,尤其是与他们的常规按需服务相比,价格优势更为明显。
在 AWS 中,竞价型实例最高可享 90% 的折扣。
竞价型实例的难点是什么?
由于您竞标的是闲置的计算资源,因此您无法预知这些资源能持续可用多久。有些竞价型实例提供预定义的使用时长;例如,AWS 提供一种实例,可保证长达 6 小时的不间断使用。
但除此之外,服务提供商可以收回你正在使用的竞价实例,最短通知时间为 30 秒到 2 分钟。
这点时间不足以让人类做出反应。创建新的虚拟机也需要更多时间,因此存在潜在的停机风险。
因此,如果您决定使用竞价型实例,就必须接受中断在所难免的事实。显然,对于关键型或无法容忍中断的工作负载而言,竞价型实例并非最佳选择。
如何应对这一挑战?
尽管存在风险,但竞价型实例非常适合无状态且可横向扩展(即拥有多个副本)的服务。幸运的是,在现代架构中,大多数服务都是无状态的,因为 Kubernetes 就是为此类架构而设计的。
以下是使用竞价型实例的流程:
- 你需要评估你的工作负载以及它处理中断的能力。
- 接下来,您应该查看供应商提供的实例,并选择最符合您需求的实例。一个经验法则是选择使用频率较低的实例,并检查它们的故障频率。
- 现在是时候策略性地设定最高出价了,以避免价格上涨时可能出现的交易中断。
- 您还可以考虑将竞价实例分组管理,并申请多种类型,以增加实例被占用的几率。
您可以手动完成这些步骤,但要使一切正常运行,请准备好进行大量的配置、设置和维护任务。
这时自动化就派上用场了。除了上述流程之外,当您需要的竞价型实例暂时不可用时,自动化解决方案还能立即提供帮助。
Spot 实例回退等解决方案通过将受影响的工作负载临时迁移到按需节点,并在这些节点可用时自动将其恢复到 Spot 实例,从而保障容量。CAST AI 的这项功能目前支持 EKS、Kops 和 GKE 集群。
#6:延迟采用自动化云优化
我在本文中 已经多次提到自动化云优化,这是有原因的。
如果您已经采用了云原生技术,正在运行 Kubernetes,甚至可能正在使用现代 DevOps 方法——那么自动化基础设施的这一部分绝对是一个好主意。
云自动化被德勤列为2021 年及以后的顶级趋势之一,它能为 IT 团队带来切实可见的成果,尤其是在大型企业环境中。
首先,它减少了您在配置虚拟机、创建集群或选择合适的资源等方面所需的人工操作。这一改变节省了时间,使您的工程师能够专注于更重要的任务,例如创新和充分利用云基础设施。
此外,自动化工具能够实现更频繁的更新,这对于持续部署理念至关重要。它还能降低人为错误的概率,降低基础设施成本,提高系统的安全性和弹性,并增强备份流程。
最后,自动化使您能够了解公司内正在使用的资源,而这些资源原本是难以控制的。
简而言之,云自动化正在成为科技行业的 新常态。
推迟云自动化有什么问题?
如果云自动化带来了如此多无可争议的优势,而且似乎不可避免,为什么不是所有企业都争相采用呢?
自动化可能会带来诸多挑战,例如对新解决方案的抵触情绪、担心实施成本过高以及需要更新现有流程等。
与大多数数字化转型项目一样,成功的关键在于人,在于从人性层面鼓励变革。而就职场而言,麦肯锡的研究表明,员工普遍担心被技术取代。
然而,自动化带来的优势远远大于风险。例如,2021 年 DevOps 现状报告就充分证明了这一点,该报告显示,97% 的受访公司认为自动化提高了他们的工作质量。
推迟到 2022 年实现云自动化,意味着将错失以下好处:
- 为您的应用程序选择最高效的实例类型和大小;
- 自动扩展云资源以应对需求高峰和低谷;
- 剔除未用于降低成本的资源;
- 通过管理潜在的中断来优化竞价型实例;
- 减少存储、备份、安全、配置更改等其他领域的非必要支出——所有这些都是实时进行的,而且成本仅为手动实施所需成本的一小部分。
如何解决这个问题?
克服人类对变革和新方案的抵触情绪,这个问题由来已久。
仅仅提醒团队自动化云优化将使他们摆脱重复性任务的负担可能还不够。
眼见为实,亲身体验胜过千言万语。何不免费试用CAST AI,看看它能自动化团队云设置的哪些方面,以及能为您节省多少成本?
愿新的一年带给您爱、幸福和更低的云账单!希望您在2022年能够充分利用自动化云优化的优势。
文章来源:https://dev.to/castai/6-top-cloud-cost-optimization-issues-to-solve-in-2022-31h
