如何说服你的开发团队云成本管理的重要性?
由 Mux 主办的 DEV 全球展示挑战赛:展示你的项目!
软件工程师通常不关心基础设施成本,因为他们以前从未考虑过。
但是,如果放任团队自行管理,考虑到云资源的配置如此容易, 成本很容易失控。
我知道你在想什么:要让团队相信云成本的重要性简直太难了。即使你直接给出建议——这仍然是40% 的财务运营人员面临的最大挑战。
那么,你能做些什么呢?以我领导 CAST AI 开发团队的经验为例,我决定分享一些我们成功解决问题的技巧。
解释成本优化背后的原因
我经常听到这样的情况:云运营团队实施一个分析/优化工具,该工具会检查基础设施并生成一系列建议,最终这些建议会提交给工程部门进行实施。
当你要求工程师做一些额外的事情(并且很重视这件事)时,你需要向团队甚至整个公司解释这件事的价值。
你需要建立一套关于云成本的理论体系,才能让开发者开始思考财务运营(FinOps)方面的问题。我们看到Spotify成功地构建了一种以游戏化为驱动的文化,从而实现了云成本的节约。
以下是我的团队采用的叙事方式:
优化云成本不仅仅是降低成本,而是通过明智的资金管理和良好的财务习惯来消除浪费。
我们并不想阻止公司享受云计算带来的敏捷性和速度带来的好处。
但我们需要证明我们能够明智地利用资源。我们需要实现最佳的性价比。为此,我们需要致力于减少并最终消除浪费性支出。这就是我们监控、追踪和优化基础设施成本的原因。
为您的团队配备识别成本的流程。
通过标签提高成本驱动因素的可见性
如果你不知道每个团队使用了哪些服务,每项服务花费了多少钱,那么要求你的团队削减开支是没有意义的。
因此,第一步是让你了解成本驱动因素——无论对你还是对你的整个团队来说都是如此。
为你的团队建立一套标签系统,并要求大家在下个月内为资源添加标签。到月底,你就能轻松地将成本分配到各个团队了。
应该给哪些资源添加标签?AWS 的这份指南是一个很好的起点。
Airbnb建立了一套出色的归因分析方法。该公司为团队提供了所有关键信息,以便他们在成本和其他业务驱动因素之间进行权衡,从而将整体支出控制在设定的增长阈值之内。
通过提高成本驱动因素的可见性,Airbnb 激励工程师提出更具成本效益的架构设计变更。
加大监督力度,提高问责制
在工具包中添加警报和监控功能不仅仅是为了追究责任——它还能帮助你避免灾难。
Adobe 的一个团队曾因有人在 Azure 上未关闭一个正在运行的计算任务而产生了超过 50 万美元的计划外云账单。其实只需一个警报就能避免这种情况。
人都会犯错——在云计算领域,一个简单的错误就可能造成数千美元的损失。一位公司员工的一次键盘输入错误导致启动了一个远超实际需求的AWS实例。原本应该在周五结束的作业没有被关闭,而是运行了整个周末,最终导致公司损失了30万美元,而这笔费用原本是可以避免的。
通常情况下,账单数据会有一定的延迟才到达像 AWS Cost Explorer 这样的成本跟踪工具。如果您在月底查看云账单,可能会发现一笔不小的开支。事后排查成本问题既困难又昂贵。
投资实时监控和警报机制是明智之举,它可以在您特定服务的云支出超过设定的阈值时立即通知您。您也可以自行设置,或者定期查看基础设施账单来发现问题。
但在云计算领域,一切瞬息万变。曾有一个团队仅仅在几个小时的测试中就产生了 7.2 万美元的账单。
你无法负担安排专人手动监控云端的时间。而且你可能也没有时间亲自去做。这时,实时监控和告警工具就能派上用场了。但自动化才能真正将这一切提升到一个新的高度。
实施自动化,让每个人的生活更轻松
如果不配备合适的工具,要求员工更加关注云支出几乎是不可能的。标签、监控和告警固然大有裨益,但仍然有很多工作要做。可以肯定的是,工程师们对此并不满意——这并非他们当初选择这份工作的初衷。
实施自动化解决方案,让他们摆脱所有这些任务的困扰。
自动化工具会接管这些工作,并不断寻找成本优化机会。它不会生成一长串建议清单,而是会在您设定的限制范围内自行完成这些任务。
虽然可以手动进行标记或监控,但选择最具成本效益的实例或在竞价实例中断时替换它们以拯救工作负载却并非如此。
如果您使用 Kubernetes,以下是一个优化集群成本的自动化流程示例:
https://cast.ai/blog/what-is-autonomous-cloud-cost-optimization-and-what-can-you-gain-from-it/
文章来源:https://dev.to/castai/how-to-convince-your-dev-team-that-cloud-cost-management-is-important-kl4