发布于 2026-01-06 1 阅读
0

今年夏天,利用自动化技术保持云运营的最佳状态

今年夏天,利用自动化技术保持云运营的最佳状态

Gartner对基础设施和运维负责人进行的一项调查显示,58% 的负责人表示,他们日常工作中面临着云优化技能和资源不足的问题。那么,当夏季来临,工程师们开始大规模休假时,又会发生什么呢?

每个云运维团队都知道,夏季会带来季节性需求模式的变化。 

一方面,负责监控云资源的工程师人数减少。另一方面,由于其他人也涌向度假胜地,服务需求可能会降低。

根据不断变化的需求缩减云资源规模对于保持低运营成本和高利用率至关重要。但是,当团队中大部分成员都不在办公室时,该如何实现这一点呢?

当你的工程师不在时,如何管理云?

弥合行业云技能差距的一个行之有效的方法是利用托管服务提供商和解决方案。此类解决方案能够带来专业知识、成熟的流程和成熟的工具集,从而在诸多方面提升云的使用体验,从安全性到成本效益,无所不包。

此类解决方案可以帮助您的团队开展战术和技术方面的举措,提供有关特定云问题的专业知识,例如云成本管理和优化。

许多托管解决方案都依赖于自动化。其理念是将资源配置或监控等重复性任务的流程自动化,从而解放工程师,让他们能够从事其他更具影响力的工作。这样,工程师们就无需再将时间浪费在繁琐的手动任务上,而是可以专注于更具战略意义的工作,提高系统标准化程度,同时优化团队资源。 

金融科技公司Delio将 Kubernetes 集群的扩展流程自动化,只需几分钟即可自动完成,从而节省了大量工程师时间:

在实施 CAST AI 之前,增加实例规模有点麻烦。现在,我可以手动添加实例或增加实例规模,平台会自动完成。以前我们需要四五个人来管理这些,现在他们可以腾出时间去做其他事情了,这真是太好了。

Alex Le Peltier,Delio公司技术运营主管

需求低迷时减少产能 

使用带有抽象层的自动化工具,可以让团队摆脱直接处理云解决方案的复杂性。转向开箱即用、可自动扩展的云设置,您将朝着更顺畅的管理和成本节约迈进。

每个云运维团队都有一项共同的任务:配置云资源。而且每个团队都知道,这远比表面看起来复杂得多。通常情况下,你需要:

  • 确定应用程序在所有计算维度上的最低要求,包括 CPU(架构、数量和处理器选择)、内存、SSD 和网络连接。 
  • 从各种 CPU、内存、存储和网络容量组合中选择合适的实例类型。听起来很简单?AWS 提供400 多个实例
  • 选择合适的实例大小,确保它既满足应用程序的需求,又不会超出您的预算。您需要找到刚好够用的容量,但这并非易事。
  • 确定所需实例类型后,接下来就要了解不同的定价模式:按需实例、预留实例、优惠计划、竞价型实例和专用主机。每种模式都有其优缺点,您的选择将对云账单产生巨大影响。

云自动化解决方案可以处理所有这些任务:

  • 选择合适的云资源, 
  • 合理调整资源配置,避免过度配置。 
  • 根据不断变化的需求,实时调整它们的规模。
  • 并将它们停用,因为它们不再需要了(不再有孤立实例或影子 IT!)。

云原生云成本优化

云运维团队深知云会带来多少管理开销。难怪像 Delio 这样成熟的云原生公司会利用自动化来减轻工程师的负担

“我们之前使用的是T型EC2实例,并且在运营过程中频繁扩展。一开始我们使用AWS自动扩缩器,后来又加入了Azure。这样一来,要监控所有实例的运行情况就变得非常困难。我们是否为正确的任务使用了正确的实例?是否需要创建更多节点组?是否因为空间不足而导致某些功能无法正常运行?回答所有这些问题并进行修复,对我们的团队来说是一项非常耗时的任务,”Alex Le Peltier说道。

为夏季做好云基础设施准备

以下是您如何为夏季做好准备:为工程师配备自动化解决方案,然后就可以安心入睡了,因为您知道从成本角度来看,您的基础设施已经得到了妥善处理。

如果您使用 Kubernetes,请考虑使用专门针对Kubernetes 自动扩缩容的托管平台。例如,CAST AI 包含 Kubernetes 特有的自动化机制,可以更轻松地进行扩展和缩减:

  • 自动扩缩容——平台利用业务指标生成所需的最佳 Pod 实例数量。接下来,它会根据需要调整 Pod 的副本数量,并在没有任务需要处理时移除所有 Pod。CAST AI 正是通过这种方式确保使用的节点数量始终与应用程序的需求相匹配。
  • 预留资源策略——如果一个 Pod 突然请求的 CPU 或内存超过了任何节点上的可用资源,会发生什么情况?自动扩缩器可以通过保留一定的备用容量轻松满足需求。 

看看这张图表,它显示了请求资源与实际分配资源之间的差异(包括 CPU 和内存)。可以看到,团队启用自动扩展后,这个差异缩小了很多。 

接下来该你了

运行免费的节省报告,检查您的集群在自动扩展和成本效益方面的表现如何——它适用于 Amazon EKS、Kops、GKE 和 AKS。

文章来源:https://dev.to/castai/keep-cloud-operations-in-top-shape-this-summer-with-automation-2cgp