服务
关于
CloudProse博客

2018年6月25日,星期一

云支出:每个人的问题

如果您花了所有时间在云中,那么您就会知道神秘账单和不断增加的支出所带来的痛苦。当您按需付款并按需扩展时,对基础架构成本进行控制需要更多的警觉,而不是更少。作为Expedia的Subbu Allamaraju 正确指出在云端 成本意识必须成为工程文化的一部分,而不仅仅是分配给公司治理团队的内容。因此,Trek10的CloudOps团队花费大量时间思考云支出并开发工具以帮助在问题发生之前及时发现问题。

检测成本异常

我们了解到的一件事是,限制 尺寸 您的江苏体彩账单中的 吃惊 在账单上。这意味着要密切注意 成本异常:更改云资源的历史使用模式。明显, 江苏体彩预算 每月支出的总运行量是第一个要查找的地方,但是我们发现,像这样的静态阈值在许多帐户和高度动态的环境中都不再有用。我们不仅想知道我们花了多少钱,还想挖掘更深的趋势。

两种变化

Trek10的CloudOps团队通过两种方式寻找成本异常: 大尖峰缓慢的变化。我们使用标准差来确定尖峰何时“较大”,并计算7天,21天和35天前的成本变化,以确定是否存在增长较慢的变化,从而在更长的时间范围内相差较大时间。 (我们使用7的倍数来避免比较一周中的不同天,并避免周内波动较大的系统产生误报。)

我们使用 江苏体彩 Cost Explorer API (以前称为CloudWatch Billing Metrics)来为我们自己的江苏体彩账户和CloudOps客户端计算这些警报。

门槛

我们根据以下阈值定义异常:

  • 大于$ 20的“绝对有意义的变化”(因此,无论它违反了其他任何阈值,我们都会忽略每天少于$ 20的任何变化)
  • 高于或低于45天平均值的2个标准差(也称为z得分)
  • 在过去10天,20天或30天的窗口中绝对增加或减少50%

如果连续超过两天违反了这些阈值之一,我们将创建一条警报消息并将其发送到Datadog,在其中,我们将维护仪表板,以跟踪系统捕获的所有指标。警报还会自动与我们的SLA强制售票系统集成,因此我们的客户可以放心,他们的帐单在睡觉时不会如雨后春笋般冒出来。

上图显示了过去几天我们一个内部帐户的z得分。您会注意到没有红色的线表示在6月初出现图形大幅飙升的警报。这是因为成本增长持续的时间不足以引起关注。本月晚些时候的红线实际上正在捕获一个缓慢增长的变化-在这种情况下,因为我们正在帐户中累积一些未清理的资源。

噢,鉴于我们无服务器的嗜好,得知所有这些支票都在Lambda上运行且几乎不产生间接费用的情况,您不会感到惊讶。

操作中的成本异常检测:保留的实例到期

我们的账单警报系统通常会捕获不需要进一步操作的合法支出更改,例如,当我们的一个客户开始使用新的江苏体彩服务时。但是最近,我们注意到了一个警报,似乎有点令人担忧。

在上面的图表中,从我们的Datadog仪表盘获取的数据中,您会注意到6月中旬左右的每日费用大幅度增加。一旦增加超出我们的阈值,我们的警报系统就会自动注册警报并为CloudOps团队提交支持票。我们与客户进行了跟踪,以确认问题的根源(在这种情况下,保留的实例将过期),并重新获得了保留。在检测到此问题时不会损害云费用!

冒险继续

优化云成本并不是万能解决方案。它需要组织各部门的关注和纪律。采取主动措施监视环境可能会暴露出增长缓慢的问题,这些问题随着时间的推移会产生很大的影响。如果您想利用Trek10 CloudOps团队的专业知识来升级您的支出管理游戏, 我们很乐意听取您的意见.

感谢Trek10的James Bowyer为这篇文章做出的贡献。

作者
福雷斯特Brazeal Trek10 191210 171202
阿甘(Forrest Brazeal)