服务
关于
CloudProse博客

2018年6月22日,星期五

对于来自内部部署或传统架构的公司,基于云的分布式架构的监视环境可能会令人迷惑。您应该监视哪些指标?您应该使用哪些工具和提供程序?您如何集中数据并将其关联以获得关于生产系统的可行见解?

如果您要问这些问题,这篇文章适合您,希望它对您有所帮助。我们还将分享Trek10运营我们的经验的一些看法 CloudOps托管服务.

一个警告:该建议针对除规模最大的系统以外的所有系统。如果您有一个非常庞大和复杂的分布式系统,则可能需要对监控进行不同的思考&可观察性。就是说,我们的经验是,即使是最大的企业,大多数也都专注于不满足此阈值的应用,而关注传统的汇总指标是合适的。

首先,我们发现您需要考虑六个主要类别的指标。在以后的文章中,我们将更深入地介绍其中的每一个,但让我们从高层次的概述开始。

六片云监控饼

嗯,派。

VM指标

就像本地VM环境一样,如果您正在运行VM(AWS中为EC2),则需要一个在虚拟机上运行的代理来收集传统的系统指标:CPU,RAM,磁盘和网络接口指标。与本地世界有些区别:

  • 将更多重点放在自动缩放组/群集的聚合指标上。当您开始治疗自己的 像牛一样的宠物,您实际上只需要在个别VM异常时关注它们。
  • 确保您的系统警报可以正常处理应该是临时性的虚拟机(换句话说,当应该自动缩放以使其关闭时,请不要警告我该虚拟机处于脱机状态!)。

云提供商指标

在AWS世界中,这是 CloudWatch 。这些对于EC2实例至关重要(它们为您提供系统的虚拟机监控程序视图),但对于所有其他AWS托管服务而言尤其如此,因为它们实际上是您深入了解服务运行状况和应用程序的运行状况的唯一途径。用于探索和仪表化这些指标的AWS工具越来越好,但是您也可以将CloudWatch指标导出到其他监视工具。

外部正常运行时间/ Ping指标

进行监视时,始终具有“最后一道防线”非常重要……如果所有其他指标都无法将即将发生的问题通知您,或者如果指标本身存在问题,则可以对您的公共端点执行ping操作尽快将中断情况通知您。

应用程序性能监视(APM)

无论您是在云中还是在本地,APM视图都是至关重要的:从客户的角度来看,应用程序的性能如何?如果存在问题,那么客户交易流程的瓶颈在哪里?

日志汇总

首先,当您迁移到云中时,必须交付日志。任何有用的日志都不应停留在实例上。但是更进一步,一旦将所有日志汇总到一个工具中,您就可以开始从这些日志中绘制图表和仪表板趋势,并与其他指标相关联。

自定义指标

最后一个类别通常被忽略但很关键。使用一些自定义指标来为您的应用程序进行检测通常通常会真正成为重要问题的核心:正确的业务事件是否发生以及它们需要花费多长时间?自定义指标也是跟踪后台作业和其他后端活动的好方法。

Trek10的监视工具带

我们将在这里进行介绍,并解释一些我们选择的工具& providers.

数据狗: 我们是的忠实粉丝 数据狗 能够在单个工具中处理以上几种类别的功能:VM指标,CloudWatch集成和(较新的)代理 APM 测井 产品。同样重要的是Datadog的大型图书馆 预先集成,因此,当您需要为某些指标(例如New Relic,Pingdom或SumoLogic)选择其他工具时,只需单击几下鼠标,就可以实现难以捉摸的“单一窗格”。 数据狗 还具有最简单,功能最强大的自定义指标功能集之一,它具有多种方法,只需几行代码即可推送指标。锦上添花的是一个美丽的用户界面和供高级用户使用的深层功能。给你一个主意...

Trek10 Pinger: 在这个空间里不乏选择: 平度 是最知名的外部运行时间监控工具,一个有趣的更新选项是 顶平 。但是,在Trek10上,我们实际上决定构建自己的解决方案来满足我们作为MSP的独特要求,并将其与Datadog紧密集成。我们还添加了用于监视SSL和域到期的自定义功能,从而避免了可怕的SSL到期中断中的多个客户端!作为无服务器的沉重用户,我们当然可以使用Lambda来构建它。它在全球五个AWS区域中运行,因此不依赖于它所监视的工作负载甚至共享洲之间的共享依赖项!

数据狗 仪表板中的一些Pinger指标:

APM : New Relic和AppDynamics是传统体系结构的市场领导者,我们发现这些工具对于基于EC2的应用程序仍然是最简单,最强大的工具。但是在Trek10,我们花了大量时间与 无服务器 /基于平台服务的应用程序,这是一个更大的开放空间。我们正在密切关注趋势,包括两家有趣的初创公司,例如 IOP管道 通德拉 以及AWS的 X射线 服务。

关于所有这些类别,还有更多要说的话,因此请寻找更多帖子。同时,请查看 我们博客的其余部分 , 跟着我们 @ Trek10Inc 让我们知道 如果我们可以帮助您进行云监控。

这是有关监视AWS中生产工作负载的系列文章中的第一篇。相关文章包括。

  1. 当前职位…
  2. CloudWatch 深入研究
  3. 自定义指标深入研究
作者
安迪·沃宗(Andy Warzon)Trek10
安迪·沃宗(Andy Warzon)

创办人& CTO

创办人&CTO Andy一直在AWS上进行开发已有十多年,并且是AWS认证解决方案架构师-专业人士。