服务
关于
CloudProse博客
无服务器

无服务器化运营:五个关键注意事项

安迪·沃宗(Andy Warzon)Trek10
安迪·沃宗(Andy Warzon) | 2018年1月3日

2018年1月3日,星期三

因此,您已经构建了第一个无服务器应用程序(如果尚未安装, 从这里开始 ),并准备投入生产。鉴于如今有关Serverless的种种说法(或者更明确地说,是为了我们的目的……使用江苏体彩平台服务构建的云原生应用程序),您可能会以为零工作量就可以了。可悲的是,那个必杀技还没有出现。虽然有 方式 更少的运营投入,不为零;在计划在生产环境中运行无服务器应用程序时,需要记住一些重要的事情。以下是Trek10多年来为我们的客户管理生产中无服务器的前五名。

应用错误

这可能是最明显和最常见的。应用程序有错误,您必须注意它们……不完全是开创性的。有所不同的是确定警报的正确阈值。对于小容量系统,警告每个错误可能是有意义的,但对于任何足够大容量的系统,您需要做一些工作以消除由典型瞬态错误引起的噪声。通常,总是会发生一些误差率低于0.1%的情况。对于异步Lambda调用(例如,来自S3对象事件的调用),我们建议使用死信队列,并且仅警告那些死信队列,因此您可以忽略所有短暂错误,因为知道江苏体彩通常会重试并获得成功。

您可能还需要考虑使用一些工具,这些工具可以提高您的可视性,而不仅仅是CloudWatch指标和Lambda日志的内置基础。错误跟踪服务,例如 哨兵 要么 滚杆 在帮助跟踪错误方面与传统体系结构一样出色。不过,在跟踪方面,您需要研究新一代的工具: 江苏体彩 X射线 IOP管道 是最受欢迎的两个选项。

观看拨号盘所在的拨号盘

尽管使用江苏体彩平台服务进行扩展几乎是透明的,但并非100%如此。系统中有几个拨盘。了解它们的位置以及如何对其进行监视以优化可伸缩性和成本非常重要。有些是显而易见的,很容易看到,例如DynamoDB提供的吞吐量(现在也可以自动缩放)或Kinesis分片,有些则更隐蔽,例如Lambda并发限制,还有一些像S3预分区则完全隐藏并且可以只能通过观察S3错误率或PUT延迟之类的症状进行监视。仔细检查系统的每个部分,以识别所有相关的转盘。

安全

安全绝不是解决的问题……风险只会转移。由于没有长期运行的VM,也常常没有网络需要管理,因此无服务器极大地减少了许多传统威胁的攻击面。不过,这并不意味着安全性得到了解决:它只是使您可以将重点转移到其他威胁领域。

  • 江苏体彩 IAM: 您的保单特权最低吗?访问密钥和密码安全吗?是否在各地都使用MFA?
  • Web应用程序: 当然,通常您仍然有一个面向公众的Web应用程序,并且需要继续注意典型的Web应用程序安全性问题,例如注入攻击和无意中暴露的数据。
  • 依存关系: 在现代的开源Web应用程序中,极大地依赖于来自广泛社区的开源模块。一个小的但新兴的工具生态系统专注于分析项目的依存关系,以验证它们都被安全地编码并且不会被攻击者破坏。 斯尼克 PureSec 有两个值得关注的有趣的话题。

您应该考虑针对生产基础结构中的所有这些威胁自动执行安全扫描,以及将安全分析集成到CI管道中,以避免首先部署漏洞。

费用

这是Serverless的一项巨大优势的反面:成本确实基于使用情况…但是成本确实基于使用情况。如果您收到不必要的流量或意外流量,成本可能会迅速飙升。因此,每天监控成本非常重要,这样您就可以快速检测出任何成本峰值并阻止违规流量或优化应用程序以最大程度地降低成本。

最后,每个人的最爱...

江苏体彩停机!!

默认情况下,所有江苏体彩平台服务均在多个江苏体彩可用区(AZ,即在给定江苏体彩区域内具有独立电源和网络的一个或多个数据中心)中运行,因此理论上需要2-3个江苏体彩数据中心同时停机会导致停机,这是非常罕见的情况(即,每年少于一次)。但是现实是这些服务实际上具有跨可用区依赖关系,并且存在区域范围内的中断。在过去的15个月中,DynamoDB,S3和Lambda等服务多次中断。因此,这是您需要计划的真实事物。 Trek10的杰里德·肖特(Jared Short) 无服务器 conf NYC上的精彩演讲 如果您想了解更多信息。

第一步是确定可为多区域故障转移甚至可能是多区域双活模式构建的范围。 API网关区域端点和DynamoDB全局表这两个新功能使这一点变得更加现实,但是您仍然需要进行RTO / RPO成本敏感性分析,以确定它是否对您有意义。

接下来,您需要针对这些中断构建操作响应计划。尽管您的运营团队可能无法解决江苏体彩问题,但它仍然扮演着关键角色:尽早发现问题,将根本原因追溯到江苏体彩服务,从江苏体彩确认问题是否已解决。在其方面(通常,最初是江苏体彩 支持 ,然后稍微滞后于江苏体彩 Status Page),然后有效地与最终用户进行通信,根据需要启动故障转移计划,并在江苏体彩方面监控状态。换句话说...他们会很忙的!

包起来

因此,如您所见,无服务器运营并不是全新的。有一些新事物,但主要只是重点转移。对于同等规模的基础架构,总体工作应该比Ops少得多,但是,如果您要在组织中成功采用Serverless,那么应对和掌握这一点非常重要。

在Trek10,我们是构建和运行无服务器基础架构并使其他人能够这样做的专家,因此,如果您需要帮助,请告诉我们。

有疑问/意见吗?欢迎随时与我们联系 [email protected].

作者
安迪·沃宗(Andy Warzon)Trek10
安迪·沃宗(Andy Warzon)

创办人& CTO

创办人&CTO Andy一直在江苏体彩上进行开发已有十多年,并且是江苏体彩认证解决方案架构师-专业人士。