云计算平台的智能监控研究

时间：2023-03-23 17:50:04 来源：千叶帆本文已影响人

陆宁

（广西壮族自治区信息中心，广西南宁 530200）

随着云计算技术的不断发展，基于云计算平台部署的网络、应用系统复杂度日渐提高，使云平台运维管理工作难度也随之急剧上升。而云、网、系统之间的协同运行管理边界也越来越复杂，进一步增加了云平台日常运维压力。因此研究云计算平台的智能监控方式，有助于提高云平台运行管理效率和服务支撑水平。

（1）运维管理被动。故障发生时，管理人员难以主动、及时地发现，往往在故障影响范围扩大、用户体验度下降后，才能被动响应。

（2）故障排查低效。由于云平台上的应用系统规模庞大复杂，故障排查效率难以提升。在故障定位方面，存在多种运行环境、多个运维团队、多个技术厂商。缺乏统一的监测标准和管理手段，在孤岛模式独立排查将大量耗费人力、时间资源。

（3）划分责任边界难。云平台运维管理服务于各云业务资源使用用户，云平台作为基础支撑平台与在其基础上运行的系统资源，管理方各不相同，发生业务故障时无法快速界定责任方。

（4）故障溯源困难。随着全国各类关键信息系统的可用性要求变高，需要在发生故障后，精准定位问题快速恢复使用。

（5）容量性能管理难。对网络、应用、业务的运行状态可见性不够，使得政务系统整体的容量性能评估依据不足，无法得知复杂环境中每个环节的容量、性能情况，也无法准确了解容量性能瓶颈，并评估云平台、网络等对业务造成的影响。

2.1 研究目标

（1）实现运维故障主动感知，主动探测故障。传统运维监控平台都是出现故障后，先是业务系统得到感知，再由业务系统通知运维侧。造成故障感知滞后，通过智能监测平台主动发现故障，并及时通知业务系统，避免“被动挨打”。从“被动通知有故障”到“主动发现问题”的转变。著名咨询机构Gartner 把IT 管理体系分为经营管理、业务监控、应用分析、网络性能分析、系统架构监控5 个层次（图1），需将业务监控入当成是第一感知源，才能有效扭转运维工作面临的故障信息感知滞后的局面[1]。通过构建业务级端到端视图和业务运行分级预警，犹如在云网关键节点设立业务神经感知网络，能够第一时间发现“业务故障踪迹”。

图1 IT 管理体系

（2）快速定位故障，责任边界划分。常规故障定位均是由业务系统侧发起，通知云、网侧去排查云平台、网络和硬件设备。智能监控平台通过网络、设备、虚机状态全局分析，快速定位故障点，为业务系统故障排查提供强力佐证。

（3）平台和设备性能状态全知晓，提前应对风险。对网络、设备、虚拟机状态的全局分析，对发生的故障状态、阈值进行机器学习，对故障预警算法根据现网环境进行优化。当平台和设备出现异常波动时，及时做出风险预警。

2.2 研究技术思路

目前主流的业务、网络、云上数据性能分析和监控有三大技术流派，分别是流量分析流派、日志流派和代理插件流派。

流量分析流派通过旁路镜像技术获得真实的业务流量数据，实时生成各类评估指标，实现业务性能感知、业务故障分级预警、网络流量可视化监测、网络性能回溯分析等能力，用于业务和网络性能监测、故障诊断定位及各类事件的实时分析和数据取证[2]。

日志流派记录硬件、软件和各类系统的日志信息，可以监视系统中发生的事件。采用该技术，用户可以检查错误发生的原因，寻找受到攻击时攻击者留下的痕迹。日志包括系统日志、应用程序日志和安全日志等。

代理插件流派对关键业务应用进行监测和获取优化信息，以实现性能管理和故障诊断，提高关键业务应用的可靠性和业务访问质量，保障用户得到良好的服务；
覆盖5 个方面的能力，包括终端用户体验、应用架构映射、应用事务的分析、深度应用诊断和数据分析。

从占用资源、信源采集方式、覆盖广度、实施风险、数据可靠性、部署周期等维度对比，优选技术成熟，部署影响最小，且见效最快的流量分析流派，作为云智能监控平台的首选技术。从平台的组成和分析方法考虑，至少包含4 个层面，即业务流量采集层、网络报文解析层、监控与接口层、数据分析层。各层环环相扣，从基础业务数据采集到业务逻辑梳理和建模，再经过大数据分析加工产生各类业务网络指标，最后结合运维场景进行统一呈现。

（1）采集层，是平台架构的数据来源，在物理网络汇聚节点通过交换机镜像技术或云平台引流技术，采集实时交互的业务流量数据。

（2）网络报文解析层，对采集到的全部业务数据进行过滤（业务访问逻辑梳理）、初步加工（数据预处理），最终汇集到智能解码引擎（业务报文解码）进行实时处理。

（3）监控与接口层，智能解码引擎基于各类应用平台的协议规范完成解码后，依据不同的运维场景执行监控动作，包括业务分级预警、指标趋势分析、访问明细追踪、生成运维报表等，相关数据可以通过接口向外推送。

（4）数据分析层，针对不同场景需求，定义分析视图，完成指标与使用场景的匹配和展示。云智能监控平台主要覆盖的区域包括云出口、云核心、云汇聚、云主机和云安全管理等的区域。在核心交换机区域做端口镜像流量采集点，实现对全局流量的分析。在云内虚机部署微探针，实现对云内流量的采集和分析。

2.3 主要研究过程

云计算平台开展智能监控，主要从3 个过程进行分析，即主动监测分析快速定位故障、端到端精细化追踪降低监测误报率、统一监控度量标准实现精准预警。

2.3.1 主动监测分析快速定位故障

采用网络探针、海量日志归等的技术对云平台关键区域实施全天候、全流量主动监测，结合网络流量报表，基础设施日志等信息加以对比分析，缩小故障范围，快速定位故障发生的位置，旨在主动发现网络流量突发性暴增或暴跌、业务系统计算资源（CPU、内存、存储等）和网络需求超出基础设施上限、设备老化失灵宕机、人为误操作等可能造成业务系统中断的故障现象[3]。

通过在基础网络核心节点部署网络探针，云主机侧部署微探针捕捉全应用场景的南北向、东西流量，结合SNMP 协议、IPMI 和EFK 等工具搜集并归总分布在基础网络设备、服务器运行情况、操作系统及基础软件服务日志。最后将归总后的日志数据进行加工统一日志格式与聚合，存储到监控后端时序型数据库便于后期的检索和查询。

2.3.2 端到端精细化追踪降低监测误报率

为进一步提高云平台主动监测的有效性、时效性，采用端到端链式跟踪的技术，从业务系统客户端发出请求抵达业务系统边界开始，跟踪记录请求流经的各个应用服务的跨度（网络传输、系统调用、业务处理、数据落盘等），直到向客户端返回响应为止。分析各阶段的响应结果和耗时、系统调用返回结果、系统异常信息、消息报文等性能指标，缩小故障现象的范围，提高故障排查的速度，确保精准性和可靠性。

实现端到端链式跟踪，目的是为排查故障和分析性能提供数据支持。在系统对外提供服务的过程中，持续地接受请求并处理响应，同时持续地生成跟踪记录，按次序整理并跟踪记录中每一个应用服务跨度的调用关系，能够绘制出一幅系统的服务调用拓扑图[4]。根据拓扑图中应用服务跨度记录的时间信息和响应结果（正常或异常返回），可以定位到缓慢或者出错的服务；
将跟踪记录与历史记录进行对比统计，可以从系统整体层面分析服务性能，达到优化故障定位性能的目标。

基于日志和网络流量的跟踪技术是将跟踪记录、应用服务跨度等信息直接集成到采集的日志中，然后随着所有节点的日志归集过程汇聚到一起，根据全局日志信息中反推出完整的调用链拓扑关系。

2.3.3 统一监控度量标准实现精准预警

从总体上来看，统一监控度量可分为网络流量和终端日志数据的指标收集、服务端的存储查询以及终端的监控预警3 个相对独立的过程。度量的目的是揭示系统的总体运行状态；
统一监控度量能够采用经过聚合统计后的高维度信息，以最简单、直观的方式分析系统复杂运行过程，为监控、预警提供决策支持。

指标收集部分要解决两个问题，即“如何定义指标”以及“如何将这些指标告诉服务端”。无论目标是何系统，都具备一些共性特征。在确定目标系统前无法决定要收集什么指标，但指标的数据类型是可数的，即通过设计指标的数据类型确定目标系统要收集的指标。

（1）计数度量器。计数器为最常用的指标形式，对有相同量纲、可加减数值的合计量，像服务调用次数、网站访问人数等都属于计数器指标。

（2）瞬态度量器。瞬态度量器用来表示某个指标在某个时点的数值，比如Java 虚拟机内存的使用量或云平台用户在线人数都属于瞬态度量器。

（3）吞吐率度量器。吞吐率度量器是用于统计单位时间的吞吐量，即单位时间内某个事件的发生次数。譬如交易系统中常以TPS 衡量事务吞吐率，即一秒内发生了多少笔事务交易。

（4）直方图度量器。直方图是常见的二维统计图，包含两个坐标，分别是统计样本和该样本对应的某个属性的度量，以长条图的形式表示具体数值。

（5）采样点分位图度量器。分位图是统计学中通过比较各分位数的分布情况的工具，用于验证实际值与理论值的差距，评估理论值与实际值之间的拟合度。

在解决“如何将这些指标告诉服务端”的问题时，通常采用拉取式采集或推送式采集方案。所谓拉取式采集，强调主动从目标系统中拉取指标。与之相对，推送式采集就是由目标系统主动推送指标。指标从目标系统采集过来之后，应存储在后端监控时序型数据库中，方便后续的分析界面、监控预警所使用。时序数据库用于存储跟随时间而变化的数据，并且以时间（时间点或者时间区间）来建立索引的数据库[5]。

指标度量是手段，最终目的是做分析和预警。良好的可视化能力对于提升度量系统的产品力十分重要，长期趋势分析（如根据对磁盘增长趋势的观察判断什么时候需要扩容）、对照分析（如版本升级后对比新旧版本的性能、资源消耗等方面的差异）、故障分析（不仅从日志、追踪自底向上可以分析故障，高维度的度量指标也可能自顶向下寻找到问题的端倪）等分析工作，既需要度量指标的持续收集、统计，还需要对数据进行可视化，才能完成数据规律挖掘。

度量信息的另一种主要的消费途径是用来做预警。如当磁盘消耗超过90%时给用户发送一封邮件或是一条微信消息，通知管理员过来处理，则能完成系统故障预警。通过设置某个指标在多长时间内达到何种条件就会触发预警状态，触发预警后，根据接收器的策略（邮件接收器、Slack 接收器、微信接收器，或者以通用的WebHook（opens new window）接收器等）自动通知用户。

云网智能监测平台与传统的主机监控有相似和重合的地方，如计算、存储、网络等主机资源的监控，对进程、磁盘IO、网络流量等系统指标的监控等。

针对云网智能监测平台实施运维监控，依然需采用传统的监控指标，但还需考虑到云原生中采用的容器、服务网格、微服务等新技术、新架构的监控需求和面临的运维挑战。例如，在资源层面要实现CPU、内存等在容器、Pod、Service、Tenant 等不同层次的识别和映射；
在进程的监控上要能够精准识别到容器，甚至需细化到进程的系统调用、内核功能调用等层面；
在网络上，除了主机物理网络之外，还包括Pod 之间的虚拟化网络，并且需对应用之间的Mesh 网络流量实施观测。

从应用层来看，在微服务架构下，主机上的应用变得异常复杂，既包括应用本身的平均延时、应用间的API 调用链、调用参数等，还包括应用所承载的业务信息，比如业务调用逻辑、参数等信息。

通过分析应用系统的指标、链路、日志等数据，构建完整的观测模型，从而实现故障诊断、原因分析和快速恢复。

猜你喜欢日志运维监控 The Great Barrier Reef shows coral comeback疯狂英语·新读写(2021年10期)2021-12-07一名老党员的工作日志华人时刊(2021年13期)2021-11-27扶贫日志心声歌刊(2020年4期)2020-09-07运维技术研发决策中ITSS运维成熟度模型应用初探中国交通信息化(2019年5期)2019-08-30你被监控了吗？新世纪智能(英语备考)(2019年4期)2019-06-26Zabbix在ATS系统集中监控中的应用铁道通信信号(2019年11期)2019-05-21雅皮的心情日志思维与智慧·上半月(2018年9期)2018-09-22风电运维困局能源(2018年8期)2018-09-21杂乱无章的光伏运维百亿市场如何成长能源(2017年11期)2017-12-13游学日志小学生(看图说画)(2017年6期)2017-11-06

相关热词搜索：监控，智能，计算，

云计算平台的智能监控研究

2.1 研究目标

2.2 研究技术思路

2.3 主要研究过程

热门文章