• 工作总结
  • 工作计划
  • 读后感
  • 发言稿
  • 心得体会
  • 思想汇报
  • 述职报告
  • 作文大全
  • 教学设计
  • 不忘初心
  • 打黑除恶
  • 党课下载
  • 主题教育
  • 谈话记录
  • 申请书
  • 对照材料
  • 自查报告
  • 整改报告
  • 脱贫攻坚
  • 党建材料
  • 观后感
  • 评语
  • 口号
  • 规章制度
  • 事迹材料
  • 策划方案
  • 工作汇报
  • 讲话稿
  • 公文范文
  • 致辞稿
  • 调查报告
  • 学习强国
  • 疫情防控
  • 振兴乡镇
  • 工作要点
  • 治国理政
  • 十九届五中全会
  • 教育整顿
  • 党史学习
  • 建党100周
  • 当前位置: 蜗牛文摘网 > 实用文档 > 公文范文 > 云计算平台的智能监控研究

    云计算平台的智能监控研究

    时间:2023-03-23 17:50:04 来源:千叶帆 本文已影响

    陆宁

    (广西壮族自治区信息中心,广西 南宁 530200)

    随着云计算技术的不断发展,基于云计算平台部署的网络、应用系统复杂度日渐提高,使云平台运维管理工作难度也随之急剧上升。而云、网、系统之间的协同运行管理边界也越来越复杂,进一步增加了云平台日常运维压力。因此研究云计算平台的智能监控方式,有助于提高云平台运行管理效率和服务支撑水平。

    (1)运维管理被动。故障发生时,管理人员难以主动、及时地发现,往往在故障影响范围扩大、用户体验度下降后,才能被动响应。

    (2)故障排查低效。由于云平台上的应用系统规模庞大复杂,故障排查效率难以提升。在故障定位方面,存在多种运行环境、多个运维团队、多个技术厂商。缺乏统一的监测标准和管理手段,在孤岛模式独立排查将大量耗费人力、时间资源。

    (3)划分责任边界难。云平台运维管理服务于各云业务资源使用用户,云平台作为基础支撑平台与在其基础上运行的系统资源,管理方各不相同,发生业务故障时无法快速界定责任方。

    (4)故障溯源困难。随着全国各类关键信息系统的可用性要求变高,需要在发生故障后,精准定位问题快速恢复使用。

    (5)容量性能管理难。对网络、应用、业务的运行状态可见性不够,使得政务系统整体的容量性能评估依据不足,无法得知复杂环境中每个环节的容量、性能情况,也无法准确了解容量性能瓶颈,并评估云平台、网络等对业务造成的影响。

    2.1 研究目标

    (1)实现运维故障主动感知,主动探测故障。传统运维监控平台都是出现故障后,先是业务系统得到感知,再由业务系统通知运维侧。造成故障感知滞后,通过智能监测平台主动发现故障,并及时通知业务系统,避免“被动挨打”。从“被动通知有故障”到“主动发现问题”的转变。著名咨询机构Gartner 把IT 管理体系分为经营管理、业务监控、应用分析、网络性能分析、系统架构监控5 个层次(图1),需将业务监控入当成是第一感知源,才能有效扭转运维工作面临的故障信息感知滞后的局面[1]。通过构建业务级端到端视图和业务运行分级预警,犹如在云网关键节点设立业务神经感知网络,能够第一时间发现“业务故障踪迹”。

    图1 IT 管理体系

    (2)快速定位故障,责任边界划分。常规故障定位均是由业务系统侧发起,通知云、网侧去排查云平台、网络和硬件设备。智能监控平台通过网络、设备、虚机状态全局分析,快速定位故障点,为业务系统故障排查提供强力佐证。

    (3)平台和设备性能状态全知晓,提前应对风险。对网络、设备、虚拟机状态的全局分析,对发生的故障状态、阈值进行机器学习,对故障预警算法根据现网环境进行优化。当平台和设备出现异常波动时,及时做出风险预警。

    2.2 研究技术思路

    目前主流的业务、网络、云上数据性能分析和监控有三大技术流派,分别是流量分析流派、日志流派和代理插件流派。

    流量分析流派通过旁路镜像技术获得真实的业务流量数据,实时生成各类评估指标,实现业务性能感知、业务故障分级预警、网络流量可视化监测、网络性能回溯分析等能力,用于业务和网络性能监测、故障诊断定位及各类事件的实时分析和数据取证[2]。

    日志流派记录硬件、软件和各类系统的日志信息,可以监视系统中发生的事件。采用该技术,用户可以检查错误发生的原因,寻找受到攻击时攻击者留下的痕迹。日志包括系统日志、应用程序日志和安全日志等。

    代理插件流派对关键业务应用进行监测和获取优化信息,以实现性能管理和故障诊断,提高关键业务应用的可靠性和业务访问质量,保障用户得到良好的服务;
    覆盖5 个方面的能力,包括终端用户体验、应用架构映射、应用事务的分析、深度应用诊断和数据分析。

    从占用资源、信源采集方式、覆盖广度、实施风险、数据可靠性、部署周期等维度对比,优选技术成熟,部署影响最小,且见效最快的流量分析流派,作为云智能监控平台的首选技术。从平台的组成和分析方法考虑,至少包含4 个层面,即业务流量采集层、网络报文解析层、监控与接口层、数据分析层。各层环环相扣,从基础业务数据采集到业务逻辑梳理和建模,再经过大数据分析加工产生各类业务网络指标,最后结合运维场景进行统一呈现。

    (1)采集层,是平台架构的数据来源,在物理网络汇聚节点通过交换机镜像技术或云平台引流技术,采集实时交互的业务流量数据。

    (2)网络报文解析层,对采集到的全部业务数据进行过滤(业务访问逻辑梳理)、初步加工(数据预处理),最终汇集到智能解码引擎(业务报文解码)进行实时处理。

    (3)监控与接口层,智能解码引擎基于各类应用平台的协议规范完成解码后,依据不同的运维场景执行监控动作,包括业务分级预警、指标趋势分析、访问明细追踪、生成运维报表等,相关数据可以通过接口向外推送。

    (4)数据分析层,针对不同场景需求,定义分析视图,完成指标与使用场景的匹配和展示。云智能监控平台主要覆盖的区域包括云出口、云核心、云汇聚、云主机和云安全管理等的区域。在核心交换机区域做端口镜像流量采集点,实现对全局流量的分析。在云内虚机部署微探针,实现对云内流量的采集和分析。

    2.3 主要研究过程

    云计算平台开展智能监控,主要从3 个过程进行分析,即主动监测分析快速定位故障、端到端精细化追踪降低监测误报率、统一监控度量标准实现精准预警。

    2.3.1 主动监测分析快速定位故障

    采用网络探针、海量日志归等的技术对云平台关键区域实施全天候、全流量主动监测,结合网络流量报表,基础设施日志等信息加以对比分析,缩小故障范围,快速定位故障发生的位置,旨在主动发现网络流量突发性暴增或暴跌、业务系统计算资源(CPU、内存、存储等)和网络需求超出基础设施上限、设备老化失灵宕机、人为误操作等可能造成业务系统中断的故障现象[3]。

    通过在基础网络核心节点部署网络探针,云主机侧部署微探针捕捉全应用场景的南北向、东西流量,结合SNMP 协议、IPMI 和EFK 等工具搜集并归总分布在基础网络设备、服务器运行情况、操作系统及基础软件服务日志。最后将归总后的日志数据进行加工统一日志格式与聚合,存储到监控后端时序型数据库便于后期的检索和查询。

    2.3.2 端到端精细化追踪降低监测误报率

    为进一步提高云平台主动监测的有效性、时效性,采用端到端链式跟踪的技术,从业务系统客户端发出请求抵达业务系统边界开始,跟踪记录请求流经的各个应用服务的跨度(网络传输、系统调用、业务处理、数据落盘等),直到向客户端返回响应为止。分析各阶段的响应结果和耗时、系统调用返回结果、系统异常信息、消息报文等性能指标,缩小故障现象的范围,提高故障排查的速度,确保精准性和可靠性。

    实现端到端链式跟踪,目的是为排查故障和分析性能提供数据支持。在系统对外提供服务的过程中,持续地接受请求并处理响应,同时持续地生成跟踪记录,按次序整理并跟踪记录中每一个应用服务跨度的调用关系,能够绘制出一幅系统的服务调用拓扑图[4]。根据拓扑图中应用服务跨度记录的时间信息和响应结果(正常或异常返回),可以定位到缓慢或者出错的服务;
    将跟踪记录与历史记录进行对比统计,可以从系统整体层面分析服务性能,达到优化故障定位性能的目标。

    基于日志和网络流量的跟踪技术是将跟踪记录、应用服务跨度等信息直接集成到采集的日志中,然后随着所有节点的日志归集过程汇聚到一起,根据全局日志信息中反推出完整的调用链拓扑关系。

    2.3.3 统一监控度量标准实现精准预警

    从总体上来看,统一监控度量可分为网络流量和终端日志数据的指标收集、服务端的存储查询以及终端的监控预警3 个相对独立的过程。度量的目的是揭示系统的总体运行状态;
    统一监控度量能够采用经过聚合统计后的高维度信息,以最简单、直观的方式分析系统复杂运行过程,为监控、预警提供决策支持。

    指标收集部分要解决两个问题,即“如何定义指标”以及“如何将这些指标告诉服务端”。无论目标是何系统,都具备一些共性特征。在确定目标系统前无法决定要收集什么指标,但指标的数据类型是可数的,即通过设计指标的数据类型确定目标系统要收集的指标。

    (1)计数度量器。计数器为最常用的指标形式,对有相同量纲、可加减数值的合计量,像服务调用次数、网站访问人数等都属于计数器指标。

    (2)瞬态度量器。瞬态度量器用来表示某个指标在某个时点的数值,比如Java 虚拟机内存的使用量或云平台用户在线人数都属于瞬态度量器。

    (3)吞吐率度量器。吞吐率度量器是用于统计单位时间的吞吐量,即单位时间内某个事件的发生次数。譬如交易系统中常以TPS 衡量事务吞吐率,即一秒内发生了多少笔事务交易。

    (4)直方图度量器。直方图是常见的二维统计图,包含两个坐标,分别是统计样本和该样本对应的某个属性的度量,以长条图的形式表示具体数值。

    (5)采样点分位图度量器。分位图是统计学中通过比较各分位数的分布情况的工具,用于验证实际值与理论值的差距,评估理论值与实际值之间的拟合度。

    在解决“如何将这些指标告诉服务端”的问题时,通常采用拉取式采集或推送式采集方案。所谓拉取式采集,强调主动从目标系统中拉取指标。与之相对,推送式采集就是由目标系统主动推送指标。指标从目标系统采集过来之后,应存储在后端监控时序型数据库中,方便后续的分析界面、监控预警所使用。时序数据库用于存储跟随时间而变化的数据,并且以时间(时间点或者时间区间)来建立索引的数据库[5]。

    指标度量是手段,最终目的是做分析和预警。良好的可视化能力对于提升度量系统的产品力十分重要,长期趋势分析(如根据对磁盘增长趋势的观察判断什么时候需要扩容)、对照分析(如版本升级后对比新旧版本的性能、资源消耗等方面的差异)、故障分析(不仅从日志、追踪自底向上可以分析故障,高维度的度量指标也可能自顶向下寻找到问题的端倪)等分析工作,既需要度量指标的持续收集、统计,还需要对数据进行可视化,才能完成数据规律挖掘。

    度量信息的另一种主要的消费途径是用来做预警。如当磁盘消耗超过90%时给用户发送一封邮件或是一条微信消息,通知管理员过来处理,则能完成系统故障预警。通过设置某个指标在多长时间内达到何种条件就会触发预警状态,触发预警后,根据接收器的策略(邮件接收器、Slack 接收器、微信接收器,或者以通用的WebHook(opens new window)接收器等)自动通知用户。

    云网智能监测平台与传统的主机监控有相似和重合的地方,如计算、存储、网络等主机资源的监控,对进程、磁盘IO、网络流量等系统指标的监控等。

    针对云网智能监测平台实施运维监控,依然需采用传统的监控指标,但还需考虑到云原生中采用的容器、服务网格、微服务等新技术、新架构的监控需求和面临的运维挑战。例如,在资源层面要实现CPU、内存等在容器、Pod、Service、Tenant 等不同层次的识别和映射;
    在进程的监控上要能够精准识别到容器,甚至需细化到进程的系统调用、内核功能调用等层面;
    在网络上,除了主机物理网络之外,还包括Pod 之间的虚拟化网络,并且需对应用之间的Mesh 网络流量实施观测。

    从应用层来看,在微服务架构下,主机上的应用变得异常复杂,既包括应用本身的平均延时、应用间的API 调用链、调用参数等,还包括应用所承载的业务信息,比如业务调用逻辑、参数等信息。

    通过分析应用系统的指标、链路、日志等数据,构建完整的观测模型,从而实现故障诊断、原因分析和快速恢复。

    猜你喜欢 日志运维监控 The Great Barrier Reef shows coral comeback疯狂英语·新读写(2021年10期)2021-12-07一名老党员的工作日志华人时刊(2021年13期)2021-11-27扶贫日志心声歌刊(2020年4期)2020-09-07运维技术研发决策中ITSS运维成熟度模型应用初探中国交通信息化(2019年5期)2019-08-30你被监控了吗?新世纪智能(英语备考)(2019年4期)2019-06-26Zabbix在ATS系统集中监控中的应用铁道通信信号(2019年11期)2019-05-21雅皮的心情日志思维与智慧·上半月(2018年9期)2018-09-22风电运维困局能源(2018年8期)2018-09-21杂乱无章的光伏运维 百亿市场如何成长能源(2017年11期)2017-12-13游学日志小学生(看图说画)(2017年6期)2017-11-06
    相关热词搜索:监控智能计算

    • 名人名言
    • 伤感文章
    • 短文摘抄
    • 散文
    • 亲情
    • 感悟
    • 心灵鸡汤