初识IT运维监控

yuan 1年前 ⋅ 217 阅读

本文介绍了IT运维监控体系的概述及其重要性。运维监控可以从性能、链路、日志三个维度进行划分。文章还介绍了Metrics、Traces、Logs三个维度的表现形式和解决的问题,以及APM工具的作用。最后,介绍了几款常见的日志监控工具,包括Splunk、ELK、日志易和AnyRobot。总结:文章详细介绍了IT运维监控体系的概述和运维监控的重要性,并介绍了Metrics、Traces和Logs三个维度。同时,还介绍了APM工具的作用和几款常见的日志监控工具。

IT基础设施监控

1.IT运维监控体系概述

IT运维涵盖了多个方面,包括但不限于安装部署、配置管理、运维监控等。运维监控在IT运维中的重要性不言而喻,这句话“无监控,不运维”告诉我们了这一点。本文重点关注运维监控体系。IT运维监控体系可以从三个对象的角度进行划分,即性能(Metrics)、链路(Traces)、日志(Logs),可以参考图1、图2、图3、图4中所示。

图1:企业IT运维的三个维度

图2:三个维度的表现形式

图3:三个维度解决的不同问题

图4:如何利用三个维度解决问题

  • Metrics是最早期的运维关注点,其主要关注系统是否发生了问题,属于红海市场。
  • Traces是处于高速发展阶段,其主要关注系统发生问题的链路及源头,主要使用APM(Application Performance Management,简称APM)工具,通过对关键业务系统进行监测、告警与优化,不断改善业务可靠性与稳定性,为客户提供良好的服务,提升核心竞争力。
  • Logs相对而言,能够获得更多的安全、运维甚至运营信息,其主要关注的是系统发生问题的原因,所以门槛比较高,是目前相对的蓝海市场。

2. Metrics

说起Metrics,不得不提到Zabbix,这是一款开源的运维工具,支持分布式监控,为广大互联网企业所使用。Zabbix的监控原理就是和监控对象建立通讯,进行数据采集。其通讯的方式包括agent、SSH/telnet、SNMP(常用于网络设备,比如交换机)、IPMI(常用于电源、风扇等)、JMX(常用于JVM虚拟机)。Zabbix的缺点在于底层是采用了数据库存储,所以不是很适合大量频繁地存储或读取日志(侧重点还是在Metrics)。另外,Zabbix对容器、微服务的监控能力较弱。

除了Zabbix,目前常见的还有NagiosCactiPrometheus等。随着这几年云原生的兴起,擅长云原生监控的Prometheus受到了大家的欢迎。而阿里云也适时地推出了ARMS Prometheus,全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheus服务。当然,Prometheus仍然是Metrics层面的,告警功能并不算完美,更谈不上分析功能了。

3. Traces

随着企业业务的扩大和业务数量的增加,组件的选择也变得越来越多样化,包括微服务、消息传输、分布式数据库、分布式对象存储、分布式缓存、跨域调用等。这些组件共同构成了一个复杂的分布式网络。在这种情况下,一个业务请求可能需要涉及多个甚至几十个服务的协同处理。为了处理这种情况,我们需要使用动态展示服务链路的工具,能够分析服务链路的性能瓶颈并对其进行优化,并且能够快速定位故障链路的运维工具。因此,应用性能管理(APM)工具应运而生。APM工具可以监控移动端APP、浏览器等前端,也可以监控应用后端。

APM的数据获取一般通过探针埋点,又称Agent方式来获取。这种方式能够提供非常完整与细粒度的监控数据采集,提供代码级的问题定位。但此方式对应用有侵入性,如果埋点代码异常,会对应用本身的性能和稳定性产生影响。该方式可以再细分为两类:代码侵入式和字节码增强式。前者代表的产品有Zipkin、cat。后者代表的产品有PinPoint,skywalking。产品的比较可以参考如下:

近年来,国内以SaaS模式提供Traces监控的厂商也崭露头角,虽然也是通过探针埋点的方式获取数据,但其商业模式已经发生了变化。目前国内比较知名的厂商有听云云智慧OneAPM等。

另外,不通过探针埋点获取数据的APM工具也逐渐兴起,国内代表的产品有RStone。其获取数据的方式主要采用旁路部署,不对网络拓扑、系统等进行任何改变,也不用安装任何软件,只需要在关键节点上旁路部署设备,参考图5所示:

图5:RStone监控方式


4. Logs

传统运维监控主要还是Metrics,近年来开始重视Traces,但是上述两种仍然存在以下一些问题:

  • 监控断层——IT基础设施的监控和应用层的监控不通,或由不同的团队来监控
  • 缺乏统一——根据监控对象不同,监控工具各不相同
  • 告警泛滥——缺乏告警收敛、故障治愈等智能运维手段

通过Logs,可以有效地解决上述问题。目前市面常见的工具有Splunk、ELK、日志易、AnyRobot。

Splunk is a leading log monitoring product that primarily focuses on analyzing company log files. By utilizing Splunk's centralized application, users can quickly perform various statistics and queries, as well as generate reports for evaluating data performance. The platform offers a wide range of functionalities related to data volume, query speed, ease of use, and statistical reporting. In addition to log file analysis for companies, Splunk currently acts as a SaaS enterprise catering to enterprise customers, providing software solutions for searching, monitoring, analyzing, and interpreting large amounts of machine-generated data. Its clientele spans across various industries including IT companies, DevOps solutions, telecommunications, energy, finance, government, among others. The exceptional qualities of Splunk have attracted significant attention, as evident from ARK Invest's manager, Cathie Wood's investment of $55 million, adding Splunk to all four of ARK's major ETF portfolios.

然而,尽管Splunk被广泛认为是一款强大的产品,但它并非无敌的。Splunk产品的使用涉及到多个组件和工具,其中每个组件都有相应的费用,因此成本较高。成熟的商业开源工具逐渐在市场上与Splunk竞争,其中最著名的是ELK。

ELK是由ElasticSearch、Logstash和Kibana三个开源项目组成的应用栈,它们分别提供了搜索、数据接入和可视化功能。尽管它们是独立的项目,但它们在Elastic的托管下形成了一个紧密合作的路线图,其检索结果的评分机制优于Splunk。由于是开源的,ELK得到了很多开发者的支持,相较于Splunk,开发者在ELK中有更好的参与感。

在中国市场上存在着两款出色的日志监控产品——日志易和AnyRobot。这两款产品都是基于日志的大数据运维分析产品。下面是它们之间的一些区别:

  • 日志易可谓是Splunk的忠实模仿者,一直在模仿,但从未超越。AnyRobot基于ELK开发,充分发挥了ELK的优势。
  • 日志易的产品形态包括软件版和SaaS版,AnyRobot不仅有软件版和SaaS版,还有一体机版。
  • 日志易的计费模式是按照数据流量收费,AnyRot的收费按照用户实际需要分析的数据量所消耗的计算单元进行收费。
  • 日志易在数据流管理方面有单独的产品“数据工厂”,AnyRobot这块有空白。
  • 日志易在金融行业的案例较多,AnyRobot在政府、教育、医疗行业的案例较多。
  • 日志易在涉密行业销售有阻碍,AnyRobot具有在涉密行业销售的通行证。
  • 日志易对抗Splunk的方式是替换策略,研发和Splunk体验感类似的产品来代替Splunk,AnyRobot的方式是纳管策略,不替换但可以纳管Splunk。

5. 总结

  • Metrics监控仍然是目前大部分运维正在做的主要工作,Zabbix等工具还将继续沿用。
  • 基于Traces乃至基于Logs的监控运维会越来越被重视和接受,传统运维监控正在向智能运维,即AIOps转变。
  • 运维工具从软件版向SaaS版转变。
  • 国内市场上,国产化在兴起,优秀的厂商和产品也在不断地涌现。

参考链接:https://zhuanlan.zhihu.com/p/522389324

关于纵目

江苏纵目信息科技有限公司是一家专注于运维监控软件产品研发与销售的高科技企业。覆盖全链路应用性能监控、IT基础设施监控、物联网数据采集数据观测等场景,基于Skywalking、Zabbix、ThingsBoard等开源体系构建了ArgusAPM、ArgusOMS、ZeusIoT等产品,致力于帮助各行业客户构建集聚可观测性的统一运维平台、物联网大数据平台。

  点赞 0   收藏 0
  • yuan
    共发布32篇文章 获得1个收藏
全部评论: 0