SkyWalking是一个应用性能监控系统,特别为微服务、云原生和基于容器体系结构设计。除了应用指标监控以外,它还能对分布式调用链路进行追踪。SkyWalking逻辑上分为四个部分:Probes(探针), Platform backend(平台后端), Storage(存储), UI。存储支持的有InfluxDB和ElasticSearch7。在配置和启动过程中需要进行一些配置和修改。
SkyWalking是一个专为微服务、云原生和基于容器(如Docker、Kubernetes、Mesos)架构而设计的应用性能监控系统。除了监测应用指标,它还可以追踪分布式调用链路。其他类似的组件包括Zipkin、Pinpoint和CAT等。
上几张图,看看效果,然后再一步一步搭建并使用:




概念与架构
作为一名IT工程师,我需要更专业地重新表达下面这段文字:SkyWalking是一款开源监控平台,用于收集、分析、聚合和可视化服务和云原生基础设施的数据。SkyWalking提供一种简单的方式来维护分布式系统的清晰视图,甚至可以跨云环境查看。它是一种现代的应用性能管理(APM)工具,专门为基于容器的云原生分布式系统而设计。
SkyWalking通过三个方面对应用程序进行监控:服务、实例和端点的维度。
服务和实例就不多说了,端点是服务中的某个路径或者说URI
SkyWalking enables users to gain insights into the topology correlation between Services and Endpoints, providing the ability to examine the metrics of each individual Service, Service Instance, and Endpoint, as well as configure alarm rules.
SkyWalking允许用户了解服务和端点之间的拓扑关系,查看每个服务/服务实例/端点的度量,并设置警报规则。
架构

SkyWalking可以从逻辑上划分为四个组件:Probes(探针)、Platform backend(平台后端)、Storage(存储)和UI。
这个结构就很清晰了,探针就是Agent负责采集数据并上报给服务端,服务端对数据进行处理和存储,UI负责展示。

下载与安装
SkyWalking有两种版本可供选择:ES版本和非ES版本。若决定采用ElasticSearch作为存储方案,则需下载ES版本。


- agent目录将来要拷贝到各服务所在机器上用作探针
- bin目录是服务启动脚本
- config目录是配置文件
- oap-libs目录是oap服务运行所需的jar包
- webapp目录是web服务运行所需的jar包
接下来,要选择存储了,支持的存储有:
- H2
- ElasticSearch 6, 7
- MySQL
- TiDB
- InfluxDB
作为监控系统,首先排除H2和MySQL,这里推荐InfluxDB,它本身就是时序数据库,非常适合这种场景
但是InfluxDB我不是很熟悉,所以这里先用ElasticSearch7
https://github.com/apache/skywalking/blob/master/docs/en/setup/backend/backend-storage.md
安装ElasticSearch
https://www.elastic.co/guide/en/elasticsearch/reference/7.10/targz.html
# 启动
./bin/elasticsearch -d -p pid
# 停止
pkill -F pid

ElasticSearch7.x的最低要求是Java 11以上的版本。然而,如果设置了环境变量JAVA_HOME,ElasticSearch会使用指定的Java版本来运行。
通常,启动过程中会报以下三个错误:
[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65535]
[2]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
[3]: the default discovery settings are unsuitable for production use; at least one of [discovery.seed_hosts, discovery.seed_providers, cluster.initial_master_nodes] must be configured
解决方法:在 /etc/security/limits.conf 文件中追加以下内容:
* soft nofile 65536
* hard nofile 65536
* soft nproc 4096
* hard nproc 4096
可通过以下四个命令查看修改结果:
ulimit -Hn
ulimit -Sn
ulimit -Hu
ulimit -Su
修改 /etc/sysctl.conf 文件,追加以下内容:
vm.max_map_count=262144
修改es配置文件 elasticsearch.yml 取消注释,保留一个节点
cluster.initial_master_nodes: ["node-1"]
为了能够ip:port方式访问,还需修改网络配置
network.host: 0.0.0.0
修改完是这样的:


至此,ElasticSearch算是启动成功了,一个节点还不够,这里用三个节点搭建一个集群
- 192.168.100.14 config/elasticsearch.yml
cluster.name: my-monitor
node.name: node-1
network.host: 192.168.100.14
http.port: 9200
discovery.seed_hosts: ["192.168.100.14:9300", "192.168.100.15:9300", "192.168.100.19:9300"]
cluster.initial_master_nodes: ["node-1"]
192.168.100.15 config/elasticsearch.yml
cluster.name: my-monitor
node.name: node-2
network.host: 192.168.100.15
http.port: 9200
discovery.seed_hosts: ["192.168.100.14:9300", "192.168.100.15:9300", "192.168.100.19:9300"]
cluster.initial_master_nodes: ["node-1"]
192.168.100.19 config/elasticsearch.yml
cluster.name: my-monitor
node.name: node-3
network.host: 192.168.100.19
http.port: 9200
discovery.seed_hosts: ["192.168.100.14:9300", "192.168.100.15:9300", "192.168.100.19:9300"]
cluster.initial_master_nodes: ["node-1"]
同时,建议修改三个节点config/jvm.options
-Xms2g
-Xmx2g
依次启动三个节点
pkill -F pid
./bin/elasticsearch -d -p pid



接下来,修改skywalking下config/application.yml 中配置es地址即可
storage:
selector: ${SW_STORAGE:elasticsearch7}
elasticsearch7:
nameSpace: ${SW_NAMESPACE:""}
clusterNodes: ${SW_STORAGE_ES_CLUSTER_NODES:192.168.100.14:9200,192.168.100.15:9200,192.168.100.19:9200}
安装Agent
https://github.com/apache/skywalking/blob/v8.2.0/docs/en/setup/service-agent/java-agent/README.md
将agent目录拷贝至各服务所在的机器上
scp -r ./agent chengjs@192.168.100.12:~/
这里,我将它拷贝至各个服务目录下

plugins是一种用于探针的各种插件。SkyWalking插件都是即插即用的,可以将optional-plugins中的插件添加至plugins中,并通过修改agent/config/agent.config配置文件或使用命令行参数进行指定。
主要是配置服务名称和后端服务地址
agent.service_name=${SW_AGENT_NAME:user-center}
collector.backend_service=${SW_AGENT_COLLECTOR_BACKEND_SERVICES:192.168.100.17:11800}
当然,也可以通过环境变量或系统属性的方式来设置,例如:
export SW_AGENT_COLLECTOR_BACKEND_SERVICES=127.0.0.1:11800
最后,在服务启动的时候用命令行参数 -javaagent 来指定探针
java -javaagent:/path/to/skywalking-agent/skywalking-agent.jar -jar yourApp.jar
例如:
java -javaagent:./agent/skywalking-agent.jar -Dspring.profiles.active=dev -Xms512m -Xmx1024m -jar demo-0.0.1-SNAPSHOT.jar
启动服务
修改 webapp/webapp.yml 文件,更改端口号及后端服务地址
server:
port: 9000
collector:
path: /graphql
ribbon:
ReadTimeout: 10000
# Point to all backend's restHost:restPort, split by ,
listOfServers: 127.0.0.1:12800
启动服务
bin/startup.sh
或者分别依次启动
bin/oapService.sh
bin/webappService.sh
查看logs目录下的日志文件,看是否启动成功,浏览器访问 http://127.0.0.1:9000。
告警

编辑 alarm-settings.yml 设置告警规则和通知
https://github.com/apache/skywalking/blob/v8.2.0/docs/en/setup/backend/backend-alarm.md
重点说下告警通知


为了使用钉钉机器人通知,接下来,新建一个项目
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>2.4.0</version>
<relativePath/> <!-- lookup parent from repository -->
</parent>
<groupId>com.wt.monitor</groupId>
<artifactId>skywalking-alarm</artifactId>
<version>1.0.0-SNAPSHOT</version>
<name>skywalking-alarm</name>
<properties>
<java.version>1.8</java.version>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>com.aliyun</groupId>
<artifactId>alibaba-dingtalk-service-sdk</artifactId>
<version>1.0.1</version>
</dependency>
<dependency>
<groupId>commons-codec</groupId>
<artifactId>commons-codec</artifactId>
<version>1.15</version>
</dependency>
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>fastjson</artifactId>
<version>1.2.75</version>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-maven-plugin</artifactId>
</plugin>
</plugins>
</build>
</project>
可选依赖(不建议引入)
<dependency
<groupId>org.apache.skywalking</groupId>
<artifactId>server-core</artifactId>
<version>8.2.0</version>
</dependency>
定义告警消息实体类
package com.wt.monitor.skywalking.alarm.domain;
import lombok.Data;
import java.io.Serializable;
/**
* @author ChengJianSheng
* @date 2020/12/1
*/
@Data
public class AlarmMessageDTO implements Serializable {
private int scopeId;
private String scope;
/**
* Target scope entity name
*/
private String name;
private String id0;
private String id1;
private String ruleName;
/**
* Alarm text message
*/
private String alarmMessage;
/**
* Alarm time measured in milliseconds
*/
private long startTime;
}
发送钉钉机器人消息
package com.wt.monitor.skywalking.alarm.service;
import com.dingtalk.api.DefaultDingTalkClient;
import com.dingtalk.api.DingTalkClient;
import com.dingtalk.api.request.OapiRobotSendRequest;
import com.taobao.api.ApiException;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.codec.binary.Base64;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;
import javax.crypto.Mac;
import javax.crypto.spec.SecretKeySpec;
import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;
import java.security.InvalidKeyException;
import java.security.NoSuchAlgorithmException;
/**
* https://ding-doc.dingtalk.com/doc#/serverapi2/qf2nxq
* @author ChengJianSheng
* @data 2020/12/1
*/
@Slf4j
@Service
public class DingTalkAlarmService {
@Value("${dingtalk.webhook}")
private String webhook;
@Value("${dingtalk.secret}")
private String secret;
public void sendMessage(String content) {
try {
Long timestamp = System.currentTimeMillis();
String stringToSign = timestamp + "\n" + secret;
Mac mac = Mac.getInstance("HmacSHA256");
mac.init(new SecretKeySpec(secret.getBytes("UTF-8"), "HmacSHA256"));
byte[] signData = mac.doFinal(stringToSign.getBytes("UTF-8"));
String sign = URLEncoder.encode(new String(Base64.encodeBase64(signData)),"UTF-8");
String serverUrl = webhook + "×tamp=" + timestamp + "&sign=" + sign;
DingTalkClient client = new DefaultDingTalkClient(serverUrl);
OapiRobotSendRequest request = new OapiRobotSendRequest();
request.setMsgtype("text");
OapiRobotSendRequest.Text text = new OapiRobotSendRequest.Text();
text.setContent(content);
request.setText(text);
client.execute(request);
} catch (ApiException e) {
e.printStackTrace();
log.error(e.getMessage(), e);
} catch (NoSuchAlgorithmException e) {
e.printStackTrace();
log.error(e.getMessage(), e);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
log.error(e.getMessage(), e);
} catch (InvalidKeyException e) {
e.printStackTrace();
log.error(e.getMessage(), e);
}
}
}
AlarmController.java
package com.wt.monitor.skywalking.alarm.controller;
import com.alibaba.fastjson.JSON;
import com.wt.monitor.skywalking.alarm.domain.AlarmMessageDTO;
import com.wt.monitor.skywalking.alarm.service.DingTalkAlarmService;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import java.text.MessageFormat;
import java.util.List;
/**
* @author ChengJianSheng
* @date 2020/12/1
*/
@Slf4j
@RestController
@RequestMapping("/skywalking")
public class AlarmController {
@Autowired
private DingTalkAlarmService dingTalkAlarmService;
@PostMapping("/alarm")
public void alarm(@RequestBody List<AlarmMessageDTO> alarmMessageDTOList) {
log.info("收到告警信息: {}", JSON.toJSONString(alarmMessageDTOList));
if (null != alarmMessageDTOList) {
alarmMessageDTOList.forEach(e->dingTalkAlarmService.sendMessage(MessageFormat.format("-----来自SkyWalking的告警-----\n【名称】: {0}\n【消息】: {1}\n", e.getName(), e.getAlarmMessage())));
}
}
}

作者:废物大师兄
原文:SkyWalking -- 分布式应用监控与链路追踪
推荐阅读
- 最新、最全、最详细的 K8S 学习笔记总结(2021最新版)
- 最新、最全、最详细的 MySQL 数据库学习笔记总结(2021最新版)
- 备战金三银四跳槽季!面试准备与面试题总结已撸完(Linux系统运维篇)!
- 分享一些技术资料(架构、数据库、java等),建议收藏!
- 强大,10k+点赞的 SpringBoot 后台管理系统竟然出了详细教程!
- 分享一套基于SpringBoot和Vue的企业级中后台开源项目,代码很规范!
- 能挣钱的,开源 SpringBoot 商城系统,功能超全,超漂亮!
如有错误或其它问题,欢迎小伙伴留言评论、指正。如有帮助,欢迎点赞+转发分享。
更多相关开源技术文章,请持续关注:民工哥知乎技术专栏
SkyWalking是一个开源的应用性能监控系统,适用于微服务、云原生和基于容器体系结构。它提供了丰富的功能,包括应用指标监控和分布式调用链路追踪。SkyWalking的工作流程包括探针、平台后端、存储和UI。用户可以选择存储方式,推荐的选项是InfluxDB和ElasticSearch7。在配置和启动过程中,需要进行一些配置和修改以确保系统正常运行。