[TOC]
## 一、背景
开发排查系统问题用得最多的手段就是查看系统日志,在分布式环境中一般使用`ELK`来统一收集日志,但是在并发大时使用日志定位问题还是比较麻烦,由于大量的其他用户/其他线程的日志也一起输出穿行其中导致很难筛选出指定请求的全部相关日志,以及下游线程/服务对应的日志。
## 二、解决思路
* 每个请求都使用一个`唯一标识`来追踪全部的链路显示在日志中,并且不修改原有的打印方式(代码无入侵)
* 使用Logback的`MDC`机制日志模板中加入`traceId`标识,取值方式为`%X{traceId}`
> MDC(Mapped Diagnostic Context,映射调试上下文)是 log4j 和 logback 提供的一种方便在多线程条件下记录日志的功能。MDC 可以看成是一个与当前线程绑定的Map,可以往其中添加键值对。MDC 中包含的内容可以被同一线程中执行的代码所访问。当前线程的子线程会继承其父线程中的 MDC 的内容。当需要记录日志时,只需要从 MDC 中获取所需的信息即可。MDC 的内容则由程序在适当的时候保存进去。对于一个 Web 应用来说,通常是在请求被处理的最开始保存这些数据。
## 三、方案实现
由于`MDC`内部使用的是`ThreadLocal`所以只有本线程才有效,子线程和下游的服务`MDC`里的值会丢失;所以方案主要的难点是解决**值的传递问题**,主要包括以几下部分:
* API网关中的`MDC`数据如何传递给下游服务
* 服务如何接收数据,并且调用其他远程服务时如何继续传递
* 异步的情况下(线程池)如何传给子线程
### 3.1. 修改日志模板
logback配置文件日志格式添加该标识

### 3.2. 网关添加过滤器
生成`traceId`并通过`header`传递给下游服务

### 3.3. 下游服务增加spring拦截器
接收并保存`traceId`的值

### 3.4. 下游服务增加feign拦截器
继续把当前服务的`traceId`值传递给下游服务

### 3.5. 解决父子线程传递问题
主要针对业务会使用线程池(异步、并行处理),并且`spring`自己也有`@Async`注解来使用线程池,要解决这个问题需要以下两个步骤
#### 3.5.1. 重写logback的`LogbackMDCAdapter`
由于logback的`MDC`实现内部使用的是`ThreadLocal`不能传递子线程,所以需要重写替换为阿里的`TransmittableThreadLocal`
> **TransmittableThreadLocal**是Alibaba开源的、用于解决**“在使用线程池等会缓存线程的组件情况下传递ThreadLocal”**问题的 InheritableThreadLocal 扩展。若希望 TransmittableThreadLocal 在线程池与主线程间传递,需配合**TtlRunnable**和**TtlCallable**使用。
**TtlMDCAdapter类**
~~~
package org.slf4j;
import com.alibaba.ttl.TransmittableThreadLocal;
import org.slf4j.spi.MDCAdapter;
public class TtlMDCAdapter implements MDCAdapter {
/**
* 此处是关键
*/
private final ThreadLocal<Map<String, String>> copyOnInheritThreadLocal = new TransmittableThreadLocal<>();
private static TtlMDCAdapter mtcMDCAdapter;
static {
mtcMDCAdapter = new TtlMDCAdapter();
MDC.mdcAdapter = mtcMDCAdapter;
}
public static MDCAdapter getInstance() {
return mtcMDCAdapter;
}
~~~
> 其他代码与**ch.qos.logback.classic.util.LogbackMDCAdapter**一样,只需改为调用`copyOnInheritThreadLocal`变量
**TtlMDCAdapterInitializer类**用于程序启动时加载自己的mdcAdapter实现
~~~
public class TtlMDCAdapterInitializer implements ApplicationContextInitializer<ConfigurableApplicationContext> {
@Override
public void initialize(ConfigurableApplicationContext applicationContext) {
//加载TtlMDCAdapter实例
TtlMDCAdapter.getInstance();
}
}
~~~
#### 3.5.2. 扩展线程池实现
增加`TtlRunnable`和`TtlCallable`扩展
~~~
public class CustomThreadPoolTaskExecutor extends ThreadPoolTaskExecutor {
@Override
public void execute(Runnable runnable) {
Runnable ttlRunnable = TtlRunnable.get(runnable);
super.execute(ttlRunnable);
}
@Override
public <T> Future<T> submit(Callable<T> task) {
Callable ttlCallable = TtlCallable.get(task);
return super.submit(ttlCallable);
}
@Override
public Future<?> submit(Runnable task) {
Runnable ttlRunnable = TtlRunnable.get(task);
return super.submit(ttlRunnable);
}
@Override
public ListenableFuture<?> submitListenable(Runnable task) {
Runnable ttlRunnable = TtlRunnable.get(task);
return super.submitListenable(ttlRunnable);
}
@Override
public <T> ListenableFuture<T> submitListenable(Callable<T> task) {
Callable ttlCallable = TtlCallable.get(task);
return super.submitListenable(ttlCallable);
}
}
~~~
## 四、场景测试
### 4.1. 测试代码如下

### 4.2. api网关打印的日志
网关生成`traceId`值为`13d9800c8c7944c78a06ce28c36de670`

### 4.3. 请求跳转到文件服务时打印的日志
显示的`traceId`与网关相同,这里特意模拟发生异常的场景
### 4.4. ELK聚合日志通过`traceId`查询整条链路日志
当系统出现异常时,可直接通过该异常日志的`traceId`的值,在日志中心中询该请求的所有日志信息
- 微服务介绍
- 软件架构设计
- 系统简介
- 运行环境
- 模块介绍
- 启动部署命令参数
- 打包说明
- 开发说明
- Java8
- 认证理论
- 有网络隔离
- 无网络隔离
- token自动续签设计
- url级权限控制
- 单点登录
- 登录
- 用户名密码(+验证码)登录
- 通过openId获取token
- 通过手机号获取token
- 第三方系统接口对接
- 第三方系统单点登录
- 通用刷新token
- 账号登出接口
- 统一异常处理
- 日志埋点工具
- 审计日志
- yml自定义配置自动提示
- Redis使用
- CacheManager集成
- 搜索中心
- 网关zuul动态路由
- swagger
- 解决开发环境的服务冲突和实例乱窜
- 多租户理论
- 多租户实现
- 分布式锁
- 分布式id生成器
- 分布式事务
- 分库分表sharding-sphere
- 消息队列
- 系统幂等性
- X 实时搜索系统设计
- Spring Cloud性能调优
- 链路跟踪
- JWT的RSA非对称密钥生成
- jdk
- Oracle
- OpenJDK
- Dragonwell
- JVM介绍
- 常见JVM内存错误及解决方案
- JVM分析工具详解
- nexus
- docker
- 安装
- docker-compose安装
- 私有仓库搭建
- 指定数据储存目录
- 添加私有仓库
- 提交拉取镜像
- X 免Dockerfile文件构建项目镜像
- 持续集成部署CI/CD
- Confluence知识管理
- JIRA事务与项目跟踪软件
- Gitlab代码仓库
- Jenkins自动化部署
- SonarQube代码检测
- Rancher容器管理平台
- nacos
- 部署
- Rancher部署nacos
- 注册中心
- 配置中心
- 多环境
- 生产部署方案
- X 通过Nginx来实现环境隔离
- Sentinel详解
- 动态规则扩展
- 在生产环境中使用 Sentinel
- 启动配置项
- X 网关流控
- ELK日志系统和慢查询SQL
- docker安装
- 普通安装
- Filebeat安装部署
- ES数据定期删除
- 没数据问题排查思路
- X Logstash的grok语法调试
- 慢查询sql
- 审计日志
- Elasticsearch性能优化
- APM监控
- SkyWalking介绍
- Zipkin,Pinpoint,SkyWalking三种服务链路监控组件分析
- 服务端部署
- 客户端部署
- 日志清理
- Metrics监控
- 二进制包部署
- docker部署
- docker安装各组件监控
- Grafana仪表盘和告警配置
- JMeter压力测试工具
- 使用说明
- 分布式事务
- TX-LCN(同步)
- X SEATA(同步)
- X RocketMQ(异步)
- 消息队列
- RocketMQ
- RocketMQ安装部署
- RocketMQ常见异常处理
- SpringCloud-Stream
- RabbitMQ
- Redis
- 单机安装
- 主从复制
- 主从复制+哨兵
- cluster集群
- 持久化方案
- MySQL
- 单机安装
- 主从复制
- 主从切换
- 主主复制
- 高可用
- 分表分库
- Canal数据库日志解析消费
- Canal安装
- 实时同步数据到ElasticSearch
- FastDFS
- docker安装
- centos安装
- 项目管理系统
- 禅道
- 111