这是公司大佬的一次内部分享,我尝试简短总结一下
问题描述
某服务的其中两个副本异常,CPU 飙高。
指标排查
查看
container_cpu_usage_seconds_total
监控,CPU 飙升,逼近 limit。查看
container_cpu_cfs_throttled_periods_total
监控,CPU 飙升伴随 CPU Throttle 飙升,所以服务异常应该是 CPU 被限流导致。查看
container_cpu_system_seconds_total
监控,发现 CPU 飙升主要是 CPU system 占用导致,容器内pidstat -u -t 5 1
可以看到进程%system
占用分布情况。perf top
看 system 占用高主要是 vfs_write 写数据导致。