1.CPU核心指标
利用率:
User Time(用户态CPU):建议≤70%,若长期偏高需排查用户进程优化空间。
System Time(内核态CPU):建议≤35%,过高可能由频繁系统调用或中断导致。
Idle Time(空闲率):反映CPU剩余处理能力,持续过低需扩容。
负载与队列:
平均负载(Load Average):1/5/15分钟均值,超过逻辑CPU核数表示资源紧张需扩容。
可运行队列(procs r):每个CPU核心队列长度≤3为健康状态,超过时需优化任务调度。
2.监控工具
top/htop:实时查看进程CPU占用率,按P键排序高消耗进程。
mpstat -P ALL 1:显示各CPU核心详细利用率分布,定位负载不均衡问题。
vmstat 1:观察上下文切换(cs)和中断次数(in),高切换可能引发性能瓶颈。
二、 内存与交换分区监控
1核心指标
物理内存使用率:free -h查看available值,低于20%需警惕内存泄漏或扩容。
Swap使用率:交换分区频繁读写(si/so)表明物理内存不足,建议调整vm.swappiness。
2监控工具
vmstat 1 5:已关注swpd(交换内存)、free(空闲内存)及缓存占用趋势。
pidstat -r 1:监控指定进程的内存占用细节(如RSS、虚拟内存)。
排查内存泄漏持续增长的内存进程
# 监控内存增长最快的进程
ps aux --sort=-rss | head -n 3
三、 磁盘I/O性能监控
核心指标
磁盘利用率(%util):通过iostat -x 1查看,持续>80%表明磁盘过载。
读写延迟(await):单次I/O平均耗时,机械硬盘建议≤10ms,SSD≤2ms。
监控工具
iostat -d 1:统计每秒读写量(rkB/s/wkB/s),识别高吞吐设备。
dstat –disk-util:综合显示磁盘I/O与CPU、内存使用关联性。
四、 网络性能监控
核心指标
带宽使用率:iftop或nload实时监控网卡流量,对比物理带宽上限。
TCP连接状态:netstat -ant/ss -s查看ESTABLISHED、TIME_WAIT连接数,过多可能需调整内核参数。
监控工具
sar -n DEV 1:统计各网卡收发包速率及错误率。
ethtool -S eth0:查看网卡硬件级统计(如丢包、超限)。
五、 进程与线程监控
核心指标
僵尸进程数:top输出的zombie值,长期存在需检查父进程回收机制。
线程阻塞(procs b):vmstat中b列>0表示进程因I/O等资源阻塞。
监控工具
ps aux –sort=-%cpu:按CPU占用率排序进程,快速定位异常进程。
pidstat -t 1:跟踪进程的线程级资源消耗细节。
监控示例
# 实时CPU与内存监控(综合视图)
top -d 1 -b | head -n 12
# 磁盘I/O负载分析
iostat -xmt 1
# 网络流量统计
sar -n DEV 1 5
健康状态阈值参考
指标类别 |
健康范围 |
告警阈值 |
CPU使用率 |
User ≤70%, System ≤35% |
User+System >90% |
内存可用量 |
≥20%总内存 |
<10%总内存 |
磁盘I/O延迟 |
await ≤10ms(机械硬盘) |
await >50ms |
网络丢包率 |
≤0.1% |
>1% |
暂无评论内容