linux服务器监控指标

1.CPU‌核心指标‌

‌利用率‌:

‌User Time‌(用户态CPU):建议≤70%,若长期偏高需排查用户进程优化空间。

‌System Time‌(内核态CPU):建议≤35%,过高可能由频繁系统调用或中断导致。

‌Idle Time‌(空闲率):反映CPU剩余处理能力,持续过低需扩容。

‌负载与队列‌:

‌平均负载‌(Load Average):1/5/15分钟均值,超过逻辑CPU核数表示资源紧张需扩容。

‌可运行队列‌(procs r):每个CPU核心队列长度≤3为健康状态,超过时需优化任务调度。

2.监控工具

top/htop:实时查看进程CPU占用率,按P键排序高消耗进程。

mpstat -P ALL 1:显示各CPU核心详细利用率分布,定位负载不均衡问题。

vmstat 1:观察上下文切换(cs)和中断次数(in),高切换可能引发性能瓶颈。

二、 ‌内存与交换分区监控

1‌核心指标

‌        物理内存使用率‌:free -h查看available值,低于20%需警惕内存泄漏或扩容。

‌        Swap使用率‌:交换分区频繁读写(si/so)表明物理内存不足,建议调整vm.swappiness。

2监控工具

        vmstat 1 5:已关注swpd(交换内存)、free(空闲内存)及缓存占用趋势。

        pidstat -r 1:监控指定进程的内存占用细节(如RSS、虚拟内存)。

        排查内存泄漏持续增长的内存进程

# 监控内存增长最快的进程
ps aux --sort=-rss | head -n 3
三、 ‌磁盘I/O性能监控

‌核心指标‌

        ‌磁盘利用率‌(%util):通过iostat -x 1查看,持续>80%表明磁盘过载。

‌        读写延迟‌(await):单次I/O平均耗时,机械硬盘建议≤10ms,SSD≤2ms。

监控工具‌

        iostat -d 1:统计每秒读写量(rkB/s/wkB/s),识别高吞吐设备。

        dstat –disk-util:综合显示磁盘I/O与CPU、内存使用关联性。

四、 ‌网络性能监控

‌核心指标‌

        ‌带宽使用率‌:iftop或nload实时监控网卡流量,对比物理带宽上限。

        ‌TCP连接状态‌:netstat -ant/ss -s查看ESTABLISHED、TIME_WAIT连接数,过多可能需调整内核参数。

‌监控工具‌

        sar -n DEV 1:统计各网卡收发包速率及错误率。

        ethtool -S eth0:查看网卡硬件级统计(如丢包、超限)。

五、 ‌进程与线程监控

核心指标

‌        僵尸进程数‌:top输出的zombie值,长期存在需检查父进程回收机制。

‌        线程阻塞‌(procs b):vmstat中b列>0表示进程因I/O等资源阻塞。

监控工具

        ps aux –sort=-%cpu:按CPU占用率排序进程,快速定位异常进程。

        pidstat -t 1:跟踪进程的线程级资源消耗细节。

监控示例

# 实时CPU与内存监控(综合视图)  

        top -d 1 -b | head -n 12  

# 磁盘I/O负载分析  

        iostat -xmt 1  

# 网络流量统计  

        sar -n DEV 1 5  

健康状态阈值参考

指标类别

健康范围

告警阈值

CPU使用率

User ≤70%, System ≤35%

User+System >90%

内存可用量

≥20%总内存

<10%总内存

磁盘I/O延迟

await ≤10ms(机械硬盘)

await >50ms

网络丢包率

≤0.1%

>1%

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容