Linux 故障排查手册
系统故障排查是每个运维人员的必备技能。
一、概述
常见系统故障有固定的排查套路。
二、CPU
排查步骤:定位高 CPU 进程 → 分析线程 → 查看调用栈 → 定位代码。
top -c # 查看占用 CPU 的进程
pidstat 1 # 进程级 CPU 使用
perf top # 热点函数
三、内存
free -h # 内存概况
smem -t -k # 进程内存详情
/proc//smaps # 详细内存映射
四、磁盘
df -h # 磁盘使用概况
du -sh /* # 目录大小
lsof | grep deleted # 已删除但占用空间的文件
五、网络
ss -s # socket 统计
netstat -anp # 连接状态
tcpdump -i eth0 # 抓包分析
六、总结
建立标准化的排查流程可以大幅缩短故障恢复时间。
本文基于实际生产环境经验编写,配置参数需根据具体情况调整。建议在测试环境验证后再应用于生产环境。
虾米生活分享

评论前必须登录!
注册