博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
高规格虚机 sys cpu高现场分析工具箱
阅读量:6989 次
发布时间:2019-06-27

本文共 1321 字,大约阅读时间需要 4 分钟。

导言

线上运行环境有时候会遇到cpu 飙升的场景,一般来讲对于多核的虚机,一个常见猝发场景就是高并发导致,核多并发高时,syscall会在锁这块 sys 消耗高,当然只有猜测不行,下面就列出了几个常见捉鬼工具 ,后半部分会拿一个示例。

工具箱

1、nmon promes 分析

尤其是promes ,比较推荐用起来,提供比较立体的系统级别监控

2、perf 分析

perf top -a -Gperf top -a -e cs -Gperf record -g -p 14778 -e cycles sleep 10TIPS:perf 采样界面中按shift + e 可展开堆栈 shift + c 可折叠展开 折叠状态分别截图右方向键可以下钻函数查看其上下文(例如属于哪个lib),左方向键返回最好排在前面的几个函数都去下钻截图

3、系统调用统计

{ top -H -p PID  -b -n 1|grep execname|awk '{print $1}'| sed 's/\([0-9]*\)/-p \1/g'|xargs strace -c  2> /tmp/stat & }; sleep 5;pkill strace

4、调用细节

{ top -H -p PID -b -n 1|grep execname|awk '{print $1}'| sed 's/\([0-9]*\)/-p \1/g'|xargs strace -i -v -T  2> /tmp/detail & }; sleep 5;pkill strace

5、sar -wq 1 10

6、vmstat 1 10

7、mpstat -I ALL 1

8、rpm -qa > /tmp/rpms

9、堆栈dump

echo 1 >   /proc/sys/kernel/sysrqecho t > /proc/sysrq-trigger

一个案例

某数据库系统导数据时,syscpu 会很高

高规格虚机 sys cpu高现场分析工具箱

可以看到每到任务运行时间,sys 就会高企,,初步分析,目标机器有16c,根据经验怀疑是时间耗在并发锁处理上,但是具体哪部分需要使用perf 线上抓取堆栈

高规格虚机 sys cpu高现场分析工具箱

,可以看见sys time 耗在了spinlock 处,是MM 系统的内存压实整理例程中,结合该数据库开启了hugepage 因此初步可以断定是因为内存过于碎片化,无法满足巨页分配,也就是整体看内存高阶页不足

当然伴随的现象不止这一个,也注意到问题时刻系统的进程创建非常多,高达每秒数百,如下图

高规格虚机 sys cpu高现场分析工具箱

这个与项目组认为的10并发是对不上的,因此的出的综合结论是

sys高时间主要耗在了内存碎片整理, 主因是内存不足,伴随现象之一是线程创建多 fork 300-800/s  内存回收多,很多cache 问题时间段回收,得扩内存,动态模型也似乎有问题,不知道fork 那么多进程做什么用

上面的结论看着很模糊,但是提供了比较全面的现场总结,坚定了问题的排查方向,果然,项目组重新梳理代码后,发现一处高并发场景,修改参数后,问题得以解决

高规格虚机 sys cpu高现场分析工具箱

转载于:https://blog.51cto.com/13866624/2387022

你可能感兴趣的文章
《Web应用漏洞侦测与防御:揭秘鲜为人知的攻击手段和防御技术》——2.3 小结...
查看>>
Mirics联合展讯推出嵌入式CMMB PCTV解决方案
查看>>
QC缺陷管理操作-细说
查看>>
干货丨5个问题鉴定大数据安全分析真伪!
查看>>
大话敏捷测试
查看>>
漫画赏析: Vi 还是不 Vi,这是个问题
查看>>
《Adobe After Effects CS6中文版经典教程》——1.8 渲染与导出合成图像
查看>>
《编写高质量代码:改善c程序代码的125个建议》——建议17-2:避免“悬挂”的else...
查看>>
jemalloc 5.0.0 全新版本发布,内存分配管理
查看>>
《草根自媒体达人运营实战》一一第2章 自媒体人必备品质
查看>>
两年没人领,Android 漏洞最高悬赏从 5 万涨到 20 万
查看>>
《SolidWorks 2016中文版完全自学手册)》——2.4 尺寸标注
查看>>
《沟通的技术——让交流、会议与演讲更有效》一2.3 何时询问为什么
查看>>
HBase 事务支持 Omid
查看>>
《程序员的呐喊》一一1.3 作者手记:名词王国里的执行
查看>>
微软开始为厂商提供 SQL Server 2014 OTM
查看>>
页面中iframe中嵌入一个跨域的页面,让这个页面按照嵌入的页面宽高大小显示的方式;iframe嵌套的页面不可以编辑的问题解决方案...
查看>>
维护 VS Code 开源项目背后的那些事情
查看>>
亿级用户平台的大数据实践
查看>>
《IPv6精髓(第2版)》——3.5 全局路由前缀
查看>>