内存问题的排查

PublishedApril 9, 2023

自圆其说是本 blog 的宗旨，有的时候理论真实可能会更加复杂，但是我愿意使用自己能理解的方式去理解的，并且达到自圆其说的地步；目前处于分布书存储领域，这个领域大神太多但我不是那种很牛逼的大神。来这个领域只是为了追求自己喜欢做的事情,所以会持续几年吧。

个人喜欢非常 cool 的工具和膜拜各类大神，前提是你真的比我厉害，不喜欢吹嘘的人。算不上很喜欢写程序，但是挺喜欢现在的状态，最好 35 岁别把我裁了就更加好了。梦想着自己能实现收支平衡，做一个开心的废物；最近一段时间正在学习 Rust，这个语言我超级喜欢，因为我非常喜欢 C++，但是不得不说 C++ 的包袱太重了；下一份工作可能会尝试 remote work，不知道这是不是我喜欢的生活；家中有一个小宝贝，有点任性，不知道我能不能教育好她，希望她能健健康康的成长，我努力让自己不焦虑去鸡娃；我努力让你成为富二代吧。

Comments

Join the discussion

No comments yet. Be the first to comment.

More from this blog

Ai时代的工具链

本周是black Friday,我订阅了几个AI服务，还是蛮贵的...不过这样基本上构成我目前整体的知识阅读的过程，随着Ai的不断发展，工具链的替换可能是很重要的一个过程的。我主要订购了以下几个工具： Memo: 这个工具的主要作用是将视频/audio转srt，并且带有ai翻译的工具；当然我觉得它做的非常好的是，它把整个链路做的非常好的，并且可以用本地的资源做audio->text；而且它自带了很多的ai功能，比如对字幕进行进一步的AI的处理，提问，summarize和思维导图等等；目前我主要...

Nov 30, 20251 min read

做了一个噩梦

今天凌晨4点多起来看了一眼丈母娘的发烧是否ok...就导致我有点睡不着的，刷了一会推特之后又开始睡觉了，于是就开始做了一个很可怕的梦。噩梦那天，我不知道是在哪里..我带着女儿和我弟出去玩的，貌似是一个风景山区。于是我就带着女儿和弟弟出去玩的；我们走啊走, 沿着一条路一直走..突然看到一个小道有一家饭店的，这个饭店是比较特殊，有很多海鲜的；我看上了一只大龙虾，我问多少钱的，他说大概就70rmb就可以的。。。我觉得很划算的，我心想：我买下来，到时候把老婆叫过来一起吃的，并且告诉她这个才70rmb...

Nov 24, 20251 min read

子女教育-2

下面我分享一个推特上的一个关于子女教育的推哈哈哈哈，李诞这个视频我看过我给你分享几个我和我女儿之间的小故事第一个故事我经常给小朋友说：你们现在上学的成绩不重要，你们现在数学考试都是语文脑筋急转弯，语文考试都是历史背诵，一点用都没有，你出了社会就知道，社会根本没有选择题，社会要有选择题就好了，最难的是你遇到困难，你连门都找不到。我第一次这样讲的时候是女儿小学4年级，那时候我女儿听的一愣一愣的，她不明白，但是觉得我的理论和学校的不一样，很狂妄，但是她很喜欢，哈哈哈哈。她什么时候真正明...

Nov 13, 20251 min read

被诈骗-马来西亚

最近我在国内，我老婆在马来；最近在计划搬家的，找的那个房子不包含一些必要的家具，于是我老婆就必须要买点家具的，主要是沙发和餐桌..我们本来计划是说去ikea去买，但是我老婆觉得ikea的家具不便宜，并且款式一般的，最终问了中介找了一个二手平台找找看不错的家具。我老婆挑了两个家具的，我看了一下价格也不算便宜的，但是我老婆喜欢的，于是我就说你觉得ok那就购买吧。我还顺便问了一下，这个家具能不能线下看一下货的，但是我老婆说这货在很远的地方的，大概是300公里的一个城市的。那我就说这个包邮吗，我老婆说...

Nov 13, 20251 min read

当下和最近想做的事情

1. Current 当下最近依然还在中国，已经回来快一个月了. 最近一直在忙着带丈母娘看病和住院的。索性一切都还在可控范围内的，丈母娘由于糖尿病控制的很差导致本身的冠心病也复发. 这次去浙江省人民医院去做了造影检查和支架植入的手术的，不过这一切都比我预估的要顺利，我就怕她由于长时间没吃药和高血糖的持续的时间太长了，会带来严重的问题，不过好在没有发生最坏的事情的。因为做了手术，所以这段时间我和我老婆的姐姐每人轮换的陪床，不过陪床真的好累的，因为睡得很不好的，特别的累。不过好在都结束了，而且丈...

Nov 9, 20251 min read

Keep Move - 永不止步

39 posts

Time -----------------------mem---------------------- ---------------swap------------- Time free used buff cach total util swpin swpout total util 03/04/23-21:09:48 4.3G 84.0G 1.1G 162.4G 251.8G 33.35 0.00 0.00 0.00 03/04/23-21:09:49 4.2G 84.0G 1.1G 162.5G 251.8G 33.36 0.00 0.00 0.00 03/04/23-21:09:50 4.1G 84.0G 1.1G 162.6G 251.8G 33.35 0.00 0.00 0.00 03/04/23-21:09:51 4.0G 84.0G 1.1G 162.7G 251.8G 33.36 0.00 0.00 0.00 * mem.used: 已用内存大小（单位：KB）。 * mem.buff: Buffers占用的内存大小（单位：KB）。 * mem.cach: Cache占用的内存大小（单位：KB）。 * mem.free: 空闲内存大小（单位：KB）。 * mem.total: 总共的物理内存 * mem.util: 内存使用的百分比 * swap.swpin: 磁盘交换到内存的大小 * swap.swpout: 内存交换到磁盘的大小 * swap.total: 可用的swap的总共大小 * swap.util: 使用百分比通常关注`free`和`used`两个指标，内存不足的时候你可能关注到free指标不断下降，时不时就还会慢慢涨回来 swap: 表示内存和磁盘之间的交换，通常线上机器都会将这个关闭，原因是磁盘的速度太慢，如果开启会在交换时候非常缓慢，并且对磁盘的压力也很大

Linux 4.18.5-041805-generic (jjh2972) 04/03/2023 _x86_64_ (48 CPU) 09:21:27 PM pgpgin/s pgpgout/s fault/s majflt/s pgfree/s pgscank/s pgscand/s pgsteal/s %vmeff 09:21:28 PM 0.00 87068.00 33798.00 0.00 32141.00 0.00 0.00 0.00 0.00 09:21:27 PM frmpg/s bufpg/s campg/s 09:21:28 PM -6708.00 0.00 6689.00 09:21:27 PM kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit kbactive kbinact kbdirty 09:21:28 PM 6127096 257892216 97.68 1120412 168752100 113597140 43.03 181323284 71838856 36776 指标解释： * kbmemfree：空闲内存大小，单位是KB。 * kbmemused：使用中的内存大小，单位是KB。 * %memused：使用中的内存占比。 * kbbuffers：系统buffer的大小，单位是KB。 * kbcached：系统cache的大小，单位是KB。 * kbcommit：已经分配但未使用的内存大小，单位是KB。 * %commit：已经分配但未使用的内存占比。 * kbactive：正在使用的活动内存大小，单位是KB。 * kbinact：不活跃的内存大小，单位是KB。 * kbdirty：等待刷新到磁盘的内存大小，单位是KB。 * frmpg/s: 每秒被free的page的个数;如果是负值就表示有page被分配 * bufpg/s: 每秒被分配用于buffer的page的个数，如果是负值就表示很少有page被用于buffer * campg/s: 每秒被分配用于cache的page的个数,如果是负值,表示几乎没有page用在cache中 * pgpgin/s: 每秒从磁盘进来的page的总kb * pgpgout/s: 每秒从系统内存回退到磁盘的总kb * fault/s: 缺页的次数,这个包含了major+minor,这个次数不是全部度会产生IO的; 有的只是虚拟地址与物理地址没有对应，缺页的解决方法只需要对应一下就好; 而有的则需要从磁盘中load上来; * magflt/s: 会引起io操作的缺页处理 * pgfree/s: 每秒被放到free list的page的个数 * pgscank/s: kswapd每秒scan的page的个数 * pgscand/s: 直接回收每秒scan的page的个数 * pgsteal/s: 每秒被回收的page的个数 * vmeff: 计算方式(pgsteal/(pgscank+pgscand)), 这是反映内存回收的效率; 如果这个值很高就表示在inactive尾部的一些page都将被回收; 如果太小,就表示很难有page可以被回收回来主要关注的指标有: * kbmemfree: 表示当前空闲内存的大小，可以大概看一下，是不是空闲内存很不足; * kbdirty: 如果这个数值很大的话，就说明有大量的内存需要被回写到磁盘，也可能会造成一次回写过多导致磁盘压力很大的；可以通过内核参数进行配置； * magflt/s: 表示重大缺页的次数，这个频率很高的话就表示内存不足的表现，因为需要不断的剔除一些old page，存放new page，这个过程对cpu来说很慢 * pgscand/s:表示应用进程申请内存，因为操作系统内存不足导致需要在当前context执行遍历page来释放内存的过程的；这个指标非常的重要的，如果这个指标频繁出现，那么就表示当前系统的可用内存严重不足，已经开始影响到了应用进程了； * vmeff: 这是回收效率的体现，看计算方式可以看出: `真是回收/扫描的page的总数`，内存充足的情况下，通常为0,需要配合`pgscank pgscand`来一起使用;

cat /proc/buddyinfo Node 0, zone DMA 2 3 2 2 2 2 2 1 1 2 2 Node 0, zone DMA32 12631 11776 4183 1428 118 40 17 8 3 5 0 Node 0, zone Normal 580413 0 4 7 4 3 2 0 0 1 0 Node 1, zone Normal 585174 170141 61788 18068 2506 533 124 32 12 0 0 只需要关注Normal两行即可： * node: numa的概念, 通常在numa架构cpu申请内存会优先从自己节点的内存获得 * 后面的一列一列数据表示: `2^0`, `2^1`, `2^2`...连续n个page的空余数；比如`2^2`就是表示有连续4个page的内存的个数;

numactl --hardware 输出结果： available: 2 nodes (0-1) node 0 cpus: 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 node 0 size: 96456 MB node 0 free: 2724 MB node 1 cpus: 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 node 1 size: 96757 MB node 1 free: 2520 MB node distances: node 0 1 0: 10 21 1: 21 10 这些信息表示: 1. 当前系统存在两个numa节点 2. node x size: 表示当前节点下面的总内存 ( cat /sys/devices/system/node/nodex/meminfo 也可以观察) 3. node x cpu: 哪些cpu是属于哪个node,这个比较重要，因为绑核操作的话，需要关注这些物理限制，尽可能将进程绑在相同的node下面的cpu 4. node x free: 表示当前node剩余的内存 5. node distances: 大致表示节点之间的距离，也表示相互调用之间的性能差距，这是一个相对比较的；比如上面的这个信息输出，基本可以认为调用本地内存和remote内存的latency基本在2倍左右，当然具体还是要根据实测为主;

# dirty_background_bytes 表示当前系统所能容忍的最大的脏页的字节数，如果超过就会回写磁盘，0表示禁用 vm.dirty_background_bytes = 0 # dirty page所占用比例，如果超过这个比例就进行回收 vm.dirty_background_ratio = 10 # 与dirty_background_bytes 不同的在于,当超过配置之后会停止用户进程，尽可能的将dirty写回到磁盘 vm.dirty_bytes = 0 # 每个dirty page在内存中保留的最长时间,单位为ms vm.dirty_expire_centisecs = 3000 # 同dirty_background_ratio，会影响用户进程 vm.dirty_ratio = 20 # 表示回写dirty page到磁盘的最小时间间隔,定时回写(ms) vm.dirty_writeback_centisecs = 500

// 包函了不同numa node的当前内存的一些信息, 我们重点看Node 0和Node 1的Normal的信息, cat /proc/zoneinfo Node 0, zone Normal pages free 670703 min 385498 low 481872 high 578247 Node 1, zone Normal pages free 759799 min 393829 low 492286 high 590743

void __setup_per_zone_wmarks(void) { unsigned long pages_min = min_free_kbytes >> (PAGE_SHIFT - 10); for_each_zone(zone) { tmp = (u64)pages_min * zone->managed_pages; do_div(tmp, lowmem_pages); zone->watermark[WMARK_MIN] = tmp; zone->watermark[WMARK_LOW] = min_wmark_pages(zone) + (tmp >> 2); zone->watermark[WMARK_HIGH] = min_wmark_pages(zone) + (tmp >> 1); ... }

# vim /etc/sysctl.conf 增加以下行，参数值根据上面计算所得内核版本差异配置有所区分 # 4.6之前 vm.min_free_kbytes=1048576 # 1G每64G # 4.6之后 vm.min_free_kbytes=524228 # 0.5G每64G # 这个参数也会影响low和high的value，但是不影响min vm.watermark_scale_factor=100 # sysctl -p 使参数生效 # sysctl -a | grep vm.min_free_kbytes 查看当前配置值

内存问题的排查

Comments

More from this blog

Ai时代的工具链

做了一个噩梦

子女教育-2

被诈骗-马来西亚

当下和最近想做的事情

1. 排查的方式

2. 如何缓解内存问题

2.1 内存回收的基本模式

2.2 经验

3.3 其他

4. 总结

Command Palette

Comments

More from this blog

1. 排查的方式

2. 如何缓解内存问题

2.1 内存回收的基本模式

2.2 经验

3.3 其他

4. 总结