记一次因 lru_cache 导致的 Python 内存泄露排查
admin
2024-02-06 06:11:06
0

1 现象

在开发一个多进程计算任务执行脚本时,通过 Linux 监控发现,负责 执行计算 的进程的内存占用会迅速增长,从每个进程不到 1GiB 迅速增加到每个进程 18GiB 左右,然后逐渐稳定在 14GiB - 20GiB。

使用 tracemalloc 库监控 执行计算 的进程的内存占用。具体地,在 执行计算 的进程启动时,初始化监控(tracemalloc.start()),在每个任务计算完成时,打印当前内存占用和内存峰值(tracemalloc.get_traced_memory())。通过 tracemalloc 的监控,可以发现:

  • 启动阶段:执行一个计算任务的进程的内存峰值基本不超过 2GiB;
  • 内存增长阶段:任务计算完成时内存占用均会逐渐增加而不会减少,每个任务计算完成后平均增加 100MiB - 200MiB 左右,内存峰值也随之增加,但内存占用和内存峰值之间的差距相对固定;
  • 内存稳定阶段:内存占用增加到 14GiB - 20GiB 后,内存占用开始波动,并逐渐稳定在 14GiB - 20GiB;

以上发现与 Linux 监控的进程内存占用相匹配。

2 原因推断

根据使用 tracemalloc 库监控的发现,可以将已知情况整理如下:

  • 每个任务会有约 100MiB - 200MiB 左右的内存无法被释放;
  • 当累计有 70 - 200 个计算任务的内存无法被正常释放后,后续的内存释放开始正常(很有可能是最早的任务开始被释放)。
根据已知情况确定:一定存在未能及时被引用计数机制回收的对象

因为内存占用在不断增加后,可以稳定在 14GiB - 20GiB 左右,所以说明垃圾回收机制仍然是可以生效的,但是存在某个问题,使只有当内存占用达到一定数量之后才会触发垃圾回收。因此,推断如下:

  • 因为引用计数机制是即时的,当对象的引用计数为 0 后就会被立即回收,所以说明 一定存在未能及时被引用计数机制回收的对象
  • 如果存在无法被 “标记 - 清除” 机制回收的对象,那么内存占用不会最后稳定在 14GiB - 20GiB 之间,所以 一定不存在无法被 “标记 - 清除” 机制回收的对象
根据已知情况推断:引用计数未及时归 0,或 “标记 - 清除” 机制未正常触发

进而,推断有两种可能如下:

  • 存在短时间内引用计数不为 0(无法被引用计数机制回收)且可达(无法被标记 - 清除机制回收)的对象,当内存占用达到 14GiB - 20GiB 时,其中部分对象的引用计数变为 0 或变得不可达。
  • “标记 - 清除” 机制未不正常触发,只有当内存占用达到 14GiB - 20GiB 左右才被触发。
添加 gc.collect() 及打印 gc.get_count() 验证:排除 “标记 - 清除” 机制未正常触发的可能性

执行计算 的进程启动时,使用 gc.get_threshold() 打印了三代对象计数器的阈值,发现为默认值 (700, 10, 10);在每个任务计算完成后:

  • 添加 gc.collect() 进行显示的垃圾回收,发现内存占用的增长速度没有变化;
  • 使用 gc.get_count() 打印当前三代对象的数量,发现均为 (6, 0, 0)(8, 0, 0),但内存占用在显著增长。

通过上述验证:因为手动触发 “标记 - 清除” 机制的垃圾回收对内存占用的增长没有影响,又因为三代对象的数量没有累加而内存占用在不断增加;所以共同验证了不是因为 “标记 - 清除” 机制未不正常触发导致的内存占用不断增加。

综上所述,当前内存泄露只剩下了一种可能:存在短时间内引用计数不为 0(无法被引用计数机制回收)且可达(无法被标记 - 清除机制回收)的对象,当内存占用达到 14GiB - 20GiB 时,其中部分对象的引用计数变为 0 或变得不可达。

3 定位内存泄漏位置

使用 tracemalloc 库按行统计内存占用情况。具体地:

for statistic in tracemalloc.take_snapshot().statistics("lino"):if statistic.size > 1024 * 1024:print(statistic)

其中:

  • statistic.size 的类型为 int,单位为 B,表示该文件占用的内存总量;
  • statistic.count 的类型为 int,表示该文件创建的对象数量;
  • statistic.average 的类型为 int,表示平均每个对象占用的内存数量。

发现内存占用最多的行是:../python3.8/site-packages/numpy/core/numeric.py:314,即 numpy 矩阵构造逻辑所在位置。

在每个任务计算完成后,count 会增加 7,内存占用增加 average 在 20MiB 左右,与每个任务计算完成后内存占用增加 100MiB - 200MiB 相匹配,说明绝大多数的内存占用均为 numpy 矩阵。

因为在 执行计算 的进程中仅有读取数据后构造的数据对象中会生成较多 numpy 矩阵,又因为其他内存占用较多的行均为构造数据对象时的逻辑,所以,基本可以确定是 数据对象 或者 数据对象的构造器 没有被按时销毁导致的内存泄露。

于是,在 数据对象 或者 数据对象的构造器__del__() 方法中添加日志打印,检查对象是否被销毁。运行测试后发现,数据对象的构造器 在每次任务计算中均被正常销毁,但是 数据对象 未被及时销毁。

综上所述,当前内存泄露已定位到:数据对象 在计算任务结束后,引用计数不为 0 且可达,无法被垃圾回收机制回收。

4 定位内存泄露原因

这说明,数据对象 在除了计算调度的逻辑外,还在其他位置存在引用,且在计算完成后,该引用未被销毁。于是,通过在 数据对象 构造完成后至任务计算完成前添加注释,使用 sys 包的 sys.getrefcount() 方法打印 数据对象 的引用计数,发现引用计数的增加与使用 lru_cache 的数量一致。

在发现了 lru_cache 的使用场景后发现,数据对象 中的部分方法为实现属性的懒惰计算使用了 lru_cache。但是,lru_cache 在缓存实例的方法时,需要存储方法所属的实例,这就导致每次使用不同方法 lru_cache,都会使 数据对象 的引用计数会加 1,从而导致 数据对象 在生命周期结束后,仍然在 lru_cache 中保留了引用,无法被及时销毁。

lru_cache 的默认大小为 128,因此,当一共缓存满 128 个计算任务后,lru_cache 会释放掉最早缓存的 数据对象,从而使该 数据对象 的引用计数归 0,得到释放。因为平均每个任务占用内存约为 100MiB - 200MiB,所以缓存满 128 个计算任务后,内存占用会在 14GiB - 20GiB 左右波动。

5 内存泄露的解决

lru_cache 改为使用实例属性进行缓存,或将 lru_cache 的大小改为 1 后,内存峰值固定在 2GiB 左右,任务计算完成后的内存占用稳定在 0.001GiB - 0.002GiB,问题解决。

相关内容

热门资讯

消息称百度旗下昆仑芯瞄准500... 6 月 29 日消息,据《The Information》昨日援引知情人士消息,百度旗下 AI 芯片...
打造夏日消费新场景 第35届北... 北京商报讯(记者 翟枫瑞)6月29日消息,第35届北京国际燕京啤酒文化节新闻发布会在京举行。本届啤酒...
社保基金持仓数据出炉,一季度增... 最近各大上市公司一季度财报都公开了,咱们国家社保基金的持仓数据也全部曝光。目前社保拿着比亚迪价值44...
36氪首发 | 海思、中兴团队... 作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,广州宸思通讯科技有限公司(以下简称“宸思科技”)近日完...
两天蒸发47亿市值!一纸税务通... 一纸税务通知书,能让一家百亿龙头两天蒸发47亿市值。 6月22日,北大荒(600598.SH)公告称...
SK海力士将投资1100万亿韩... SK集团会长崔泰源6月29日在韩国“三大重大计划”发布会上宣布,公司将投资1100万亿韩元扩大半导体...
两只A股,终止上市! 两家A股公司,即将摘牌。 6月29日,退市沪科(600608.SH)公告称,上海证券交易所将在202...
原创 M... 一家成立近十年的自动驾驶公司,在IPO时吸引了14家基石投资者认购近一半的发行股份,其中不乏奔驰、比...
基金忠言|国寿安保滤镜碎,三年... 图片来源:视觉中国 蓝鲸新闻6月29日讯(记者 祁和忠)保险系基金公司国寿安保总经理换人了。 6月2...
三星电机计划加码玻璃基板!相关... 6月29日,玻璃基板概念股午后有所回升, 华工科技(000988.SZ)逼近涨停, 彩虹股份(600...
拉萨海关持续壮大外贸经营主体 ...   新华网拉萨6月28日电(记者蒋梦辰)近日,记者从拉萨海关获悉,今年前5个月,西藏有进出口实绩的外...
机构:二季报临近,医药生物板块... 6月29日,华源证券发布了一篇医药生物行业的研究报告,报告指出,业绩期临近,产业链景气度有望再次迎来...
每日收评科创50放量涨超4.5... 财联社6月29日讯,三大指数全线收红,创业板指探底回升,科创50指数大涨4.61%。沪深两市成交额3...
6月多地土拍结构性升温:深圳单... 进入2026年6月,不少城市核心区地块集中诞生高溢价宗地,热度突出的城市包含深圳、杭州、长沙。 其中...
业绩炸裂!盛达资源半年预盈3.... 6月29日,贵金属矿山龙头盛达资源(000603.SZ)发布 2026 年半年度业绩预告,上半年业绩...
A股午后拉升三大股指收涨:半导... A股三大股指6月29日开盘涨跌互现。早盘沪强深弱,创指一度跌超2%。半导体午后拉升,带动两市上涨,沪...
原创 空... 前言 大家好,我是老金。 这几天,两幅极度割裂的画面放在一起,把我看笑了。 一边是在持续的热浪下,欧...
澳大利亚审慎监管局拟放宽银行风... 澳大利亚审慎监管局(APRA)6月29日就修改 银行信用风险资本设定公开征求意见,旨在加大信贷投放以...
全民炒股,急踩刹车!韩国股市突... 屈红燕/证券时报网 全民狂欢、交易高度拥挤、杠杆资金猛增、新入市投资者表现激进、大型IPO吸金等现象...