这一次,吃了Redis的亏,也败给了GPT
创始人
2025-05-30 23:10:41
0

关注【离心计划】,一起离开地球表面

 

背景

组内有一个系统中有一个延迟任务的需求,关于延迟任务常见的做法有时间轮、延迟MQ还有Redis Zset等方案,关于时间轮,这边小苏有一个大学时候做的demo:

https://github.com/JAYqq/GoDelayTasks

该系统采用的是zset的方案,在系统稳定运行了三年多后,这周出现了一个大面积故障,背后的原因居然是zscan的问题,我们今天就简单复盘一下这次的故障,好好盘一盘zset。

 

zset实现延时任务队列

关于zset的底层数据结构和基本操作,在之前的文章就已经阐述过了,简单来说就是底层由ziplist组织,超过一定阈值(默认128)就改为由skiplist:

【专栏】基础篇03| Redis 花样的数据结构

最常见的延迟任务就是下单,某宝中我们下单未支付后,会倒计时一段时间,到点后订单自动释放;还有完成订单后,超过一定时间就会自动签收。这些都是延迟任务,在zset中,我们将业务类型作为key、订单ID作为member、下单时间+延迟时间作为score,这样的一个zset结构,我们配合zrangeByScore(0,currentTime),就能获取到当前时间应该过期的任务了,简单操作如下:

127.0.0.1:6379> zadd order 100 111
(integer) 1
127.0.0.1:6379> zadd order 120 112
(integer) 1
127.0.0.1:6379> zadd order 140 113
(integer) 1
127.0.0.1:6379> zadd order 170 114
(integer) 1
127.0.0.1:6379> zrangebyscore order 0 130
1) "111"
2) "112"

zrangeByScore在异步线程定时执行就行了,这是延时任务的主动释放。而在组内应用的系统中,还有一个监听消息的机制,当接收到消息后需要取出sessionId,将zset中对应的session元素删除,这边就需要扫描zset所有元素,便用到了zscan命令。

zscan

zscan是一个增量命令,它在官网的定义如下:

所谓增量就是不会一次全部,而是返回一定数量的元素,也就是上面指定的count,然后返回cursor表示扫描到的位置,只要这个cursor不为0就表示扫描没有结束,这就是增量命令最重要的表现形式。

然而,这是我们对增量的理解,但是zset狗在对于元素数量比较少的时候,也就是底层以ziplist组织的时候,会忽视count,一次返回所有元素;而当以skiplist组织的时候,才会返回count个,如果没有传count,默认10个。这也是此次组内系统故障的根因,同事在用zscan的时候并没有传count,但是元素数量超过了128个,导致只扫描了10个后就停止了,代码也没有继续从返回的cursor扫描,导致了zset中存在大量的元素未被删除,被延迟任务队列监控线程通过zrangeByScore扫描到,错误地认为这些元素超时而返回了错误的系统信息。

从源码上看,也可以看出一些端倪

这边看确实默认值是10,但是直到我看到:

当是skiplist的时候,count会默认变成两倍,但是在我的电脑上并没有这个现象,可能是版本差异,但是我找了之前的release描述,没有找到相关的信息,这个问题因为我太饿了就查不下去了(其实是懒

),有读者知道的可以后台私信,感谢~

zset-max-ziplist-entries 3
127.0.0.1:6379> object encoding order
"ziplist"
127.0.0.1:6379> zscan order 0 match "order*" count 5
1) "0"
2)  1) "order-111"2) "100"3) "order-112"4) "110"5) "order-113"6) "120"7) "order-114"8) "130"9) "order-115"10) "140"11) "order-116"12) "150"13) "order-118"14) "170"15) "order-119"16) "180"17) "order-120"18) "190"19) "order-121"20) "200"21) "order-122"22) "210"23) "order-123"24) "220"
127.0.0.1:6379> zadd order 230 order-124
(integer) 1
127.0.0.1:6379> object encoding order
"skiplist"
127.0.0.1:6379> zscan order 0
1) "5"
2)  1) "order-123"2) "220"3) "order-116"4) "150"5) "order-118"6) "170"7) "order-124"8) "230"9) "order-121"10) "200"11) "order-114"12) "130"13) "order-120"14) "190"15) "order-115"16) "140"17) "order-111"18) "100"19) "order-122"20) "210"

发现确实只返回了10个,并且cursor是5,表示并没有结束,至此我们复现了系统的问题,现象也是一致的。

解决方案

方案一:传一个很大的count

方案二:zrange扫描全部,代码内做筛选

方案三:循环zscan,直到cursor为0

业务方案:zrangeByScore扫描到后继续保底

复盘

故障从监控预警到定位问题时间较长,原因在于开发人员并没有直接定位到zscan的问题,并且这部分命令是作为lua脚本执行,调试困难。

流程上看,这种问题无法通过单测发现,确实需要开发人员本身对所用技术的深刻了解,任何流程规则只能降低问题发生概率。

最后,gpt给出的答案确实是生产方案

周末快乐,分享一句最近看到的诗

欲买桂花同载酒,终不似,少年游

相关内容

热门资讯

A股“苹果产业链”巨头冲刺港交... 来源:大河财立方 【大河财立方消息】A股市值近3000亿元的“苹果产业链”巨头——立讯精密拟登陆港交...
为正生物IPO辅导:80后女总... 瑞财经 刘治颖 近日,厦门为正生物科技股份有限公司(以下简称:为正生物)披露关于向不特定合格投资者公...
沪深300ETF指数基金:7月... 证券之星消息,7月24日,沪深300ETF指数基金(515390)融资买入224.73万元,融资偿还...
泰鹏智能:7月24日融资买入9... 证券之星消息,7月24日,泰鹏智能(873132)融资买入94.8万元,融资偿还71.38万元,融资...
宁波银行业绩快报:上半年净利润... 7月24日晚间,宁波银行对外披露2025年半年度业绩快报,公司上半年营业收入371.60亿元,同比增...
我省油气田企业增值税管理办法出... 为加强石油天然气企业增值税征收管理,根据《财政部 税务总局关于印发〈油气田企业增值税管理办法〉的通知...
深圳能源2025年度科技创新大... 7月24日,深圳能源召开2025年度科技创新大会。受访单位供图 深圳能源成立科技创新咨询委员会。受...
期货市场沉淀资金创7783亿历... 近期期货市场资金流入呈现加速态势,沉淀资金总量达到近7783亿元的历史新高。这一数据自6月25日以来...
经学与中国古典学的关系 □景海峰 “以小学为经学”和“即经学史以为经学”的现状 经学曾经是儒学的主干形式,自晚清瓦解以来,已...
价格法修正草案公布,强调“反内... 政策面再出“反内卷”利好,7月24日,《中华人民共和国价格法修正草案》公开征求意见:明确不正当价格行...
原创 特... 关税风暴:特朗普贸易战的全球冲击波 8月1日,一场由美国总统特朗普发起的全球贸易战即将进入高潮。看似...
2024消费品上市公司研究报告... 《2024消费品上市公司研究报告》 (内容出品方:和君咨询x新华网) 报告共计:40页 本研报通过对...
特斯拉Q2营收下滑12%,马斯... 特斯拉于7月24日公布了2025年第二季度财报,数据显示总营收降至225.0亿美元,同比下滑12%;...
衣食住行跟我逛|“今年更甜!”... 盛夏时节,誉称为“紫水晶”的黑葡萄迎来最佳赏味期。近日,扬子晚报/紫牛新闻记者走访苏州市场发现,多数...
棕榈油与油菜籽:印尼库存降,马... 【印尼5月末棕榈油库存下滑,马棕7月上旬增产,加菜籽预估调整】印尼棕榈油协会数据显示,因出口激增,印...
康佳易主华润 半导体业务整合成... 康佳集团股份有限公司是深圳首家营业收入超百亿元的工业企业。 来源:康佳集团 靴子落地。在长达三个多月...
英特尔营收超预期,宣布裁员,C... 英特尔数据中心+AI收入超预期难掩盈利困境,英特尔CEO未能证明公司将扭亏为盈,股价应声下跌。 周四...
我国新药好药呈现快速增长态势:... 央视网消息:国家药监局最新统计显示,我国上半年批准创新药43个,同比增长59%,接近2024年批准创...
赛峰集团宣布完成对柯林斯宇航飞... 赛峰集团宣布完成对柯林斯宇航(Collins Aerospace)飞行控制与作动业务的收购。该业务为...
中国最大农业互联网公司即将登录... 来源:ACN亚太商讯 近日,中国领先的农产品B2B数字化服务公司一亩田集团向美国证券交易委员会(SE...