怎么给字符串加索引?
admin
2024-03-16 20:19:04
0

给字符串加索引:

如果创建的索引不指定长度的话,那么索引会包含整个字符串,如果指定长度,那么就是前缀索引。

  • 给整个字段加索引,如果字段占用的内存较大,那么数据页一页所能存储的数据会小很多。InnoDB数据页默认大小是16KB。
  • 如果给字段加的是前缀索引,肯定是比这个字段加索引占用空间要小,存储的索引项会更多。这就是前缀索引的优势,但是使用前缀索引会增加扫描的次数。

前缀索引为什么会增加扫描的次数呢?

比如现在有一个email表,其中有email号字段。

比如有zhangsan111@gmail,zhangsan222@gmail,zhangsan333@gmail这三条记录。

如果是email(8)这样建立的前缀索引的话,那么想,在索引树上查找’zhangsan’的索引值,找到了返回id,然后在回表,去主键索引上去查找email的值,判断对不对,对就将这行收入结果集当中。然后在前缀索引的索引树当中接着上条查询的位置接着查’zhangsan’,查到之后在返回主键判断…

在来看,如果不是前缀索引,在索引树中查到email之后回表去主键上判断,是就收入结果集,在去查,发现不对,查询就结束了。

系统中认为查询主键索引的次数为扫描的行数。

所以使用不使用前缀索引只扫描了一行,使用前缀索引扫描了4行。

结论:使用前缀索引可能会导致查询语句读数据的次数变多。但是如果你使用前缀索引,定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本。

如何确定我应该使用多长的前缀呢?

在建立索引时系统关注的是区分度区分度越高越好。因为区分度越高,意味着重复的键值越少。因此,我们可以通过统计索引上有多少个不同的值来判断要使用多长的前缀。

select count(distinct 字段) from table;

可以这样查看有多少不同值。

然后依次选取不同长度的前缀来看这个值

select count(distinct left(字段,4))as L4, count(distinct left(字段,5))as L5, count(distinct left(字段,6))as L6, count(distinct left(字段,7))as L7,from 表名;

当然,使用前缀索引很可能会损失区分度,所以你需要预先设定一个可以接受的损失比例,比如 5%。然后,在返回的 L4~L7 中,找出不小于 L * 95% 的值,假设这里 L6、L7 都满足,你就可以选择前缀长度为 6。

前缀索引对覆盖索引的影响?

使用前缀索引用不上覆盖索引(点击查看覆盖索引的概念)对查询性能的优化。因为是前缀的,所以需要回表再次判断的,覆盖索引肯定就用不上了。即使用字段的长度作为前缀长度,也不可以利用覆盖索引的概念,因为系统并不确定前缀索引的定义是否截断了完整信息。

还有其他方式能解决吗?

  • 倒叙存储

    在存储的时候倒叙来存,查询用到的话利用MySQL的reserve()函数就行。

  • Hash字段

    可以在表上再创建一个整数字段,来保存hash码,同时在这个字段上创建索引。

使用倒序存储和使用 hash 字段这两种方法的异同点 。

首先,它们的相同点是,都不支持范围查询。同样地,hash 字段的方式也只能支持等值查询。

它们的区别,主要体现在以下三个方面

  • 从占用的额外空间来看,倒序存储方式在主键索引上,不会消耗额外的存储空间,而 hash 字段方法需要增加一个字段。

  • 在 CPU 消耗方面,倒序方式每次写和读的时候,都需要额外调用一次 reverse 函数,而 hash 字段的方式需要额外调用一次函数。如果只从这两个函数的计算复杂度来看的话,reverse 函数额外消耗的 CPU 资源会更小些。

  • 从查询效率上看,使用 hash 字段方式的查询性能相对更稳定一些。因为hash函数算出来的值虽然有冲突的概率,但是概率非常小,可以认为每次查询的平均扫描行数接近 1。而倒序存储方式毕竟还是用的前缀索引的方式,也就是说还是可能会增加扫描行数。

总结:

  • 直接创建完整索引,这样可能比较占用空间;
  • 创建前缀索引,节省空间,但会增加查询扫描次数,并且不能使用覆盖索引;
  • 倒序存储,再创建前缀索引,用于绕过字符串本身前缀的区分度不够的问题;
  • 创建 hash 字段索引,查询性能稳定,有额外的存储和计算消耗,和倒叙存储一样,都不支持范围扫描。

相关内容

热门资讯

邮储银行行长芦苇兼任公司首席合... 5月26日,邮储银行发布董事会决议公告,邮储银行行长芦苇自2026年5月26日起兼任邮储银行首席合规...
我愿意二次到店吗?小店主理人交... 来源:滚动播报 (来源:上观新闻) 咖啡店主理人可以去餐饮店体验一天,感受烟火气和客流管理;手工...
原创 深... 当政策暖风遇上资产配置需求,深圳楼市正上演一场“热度与信心齐飞”的戏码!上周(5.18-5.24),...
被封千万网红大蓝卷土重来:拉人... 蓝鲸新闻5月26日讯(记者 赵凯)“朋友圈散布经济恐慌言论制造焦虑,拉人头设多级返利,数百人入局、累...
抖音商城618前六日数据:消费... “清凉经济”热度高:抖音商城618首阶段空气循环扇订单量同比增长348% 作者 I 钱游 报道 I ...
金华有闲置贵金属想变现该怎么挑... 当下闲置物品处置、短期资金周转的需求日渐普遍,市面上的相关服务机构水平参差不齐,不少有黄金回收需求的...
千亿市值芯片企业完成IPO辅导... 【大河财立方消息】5月26日,新三板挂牌企业宸芯科技股份有限公司(证券简称:宸芯科技)公告,收到青岛...
NBBOSS R1全球首发 重... 5月26日,信人智能旗下全球首款企业家专属AI决策伙伴NBBOSS AI决策机器人R1正式全球首发。...
NFC果汁配料表“水”排第一?... 随着气温升高,果汁进入消费旺季。然而很多果汁产品的标注却让消费者感到困惑。比如:有的标注“纯果汁”,...
存储牛市与全民狂热:韩国股市泡... 2026年5月的韩国,正经历一场史无前例的资本狂欢。自2025年4月触底以来,KOSPI指数在18个...
下架,召回!双汇子公司猪肉抗生... 近日,黑龙江省市场监督管理局网站发布关于食品安全监督抽检信息的通告(2026年第7期)。 其中,望奎...
换帅潮席卷白酒圈 白酒本轮人事变动频次之高、画像之多元,几乎超过了过去任何一个周期。 5月19日,“河北王”老白干酒宣...
4月意大利起泡酒猛增122.5... 近日,海关总署公布了2026年4月葡萄酒进口数据。其中,起泡酒表现尤为突出,进口量同比增长35.8%...
华为“韬定律”提振港股半导体股... 财联社5月26日讯(编辑 胡家荣)半导体产业链个股集体走强。截至发稿,华虹半导体(01347.HK)...
历史不会重演,但会惊人相似:中... 金价疯涨别乱买!复刻2015年走势,普通人记住3个保命妙招 最近逛商场,最大的感受就是黄金柜台太热闹...
商品标签被指涉嫌性暗示,盒马道... 近日,盒马旗下一款粉木耳产品因标签设计引发争议,不少网友吐槽该商品标签低俗,涉嫌性暗示。 25日晚...
东莞一上市公司董事会“换血”,... 近日,易事特集团股份有限公司发布《关于董事会完成换届选举及聘任高级管理人员、证券事务代表暨公司控制权...
做宠物食品,已经很难赚到钱了? 流量争夺战里没有赢家 撰文/ 黎炫岐 编辑/ 李觐麟 排版/ Annalee “它经济”,一个持续升...
2万亿美元!SpaceX上市前... “你想在早上醒来时觉得未来会很美好——而这正是成为太空文明的全部意义所在。它关乎相信未来,并认为未来...