0

0

SQL数据库高基数字段索引_选择性评估方法

冷漠man

冷漠man

发布时间:2026-01-09 21:38:02

|

319人浏览过

|

来源于php中文网

原创

高基数字段是否建索引关键看选择性(满足条件行数/总行数),理想值趋近0;一般<5%适合索引,>20%优化器常弃用;需结合查询模式、统计信息准确性和分布倾斜度综合判断。

sql数据库高基数字段索引_选择性评估方法

高基数字段是否值得建索引,不能只看“唯一值多”,关键要看选择性(Selectivity)——即查询时能过滤掉多少数据。选择性越高,索引效率越明显;反之,即使字段唯一值上百万,若常用查询条件匹配大量行,索引可能被优化器弃用。

什么是选择性?怎么算?

选择性 = 满足条件的行数 / 表总行数(理想值趋近于 0,越小越好)。例如:用户表 1000 万行,user_id 是主键,查单个 ID 的选择性是 1/10000000 ≈ 0.0000001;而 status 字段有 3 个值且分布均匀,查 status = 'active' 的选择性约为 0.33。

  • 一般认为选择性 才较适合走索引
  • 超过 0.2(20%)时,全表扫描往往更快,优化器大概率忽略该索引
  • 计算示例:SELECT COUNT(*) FILTER (WHERE status = 'pending') * 1.0 / COUNT(*) FROM users;(PostgreSQL)或用子查询兼容 MySQL

别只看全局基数,要看实际查询模式

一个字段整体唯一值很多(如订单号、设备 ID),但业务查询常带时间范围或状态前缀,真实过滤效果取决于组合条件下的有效选择性

Runwayml(AI painting)
Runwayml(AI painting)

Runway 平台的文本生成图像AI工具

下载
  • 比如 order_no 全局唯一,但查询 WHERE order_no LIKE '202410%' 可能命中上万条——此时单独对 order_no 建索引无意义
  • 更优做法:把高频过滤字段(如 created_at)放在联合索引左侧,再加 order_no,让索引能快速定位时间窗口内的数据
  • EXPLAIN ANALYZE 看执行计划中 Rows Removed by Filter 占比,比理论值更真实

统计信息要准,否则评估会失真

优化器依赖表和列的统计信息估算选择性。如果 ANALYZE(PostgreSQL)或 UPDATE STATISTICS(SQL Server)长期未执行,或采样率过低,可能导致误判。

  • 检查统计信息新鲜度:pg_stat_all_tables.last_analyze(PG);sys.dm_db_stats_properties(SQL Server)
  • 对高基数字段,建议提高采样率(如 PG 中 ALTER TABLE t ALTER COLUMN c SET STATISTICS 1000
  • 避免在 WHERE 中对字段做函数操作(如 YEAR(created_at) = 2024),这会让统计失效,也使索引无法使用

用直方图+NDV交叉验证更可靠

仅靠 COUNT(DISTINCT) 不够——它不反映分布倾斜。比如用户地区字段有 200 个唯一值,但 80% 数据集中在 3 个省份,查其余 197 个值的选择性极好,查那 3 个却很差。

  • 查看列直方图(PostgreSQL 的 pg_stats 表、MySQL 的 information_schema.COLUMN_STATISTICS)了解值分布
  • 结合 ndv(Number of Distinct Values)和常见值频次,识别“长尾”还是“尖峰”分布
  • 对倾斜字段,可考虑分区 + 局部索引,或为高频值建覆盖索引,低频值走默认路径

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

676

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

346

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1094

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

357

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

675

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

571

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

413

2024.04.29

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

3

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.7万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 785人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号