0

0

SQL 如何处理分析中的缺失值?

舞夢輝影

舞夢輝影

发布时间:2026-01-23 20:18:45

|

741人浏览过

|

来源于php中文网

原创

NULL是缺失标记而非值,WHERE中必须用IS NULL而非= NULL;GROUP BY将NULL视为相等并归为一组;JOIN时NULL无法匹配,需用LEFT JOIN配合COALESCE处理。

sql 如何处理分析中的缺失值?

WHERE 子句中 IS NULL= NULL区别必须分清

SQL 里 NULL 不是值,而是“缺失”的标记,所以不能用等号判断。写 WHERE column = NULL 永远不返回任何行,因为 NULL = NULL 返回 UNKNOWN,而 WHERE 只接受 TRUE

正确写法只有:WHERE column IS NULLWHERE column IS NOT NULL

  • 某些方言(如 PostgreSQL)支持 IS DISTINCT FROM,能安全比较含 NULL 的字段,但 MySQL、SQL Server 不支持
  • COALESCE(column, 'default') 常用来临时替换 NULL,但注意它会改变原始数据语义,做统计前要确认是否合理
  • 聚合函数COUNT(column) 自动忽略 NULL,但 COUNT(*) 统计所有行——这点常被误用

GROUP BY 中遇到 NULL 会被当成同一组吗?

是的。在标准 SQL 中,所有 NULLGROUP BY 中被视为相等,会归入同一组。比如 SELECT region, COUNT(*) FROM sales GROUP BY region,所有 region IS NULL 的记录会挤在一行里,显示为 NULL

如果想把缺失值单独标记(比如叫 'Unknown'),得提前转换:

SELECT COALESCE(region, 'Unknown') AS region_group, COUNT(*) 
FROM sales 
GROUP BY COALESCE(region, 'Unknown');
  • 别在 GROUP BY 里直接写 COALESCE(region, 'Unknown') 而不重命名,否则 SELECT 列名和 GROUP BY 表达式不一致,在严格模式(如 PostgreSQL)下报错
  • MySQL 5.7+ 默认开启 ONLY_FULL_GROUP_BY,要求 SELECT 中所有非聚合列必须出现在 GROUP BY 中,这时候裸写 region 会失败

窗口函数里 NULL 怎么影响排序和计算?

ORDER BY 在窗口函数中决定计算顺序,而 NULL 的排序行为因数据库而异:PostgreSQL 默认 NULLS LAST,MySQL 8.0 默认 NULLS FIRST(实际取决于版本和 SQL mode)。这会导致 ROW_NUMBER()LAG() 等结果不一致。

Mintlify
Mintlify

帮助开发者创建和维护文档

下载

显式声明更安全:

SELECT id, value,
       LAG(value) OVER (ORDER BY created_at NULLS LAST) AS prev_value
FROM logs;
  • LAG(value, 1, 0) 的第三个参数是默认值,当上一行是 NULL 或越界时返回 0,避免结果列出现意外 NULL
  • AVG() 窗口函数仍会跳过 NULL,但如果你先用 ROWS BETWEEN 2 PRECEDING AND CURRENT ROW 定义帧,空值不会被“补上”,只是参与计数但不参与求和——容易误判平均值分母

JOIN 时 NULL 匹配逻辑容易引发漏数据

两个表 ON 条件里如果涉及可能为 NULL 的字段(比如 ON a.category_id = b.id),而 a.category_idNULL,那这行一定不会匹配成功——因为 NULL = anything 永远不成立。

若业务上希望把“未知分类”的记录也连过去(比如挂到 b.id IS NULL 的虚拟行),得拆成两步或改用条件逻辑:

  • LEFT JOIN 保证左表全量,再在 WHERE 或 SELECT 中用 COALESCE(b.name, 'Uncategorized') 标记
  • 避免写 ON a.category_id = b.id OR a.category_id IS NULL——这会引发笛卡尔积,性能爆炸
  • 部分场景更适合用 UNION ALL 分开处理:先正常 JOIN,再补上 a.category_id IS NULL 的行并关联默认值

缺失值不是技术边缘问题,它是分析链路里最常被静默吞掉的信息源。每加一层聚合、一次 JOIN、一个窗口定义,都得重新检查 NULL 是否还在按你设想的方式参与计算。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

685

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

323

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

348

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1117

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

359

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

717

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

577

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

419

2024.04.29

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

10

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 805人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号