BigQuery中实现自定义排序：策略与实践

花韻仙語

发布时间：2025-09-05 12:26:01

148人浏览过

来源于php中文网

原创

BigQuery中实现自定义排序：策略与实践

本文探讨了在BigQuery中实现自定义排序的两种主要策略。对于预定义且固定顺序的场景，推荐使用CASE语句构建排序键，以实现高效且可扩展的排序。对于需要复杂比较逻辑（如JavaScript localeCompare或自定义排名函数）的场景，可以利用JavaScript UDF，但需注意其在处理大规模数据集时的性能限制，因为它需要将数据聚合为数组进行处理。

引言

在数据分析和处理中，我们经常需要对数据进行排序。bigquery提供了标准的order by子句，支持按列的升序或降序排列。然而，有时我们需要更复杂的自定义排序逻辑，例如根据特定业务规则、字符串的自然语言顺序（忽略大小写和变音符号），或者基于非字母数字的自定义排名。本文将详细介绍在bigquery中实现这类自定义排序的两种主要方法：利用case语句构建排序键和使用javascript用户定义函数（udf）。

1. 使用CASE语句构建排序键（推荐）

当自定义排序规则是预先定义且相对固定时，使用CASE语句创建临时的排序键是 BigQuery 中最推荐且性能最佳的方法。这种方法将每个需要排序的值映射到一个数值或具有明确顺序的字符串，然后根据这个映射值进行排序。

工作原理： 通过CASE表达式，您可以为每个特定的输入值指定一个对应的“排名”或“权重”。BigQuery会根据这些生成的排名值进行标准的数字或字符串排序，从而实现自定义的逻辑顺序。

示例场景： 假设我们有一个包含字符串值"date", "time", "number"的表，我们希望它们按照"number" -> "time" -> "date"的顺序进行排序。

WITH tbl AS (
  SELECT "date" AS val UNION ALL
  SELECT "time" UNION ALL
  SELECT "number"
)
SELECT
  tbl.val,
  -- 使用CASE语句为每个值分配一个排序优先级
  CASE tbl.val
    WHEN 'number' THEN 1
    WHEN 'time' THEN 2
    WHEN 'date' THEN 3
    ELSE 99 -- 处理未匹配的值，给予一个默认优先级
  END AS sort_rank
FROM tbl
ORDER BY sort_rank;

输出：

BEES企业网站管理系统3.4

主要特性： 1、支持多种语言 BEES支持多种语言，后台添加自动生成，可为每种语言分配网站风格。 2、功能强大灵活 BEES除内置的文章、产品等模型外，还可以自定义生成其它模型，满足不同的需求 3、自定义表单系统 BEES可自定义表单系统，后台按需要生成，将生成的标签加到模板中便可使用。 4、模板制作方便采用MVC设计模式实现了程序与模板完全分离，分别适合美工和程序员使用。 5、用户体验好前台

下载

val	sort_rank
number	1
time	2
date	3

优点：

高性能和可扩展性： CASE语句是标准SQL的一部分，BigQuery对其进行了高度优化，可以在大规模数据集上高效运行。
易于理解和维护： 逻辑清晰，可以直接在SQL查询中表达排序规则。
并行处理： BigQuery能够并行处理CASE表达式，充分利用其分布式计算能力。

注意事项：

此方法适用于排序规则相对固定且可以清晰映射到某个顺序值的场景。
如果排序规则非常动态或复杂到难以用CASE语句表达，可能需要考虑其他方法。

2. 使用JavaScript UDF实现复杂排序逻辑（适用于小规模数据）

对于需要更复杂比较逻辑的场景，例如字符串的自然语言比较（如JavaScript的localeCompare）或基于动态规则的自定义排名函数，JavaScript UDF提供了一种解决方案。然而，由于其工作机制，此方法在处理大规模数据集时存在显著的性能限制。

工作原理： BigQuery的JavaScript UDF允许您在SQL查询中执行JavaScript代码。但是，与传统编程语言中直接传递比较函数给sort方法不同，BigQuery UDF不能直接接收两个元素进行比较。相反，它需要接收一个完整的数组，在UDF内部对这个数组进行排序，然后返回排序后的数组。之后，我们需要将原始数据与这个排序结果进行关联，以确定每个元素的最终排序位置。

示例场景： 沿用上面的例子，我们希望实现"number" -> "time" -> "date"的自定义排序，但这次通过一个JavaScript函数来定义排名映射。

-- 定义一个JavaScript UDF，用于对字符串数组进行自定义排序
CREATE TEMP FUNCTION sortme(MyValues ARRAY)
RETURNS ARRAY
LANGUAGE js AS
"""
// 定义自定义的排名映射
const RANK_MAP = {"number": 1, "time": 2, "date": 3};

// 自定义比较函数
function customCompare(val1, val2) {
    // 如果值不在RANK_MAP中，可以给予一个默认排名，例如Infinity
    const rank1 = RANK_MAP[val1] !== undefined ? RANK_MAP[val1] : Infinity;
    const rank2 = RANK_MAP[val2] !== undefined ? RANK_MAP[val2] : Infinity;
    return rank1 - rank2;
}

// 使用自定义比较函数对数组进行排序
MyValues.sort(customCompare);
return MyValues;
""";

-- 示例数据
WITH tbl AS (
  SELECT "date" AS val UNION ALL
  SELECT "time" UNION ALL
  SELECT "number" UNION ALL
  SELECT "apple" -- 添加一个不在RANK_MAP中的值
),
-- 步骤1: 聚合所有不重复的val值到一个数组中
helper AS (
  SELECT sortme(ARRAY_AGG(DISTINCT val)) AS sorted_values FROM tbl
)
-- 步骤2: 将排序后的数组展开，并与原始表连接
SELECT
  t.val,
  -- 通过连接获取排序后的索引，作为最终的排序键
  s.sort_by
FROM tbl AS t
LEFT JOIN (
  SELECT
    sorted_val,
    sort_by -- sort_by是unnest生成的偏移量，即排序后的索引
  FROM helper,
  UNNEST(helper.sorted_values) AS sorted_val WITH OFFSET AS sort_by
) AS s
ON t.val = s.sorted_val
ORDER BY s.sort_by;

输出：

val	sort_by
number	0
time	1
date	2
apple	3

解释：

CREATE TEMP FUNCTION sortme(...): 定义了一个临时UDF，它接受一个字符串数组并返回一个字符串数组。
UDF内部逻辑: RANK_MAP定义了自定义的排名。customCompare函数使用这个映射来比较两个值。MyValues.sort(customCompare)对传入的数组进行原地排序。
helper CTE: 使用ARRAY_AGG(DISTINCT val)将tbl表中所有不重复的val值收集到一个数组中，然后将这个数组传递给sortme UDF进行排序。
最终查询:
- UNNEST(helper.sorted_values) AS sorted_val WITH OFFSET AS sort_by：将UDF返回的已排序数组展开，sort_by列会生成每个元素在排序后数组中的索引（从0开始）。
- LEFT JOIN：通过val列将原始表tbl与展开后的排序结果进行连接。
- ORDER BY s.sort_by：最终根据sort_by（即排序后的索引）对原始数据进行排序。

优点：

极高的灵活性： 可以在JavaScript中实现任何复杂的比较逻辑，包括使用localeCompare进行语言敏感排序。
代码复用： 复杂的排序逻辑可以封装在UDF中。

注意事项：

性能瓶颈： 这是最主要的限制。将所有需要排序的唯一值聚合到一个数组中，并在UDF中进行处理，意味着：
- 数据需要从BigQuery传递到JavaScript执行环境。
- JavaScript引擎对大型数组的排序效率可能不如BigQuery的原生排序。
- ARRAY_AGG操作本身在处理非常大的基数（distinct values）时可能会消耗大量内存和计算资源。
- 官方建议此方法适用于数据集不超过数百行的情况，因为数据量过大可能导致查询失败或执行时间过长。
复杂性增加： 查询结构变得更复杂，需要聚合、UDF调用、展开和连接多个步骤。

总结

在BigQuery中实现自定义排序时，应优先考虑以下策略：

首选CASE语句： 对于预定义且可映射的自定义排序规则，CASE语句是最高效、最可扩展且最易于维护的方法。它直接利用BigQuery的优化能力，适用于绝大多数场景。
谨慎使用JavaScript UDF： 当排序逻辑极其复杂，无法通过CASE语句表达，且数据集规模较小（例如，只有数百个不同的值需要排序）时，可以考虑使用JavaScript UDF。但请务必意识到其性能限制，并避免在处理大规模数据时采用此方法。

通过选择合适的策略，您可以在BigQuery中有效地管理和实现各种自定义排序需求。

条件语句在javascript中怎样使用_有哪些最佳实践【教程】

如何在表格价格列下方动态插入文本（使用 insertAdjacentHTML）

如何在前端正确解析并显示登录接口的响应消息

什么是javascript模块_CommonJS和ES模块如何互通【教程】

如何使用全局函数的返回值批量更新 JavaScript 对象属性

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

557

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

754

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

478

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

454

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

1031

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

658

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

553

2023.09.20