DynamoDB稀疏全局二级索引：实现条件性数据索引的策略

DDD

发布时间：2025-10-13 13:40:01

416人浏览过

来源于php中文网

原创

dynamodb稀疏全局二级索引：实现条件性数据索引的策略

本文深入探讨了如何在Amazon DynamoDB中利用稀疏全局二级索引（GSI）实现数据的条件性索引。通过在主表项中动态添加或移除作为GSI分区键的特定属性，可以精确控制哪些记录被包含在GSI中。这种策略允许在特定业务逻辑条件下自动增删索引记录，从而优化查询效率、降低成本，尤其适用于需要根据字段值筛选索引数据的复杂场景。

理解DynamoDB GSI的索引机制与限制

Amazon DynamoDB的全局二级索引（GSI）是一种强大的工具，它允许用户根据主表中的非主键属性进行高效查询。然而，GSI本身并不直接支持基于复杂表达式的条件性投影。这意味着，你不能简单地定义一个规则，例如“只有当isIntermediateState字段为1时才将记录添加到GSI中”。GSI的投影模式（KEYS_ONLY, INCLUDE, ALL）决定了哪些属性会从主表复制到索引中，但它不会基于属性值来决定是否将整个记录包含在索引中。

当一个GSI被创建时，DynamoDB会检查主表中的每个项目。如果一个项目包含GSI定义中作为分区键（Partition Key）和/或排序键（Sort Key）的属性，那么该项目的一个副本（根据投影设置）就会被添加到GSI中。如果项目不包含这些关键属性，则该项目不会被索引。正是这一行为，为我们实现条件性索引提供了基础。

稀疏GSI：条件索引的核心机制

实现条件性数据索引的关键在于利用稀疏全局二级索引（Sparse GSI）。稀疏GSI的核心思想是：只在满足特定条件的记录中，显式地添加一个作为GSI分区键的辅助属性。当这个辅助属性存在时，记录就会被包含在GSI中；当这个属性不存在时，记录就不会被包含在GSI中。

其工作原理可以概括为：

定义GSI分区键： 创建一个GSI，并将其分区键指定为一个在主表中可能存在也可能不存在的辅助属性。
条件性添加/移除辅助属性： 在应用程序逻辑中，根据业务需求判断主表中的记录是否应该被索引。
- 如果记录需要被索引，则在更新主表时，同时为该记录添加（或设置）这个辅助属性。
- 如果记录不再需要被索引，则在更新主表时，从该记录中移除这个辅助属性。
DynamoDB自动维护： DynamoDB会自动检测主表项中GSI分区键属性的存在与否。当该属性被添加或移除时，GSI会相应地自动更新，将记录包含或排除在外。

实践案例：基于状态的条件索引

我们以一个具体的场景为例：假设有一个Attachment表，其中包含customerState（客户状态，如Attaching, Detaching, Attached, Detached）和isIntermediateState（是否为中间状态，1表示中间状态，0表示最终状态）字段。我们的目标是创建一个GSI，只索引isIntermediateState = 1的记录，并在状态变为isIntermediateState = 0时自动从GSI中移除。

1. 设计GSI分区键

首先，我们需要在Attachment表的基础上创建一个GSI。我们将定义一个辅助属性，例如IntermediateStatePK，作为这个GSI的分区键。这个IntermediateStatePK的值可以是一个固定的字符串，例如"INTERMEDIATE"，只要它存在就表示该记录应该被索引。

GSI配置示例：

GSI名称： IntermediateAttachmentsIndex
分区键： IntermediateStatePK (类型：String)
排序键（可选）： 可以根据需要选择其他属性，如attachmentId。
投影属性： 根据查询需求选择KEYS_ONLY, INCLUDE, 或 ALL。

2. 实现条件性更新

应用程序在更新Attachment表中的记录时，需要根据customerState或isIntermediateState的值来决定是否操作IntermediateStatePK属性。

场景一：记录进入中间状态（需要被索引）

谱乐AI

谱乐AI，集成 Suno、Udio 等顶尖AI音乐模型的一站式AI音乐生成平台。

下载

当customerState变为Attaching或Detaching，导致isIntermediateState变为1时，我们需要在主表项中添加IntermediateStatePK属性。

示例代码（使用AWS SDK for JavaScript v3的UpdateCommand）：

import { DynamoDBClient } from "@aws-sdk/client-dynamodb";
import { DynamoDBDocumentClient, UpdateCommand } from "@aws-sdk/lib-dynamodb";

const client = new DynamoDBClient({});
const docClient = DynamoDBDocumentClient.from(client);

async function updateAttachmentToIntermediate(attachmentId, newCustomerState) {
  const isIntermediate = (newCustomerState === 'Attaching' || newCustomerState === 'Detaching') ? 1 : 0;

  const params = {
    TableName: "Attachment",
    Key: {
      attachmentId: attachmentId
    },
    UpdateExpression: "SET #cs = :cs_val, #is = :is_val, #ispk = :ispk_val",
    ExpressionAttributeNames: {
      "#cs": "customerState",
      "#is": "isIntermediateState",
      "#ispk": "IntermediateStatePK" // GSI分区键属性
    },
    ExpressionAttributeValues: {
      ":cs_val": newCustomerState,
      ":is_val": isIntermediate,
      ":ispk_val": "INTERMEDIATE" // 显式设置GSI分区键
    },
    ReturnValues: "ALL_NEW"
  };

  try {
    const data = await docClient.send(new UpdateCommand(params));
    console.log("Attachment updated to intermediate state:", data.Attributes);
  } catch (error) {
    console.error("Error updating attachment:", error);
  }
}

// 示例调用
// updateAttachmentToIntermediate("attachment-123", "Attaching");

场景二：记录进入最终状态（需要从GSI中移除）

当customerState变为Attached或Detached，导致isIntermediateState变为0时，我们需要从主表项中移除IntermediateStatePK属性。

示例代码（使用AWS SDK for JavaScript v3的UpdateCommand）：

import { DynamoDBClient } from "@aws-sdk/client-dynamodb";
import { DynamoDBDocumentClient, UpdateCommand } from "@aws-sdk/lib-dynamodb";

const client = new DynamoDBClient({});
const docClient = DynamoDBDocumentClient.from(client);

async function updateAttachmentToFinal(attachmentId, newCustomerState) {
  const isIntermediate = (newCustomerState === 'Attaching' || newCustomerState === 'Detaching') ? 1 : 0; // 此时应为0

  const params = {
    TableName: "Attachment",
    Key: {
      attachmentId: attachmentId
    },
    UpdateExpression: "SET #cs = :cs_val, #is = :is_val REMOVE #ispk",
    ExpressionAttributeNames: {
      "#cs": "customerState",
      "#is": "isIntermediateState",
      "#ispk": "IntermediateStatePK" // GSI分区键属性
    },
    ExpressionAttributeValues: {
      ":cs_val": newCustomerState,
      ":is_val": isIntermediate,
    },
    ReturnValues: "ALL_NEW"
  };

  try {
    const data = await docClient.send(new UpdateCommand(params));
    console.log("Attachment updated to final state, removed from GSI:", data.Attributes);
  } catch (error) {
    console.error("Error updating attachment:", error);
  }
}

// 示例调用
// updateAttachmentToFinal("attachment-123", "Attached");

3. 查询稀疏GSI

一旦GSI被正确维护，你可以通过查询IntermediateAttachmentsIndex来获取所有处于中间状态的附件：

import { DynamoDBClient } from "@aws-sdk/client-dynamodb";
import { DynamoDBDocumentClient, QueryCommand } from "@aws-sdk/lib-dynamodb";

const client = new DynamoDBClient({});
const docClient = DynamoDBDocumentClient.from(client);

async function queryIntermediateAttachments() {
  const params = {
    TableName: "Attachment",
    IndexName: "IntermediateAttachmentsIndex", // GSI名称
    KeyConditionExpression: "#ispk = :ispk_val",
    ExpressionAttributeNames: {
      "#ispk": "IntermediateStatePK"
    },
    ExpressionAttributeValues: {
      ":ispk_val": "INTERMEDIATE"
    }
  };

  try {
    const data = await docClient.send(new QueryCommand(params));
    console.log("Intermediate attachments:", data.Items);
    return data.Items;
  } catch (error) {
    console.error("Error querying intermediate attachments:", error);
  }
}

// 示例调用
// queryIntermediateAttachments();

GSI的自动更新行为

关于GSI的更新机制，需要明确的是：DynamoDB GSI是完全托管且异步更新的。

持续更新： 当主表中的一个项目被修改时，DynamoDB会异步地将这些修改传播到所有相关的GSI。这包括了GSI分区键或排序键属性的添加、修改或移除。
决定是否索引： GSI是否包含某个项目，完全取决于该项目是否包含GSI定义中作为分区键和/或排序键的属性。这个判断是在每次主表更新时动态进行的。
- 如果主表项目更新后，新增了GSI分区键属性，则该项目会被添加到GSI中。
- 如果主表项目更新后，移除了GSI分区键属性，则该项目会从GSI中移除。
- 如果主表项目更新后，GSI分区键属性的值发生变化，则GSI中的对应项目会被更新。

因此，你不需要担心GSI只在最初添加记录时才决定是否索引。只要主表中的相关属性发生变化，GSI就会自动且持续地进行更新。

总结与注意事项

核心思想： 利用GSI分区键属性的存在性来控制记录是否被索引。
数据一致性： GSI是最终一致的。这意味着主表更新后，GSI可能需要几毫秒到几秒钟才能反映这些变化。在需要强一致性的场景中，需要额外考虑。
成本考量： 稀疏GSI可以有效减少GSI中的项目数量，从而降低GSI的存储成本和读写容量单位（RCU/WCU）消耗，因为你只为需要查询的子集支付费用。
设计辅助属性： 选择一个清晰、有意义的辅助属性名称作为GSI的分区键。其值通常可以是一个固定的字符串，只要它的存在与否能够表达索引意图即可。
应用程序逻辑： 确保应用程序在更新主表时，始终正确地管理这个辅助GSI分区键属性的添加或移除，以保证GSI的准确性。
避免过度索引： 仅为确实需要的查询模式创建GSI。过多的GSI会增加存储成本和主表写入时的开销。

通过这种稀疏GSI的策略，DynamoDB用户能够灵活地实现复杂的条件性索引需求，极大地优化特定查询模式的性能和效率。

HTMLUnit Java 登录重定向失败问题的完整解决方案

如何使用JavaScript动态修改JSP中按钮的value值以传递参数

在Java应用中执行MongoDB Shell查询与聚合：从文件到动态参数

WireMock代理API时HTML响应而非JSON的排查与解决

WireMock代理API时遭遇JavaScript禁用错误：原因与解决方案

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

553

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

477

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

394

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

990

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

551

2023.09.20