调整 Elasticsearch 查询结果数量限制：最佳实践与替代方案-java教程-PHP中文网

调整 Elasticsearch 查询结果数量限制：最佳实践与替代方案

聖光之護

发布： 2025-10-17 10:39:19

原创

733人浏览过

调整 elasticsearch 查询结果数量限制：最佳实践与替代方案

本文旨在探讨在 Java Spring Boot 应用中调整 Elasticsearch 查询结果数量限制的最佳实践。直接修改 `index.max_result_window` 可能会影响性能，因此，本文将重点介绍使用 `Search After` 进行分页查询，以及启用 `track_total_hits` 来获取准确的总命中数，从而避免潜在的性能问题，并提供代码示例和注意事项。

在 Elasticsearch 中，默认情况下，单个查询返回的结果数量限制为 10000。虽然可以通过修改 index.max_result_window 参数来提高这个限制，但这可能会对性能产生负面影响，尤其是在处理大型索引时。本文将介绍更安全、更高效的方法来处理需要返回大量结果的场景。

避免直接修改 index.max_result_window

Elasticsearch 官方文档强烈建议不要随意增加 index.max_result_window 的值。增加此值会增加 Elasticsearch 需要维护的内存资源，可能导致性能下降甚至集群不稳定。

使用 Search After 进行分页

Search After 是一种高效的分页方式，它避免了使用 from 和 size 进行深度分页时可能遇到的性能问题。 Search After 基于前一页的结果进行排序，并使用排序值作为下一页查询的起始点。

以下是一个使用 Java High Level REST Client 实现 Search After 的示例：

import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.sort.FieldSortBuilder;
import org.elasticsearch.search.sort.SortOrder;
import org.elasticsearch.search.builder.SearchSourceBuilder;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

public class SearchAfterExample {

    public static void main(String[] args) throws IOException {
        // 假设已经初始化了 RestHighLevelClient elsRestClient
        RestHighLevelClient elsRestClient = new RestHighLevelClient(
                // Replace with your Elasticsearch client configuration
        );

        String indexName = "your_index_name";
        int pageSize = 100; // 每页返回的结果数量
        Object[] searchAfter = null; // 第一次查询时为 null

        List<SearchHit> allHits = new ArrayList<>();

        while (true) {
            SearchRequest searchRequest = new SearchRequest(indexName);
            SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
            searchSourceBuilder.query(QueryBuilders.matchAllQuery()); // 替换为你的查询条件
            searchSourceBuilder.size(pageSize);
            searchSourceBuilder.sort(new FieldSortBuilder("_id").order(SortOrder.ASC)); // 使用 _id 进行排序，确保结果的唯一性

            if (searchAfter != null) {
                searchSourceBuilder.searchAfter(searchAfter);
            }

            searchRequest.source(searchSourceBuilder);

            SearchResponse searchResponse = elsRestClient.search(searchRequest, RequestOptions.DEFAULT);

            SearchHit[] hits = searchResponse.getHits().getHits();
            if (hits.length == 0) {
                break; // 没有更多结果
            }

            allHits.addAll(Arrays.asList(hits));

            // 获取最后一个结果的排序值，作为下一次查询的 search_after
            searchAfter = hits[hits.length - 1].getSortValues();
        }

        System.out.println("Total hits: " + allHits.size());
        // 处理 allHits 中的结果
        elsRestClient.close();
    }
}

登录后复制

代码解释:

初始化客户端: RestHighLevelClient 用于与 Elasticsearch 集群进行通信。
构建 SearchRequest: 指定要查询的索引名称，并使用 SearchSourceBuilder 构建查询条件。
设置排序: 使用 _id 字段进行排序，确保结果的唯一性和一致性。也可以使用其他合适的字段进行排序。
设置 search_after: 在后续查询中，将前一页最后一个结果的排序值设置为 search_after，从而实现分页。
循环查询: 循环执行查询，直到没有更多结果为止。
收集结果: 将每次查询的结果添加到 allHits 列表中。

注意事项:

Seed-TTS

Seed-TTS 是一个高质量多功能的文本到语音生成模型

909

查看详情

必须选择一个具有唯一值的字段进行排序，例如 _id 或其他具有唯一约束的字段。
第一次查询时，searchAfter 必须为 null。
Search After 不适用于实时性要求高的场景，因为它不能反映数据变化。

启用 track_total_hits

默认情况下，Elasticsearch 返回的总命中数可能是不准确的，尤其是在命中数超过 10000 时。为了获取准确的总命中数，可以启用 track_total_hits 参数。

以下是一个启用 track_total_hits 的示例：

import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.elasticsearch.search.SearchHits;

import java.io.IOException;

public class TrackTotalHitsExample {

    public static void main(String[] args) throws IOException {
        // 假设已经初始化了 RestHighLevelClient elsRestClient
        RestHighLevelClient elsRestClient = new RestHighLevelClient(
                // Replace with your Elasticsearch client configuration
        );

        String indexName = "your_index_name";

        SearchRequest searchRequest = new SearchRequest(indexName);
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        searchSourceBuilder.query(QueryBuilders.matchAllQuery()); // 替换为你的查询条件
        searchSourceBuilder.trackTotalHits(true); // 启用 track_total_hits
        searchRequest.source(searchSourceBuilder);

        SearchResponse searchResponse = elsRestClient.search(searchRequest, RequestOptions.DEFAULT);

        SearchHits hits = searchResponse.getHits();
        long totalHits = hits.getTotalHits().value;

        System.out.println("Total hits: " + totalHits);

        elsRestClient.close();
    }
}

登录后复制

代码解释:

启用 trackTotalHits: 通过 searchSourceBuilder.trackTotalHits(true) 启用 track_total_hits 参数。
获取总命中数: 从 SearchHits 对象中获取准确的总命中数。

注意事项:

启用 track_total_hits 可能会增加查询的开销，尤其是在处理大型索引时。可以根据实际情况选择是否启用。
Elasticsearch 7.0 及更高版本支持更精确的总命中数跟踪。

总结

在 Java Spring Boot 应用中调整 Elasticsearch 查询结果数量限制时，应优先考虑使用 Search After 进行分页，并根据需要启用 track_total_hits。避免直接修改 index.max_result_window，以防止潜在的性能问题。通过合理使用这些技术，可以有效地处理需要返回大量结果的场景，并确保 Elasticsearch 集群的稳定性和性能。

以上就是调整 Elasticsearch 查询结果数量限制：最佳实践与替代方案的详细内容，更多请关注php中文网其它相关文章！