0

0

基于URL的搜索词短语聚类:高效内存实现方案

心靈之曲

心靈之曲

发布时间:2026-01-25 21:36:21

|

363人浏览过

|

来源于php中文网

原创

基于URL的搜索词短语聚类:高效内存实现方案

本文介绍如何对具有共同url的搜索词短语进行低内存开销的聚类,避免递归和全量数组加载,通过php生成器(yield)与流式交集计算实现可扩展的分组逻辑。

在搜索日志分析或SEO语义分组场景中,常需将共享多个目标URL的查询短语归为同一语义簇(例如“wardrobe in the bedroom”“white wardrobe in the bedroom”因共现于同一组落地页而属于同一主题)。原始实现采用递归+全量数组拷贝+array_intersect_key,导致内存随数据规模呈平方级增长——尤其当$words含数千项、每项URL列表达数百时,极易触发OOM。

核心优化思路:放弃“一次性加载+递归分割”,转向“流式遍历+增量分组”。具体包括:

  1. 用生成器替代递归调用:避免每次递归复制整个 $words 数组;
  2. 自定义轻量交集迭代器:不构建完整交集数组,仅计数满足阈值的公共URL数量;
  3. 按需分组,原地索引管理:使用 id 作为键组织结果,避免嵌套数组深度拷贝。

以下是重构后的内存友好型实现:

function countCommonUrls(array $urlsA, array $urlsB, int $threshold = 3): bool {
    $count = 0;
    // 使用键查找加速(假设URL为字符串且唯一)
    $setB = array_flip($urlsB); // O(n) 构建哈希映射,后续O(1)查重
    foreach ($urlsA as $url) {
        if (isset($setB[$url])) {
            $count++;
            if ($count >= $threshold) {
                return true;
            }
        }
    }
    return false;
}

function clusterByUrls(array $words, int $minCommonUrls = 3): array {
    $groups = [];
    $processed = []; // 记录已分配ID,避免重复处理

    for ($i = 0; $i < count($words); $i++) {
        if (isset($processed[$words[$i]['id']])) {
            continue;
        }

        $current = $words[$i];
        $groupId = $current['id'];
        $groups[$groupId] = [$current['word']];

        // 向后扫描,避免重复比较(i < j)
        for ($j = $i + 1; $j < count($words); $j++) {
            $candidate = $words[$j];
            if (isset($processed[$candidate['id']])) {
                continue;
            }

            if (countCommonUrls($current['urls'], $candidate['urls'], $minCommonUrls)) {
                $groups[$groupId][] = $candidate['word'];
                $processed[$candidate['id']] = true;
            }
        }

        $processed[$current['id']] = true;
    }

    return $groups;
}

关键优势

琅琅配音
琅琅配音

全能AI配音神器

下载
  • 时间复杂度从 O(n²×m)(m为平均URL数)优化为 O(n² + n×m),空间复杂度稳定为 O(n + m);
  • 无递归调用,无中间数组拷贝;
  • array_flip 构建URL哈希表一次,复用所有后续比对;
  • 支持动态调整 minCommonUrls 阈值(如设为2可扩大召回,设为5可提升精确率)。

⚠️ 注意事项

  • 若数据量超10万级,建议结合数据库(如MySQL 8.0+ JSON_CONTAINS 或 PostgreSQL && 数组交集)或图数据库(Neo4j建 URL↔Query 二分图,用连通分量算法);
  • 生产环境应增加输入校验(如检查 urls 是否为非空数组、id 唯一性);
  • 可进一步封装为迭代器(yield 返回每个group),实现真正流式输出,彻底消除结果数组内存占用

该方案兼顾可读性与工程鲁棒性,是中小规模语义聚类任务的高性价比落地选择。

相关专题

更多
php文件怎么打开
php文件怎么打开

打开php文件步骤:1、选择文本编辑器;2、在选择的文本编辑器中,创建一个新的文件,并将其保存为.php文件;3、在创建的PHP文件中,编写PHP代码;4、要在本地计算机上运行PHP文件,需要设置一个服务器环境;5、安装服务器环境后,需要将PHP文件放入服务器目录中;6、一旦将PHP文件放入服务器目录中,就可以通过浏览器来运行它。

2882

2023.09.01

php怎么取出数组的前几个元素
php怎么取出数组的前几个元素

取出php数组的前几个元素的方法有使用array_slice()函数、使用array_splice()函数、使用循环遍历、使用array_slice()函数和array_values()函数等。本专题为大家提供php数组相关的文章、下载、课程内容,供大家免费下载体验。

1708

2023.10.11

php反序列化失败怎么办
php反序列化失败怎么办

php反序列化失败的解决办法检查序列化数据。检查类定义、检查错误日志、更新PHP版本和应用安全措施等。本专题为大家提供php反序列化相关的文章、下载、课程内容,供大家免费下载体验。

1561

2023.10.11

php怎么连接mssql数据库
php怎么连接mssql数据库

连接方法:1、通过mssql_系列函数;2、通过sqlsrv_系列函数;3、通过odbc方式连接;4、通过PDO方式;5、通过COM方式连接。想了解php怎么连接mssql数据库的详细内容,可以访问下面的文章。

1078

2023.10.23

php连接mssql数据库的方法
php连接mssql数据库的方法

php连接mssql数据库的方法有使用PHP的MSSQL扩展、使用PDO等。想了解更多php连接mssql数据库相关内容,可以阅读本专题下面的文章。

1525

2023.10.23

html怎么上传
html怎么上传

html通过使用HTML表单、JavaScript和PHP上传。更多关于html的问题详细请看本专题下面的文章。php中文网欢迎大家前来学习。

1277

2023.11.03

PHP出现乱码怎么解决
PHP出现乱码怎么解决

PHP出现乱码可以通过修改PHP文件头部的字符编码设置、检查PHP文件的编码格式、检查数据库连接设置和检查HTML页面的字符编码设置来解决。更多关于php乱码的问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1649

2023.11.09

php文件怎么在手机上打开
php文件怎么在手机上打开

php文件在手机上打开需要在手机上搭建一个能够运行php的服务器环境,并将php文件上传到服务器上。再在手机上的浏览器中输入服务器的IP地址或域名,加上php文件的路径,即可打开php文件并查看其内容。更多关于php相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1309

2023.11.13

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

52

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 810人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号