JavaScript实现基于最长子域后缀的字符串分组

碧海醫心

发布时间：2025-08-27 20:15:01

255人浏览过

来源于php中文网

原创

javascript实现基于最长子域后缀的字符串分组

本教程详细阐述了如何使用JavaScript将一组字符串（如域名）根据其最长的共同后缀子串进行分组。通过一个分步算法，我们将字符串处理成一个字典，其中键是作为组标识的最长子域后缀，值是属于该组的原始字符串列表，从而实现精准的层次化数据组织。

引言与问题定义

在数据处理中，我们经常需要对字符串进行分类和组织。一个常见的需求是根据字符串的某个特定后缀来分组，并且这种分组应当遵循“最长匹配”原则。例如，给定一组域名，我们希望将它们按照最长的共同子域后缀进行归类。这意味着如果 hello.samsung.phone.com 和 lg.phone.com 都存在，并且 samsung.phone.com 和 phone.com 也是列表中的潜在分组键，那么 hello.samsung.phone.com 应该被分到 samsung.phone.com 组下，而 lg.phone.com 则分到 phone.com 组下。最终输出应是一个字典，其键是这些最长子域后缀，值是属于该后缀的原始字符串列表。

例如，对于输入 ["samsung.phone.com", "lg.phone.com", "phone.com", "camera.dsrl.nikon.com", "amd.gpu.com", "intel.cpu.com"]，我们期望的输出是：

{
  "phone.com": ["lg.phone.com", "samsung.phone.com"],
  "camera.dsrl.nikon.com": [],
  "amd.gpu.com": [],
  "intel.cpu.com": []
}

如果添加 "cpu.com"，则 intel.cpu.com 应被分组到 cpu.com 下：

{
  "phone.com": ["lg.phone.com", "samsung.phone.com"],
  "camera.dsrl.nikon.com": [],
  "amd.gpu.com": [],
  "cpu.com": ["intel.cpu.com"]
}

如果再添加 "hello.samsung.phone.com"，则 samsung.phone.com 自身成为一个分组键：

立即学习“Java免费学习笔记（深入）”；

{
  "samsung.phone.com": ["hello.samsung.phone.com"],
  "phone.com": ["lg.phone.com"],
  "camera.dsrl.nikon.com": [],
  "amd.gpu.com": [],
  "cpu.com": ["intel.cpu.com"]
}

算法设计与实现

为了解决这个问题，我们可以设计一个JavaScript函数，它通过多步处理来确保字符串被正确地分组到其最长匹配的子域后缀下。这里的“子域”被定义为从第一个点号（.）之后开始的字符串部分。

核心算法步骤

初始化字典： 将输入列表中的所有字符串作为字典的初始键，并为每个键分配一个空列表作为其值。这确保了即使某个字符串没有被其他字符串分组，它也能作为独立的键存在。

ShopXP网店系统源码
ShoppingNet信息技术有限公司开发的网域高科购物购物系统是基于WEB开发的大型购物系统。它以构建电子商务网站为目标，由前台购物、后台管理、在线支付、客户服务四大部分组成。各大部分完美结合，都有着最为完善和强大的功能，最大限度的满足客户在线购物和网站管理员管理的需求，满足各个级别用户购建电子商务平台的需要。满足您构建大型购物平台理想，实现您的成功目标！

下载
识别直接子域关系： 遍历所有字符串对。对于每一对，如果一个字符串是另一个字符串的直接子域（即通过 substring(indexOf('.') + 1) 提取的后缀），则将父字符串添加到子域键对应的值列表中。
收集所有被分组的字符串： 统计在第二步中被成功分组到某个键下的所有字符串。这些字符串是“域”，而不是最终的分组键。
移除空键（非分组键）： 遍历字典。如果一个键的值列表为空，并且它本身没有作为其他字符串的子域被识别（即它没有在 mergedDomainList 中出现，或者说它不是任何其他字符串的父级），则将其从字典中删除。这一步的目的是移除那些既没有被分组，也没有作为其他字符串的子域的条目。
精炼分组结果（实现“最长匹配”）： 这一步是实现“最长匹配”逻辑的关键。
- 首先，获取当前字典中所有剩余的键（这些键是潜在的最终分组键）。
- 然后，再次遍历字典的每个键值对。对于每个键的值列表，过滤掉那些自身也是字典中其他键的字符串。这样可以确保一个字符串只被其最长的、最具体的子域后缀所分组。例如，如果 samsung.phone.com 既可以被 phone.com 分组，也可以被 samsung.phone.com 自身（作为 hello.samsung.phone.com 的子域）分组，那么它将从 phone.com 的分组中移除，从而确保 hello.samsung.phone.com 能够通过 samsung.phone.com 获得更具体的归属。

JavaScript 实现代码

/**
 * 根据最长子域后缀对字符串列表进行分组。
 * 子域定义为从第一个点号之后开始的字符串部分。
 * @param {string[]} domList 包含域名或类似结构字符串的列表。
 * @returns {Object.} 一个字典，键为子域后缀，值为属于该后缀的字符串列表。
 */
function filterBySubdomain(domList) {
  const dict = {}; // 键: 子域后缀, 值: 对应域名的列表

  // 步骤 1: 初始化字典，所有输入字符串都作为潜在的键
  domList.forEach((el) => (dict[el] = []));

  // 步骤 2: 识别直接子域关系，将父字符串添加到子域键的值列表中
  for (let i = 0; i < domList.length; i++) {
    for (let j = 0; j < domList.length; j++) {
      if (i !== j) { // 避免自身与自身比较
        const currentString = domList[j];
        const firstDotIndex = currentString.indexOf(".");

        // 确保有至少一个点号且不是开头或结尾
        if (firstDotIndex > 0 && firstDotIndex < currentString.length - 1) {
          const subdomain = currentString.substring(firstDotIndex + 1);
          if (subdomain === domList[i]) {
            // domList[i] 是 domList[j] 的子域
            dict[domList[i]].push(domList[j]);
          }
        }
      }
    }
  }

  // 步骤 3: 收集所有被分组的字符串 (即在字典值中出现的字符串)
  let mergedDomainList = [];
  for (const [, domainList] of Object.entries(dict)) {
    mergedDomainList = [...mergedDomainList, ...domainList];
  }

  // 步骤 4: 删除那些作为键但其值列表为空，且未作为任何其他字符串子域的键
  // 注意：原始代码的这部分逻辑可能略有歧义，我们将其调整为：
  // 仅删除那些值列表为空，且其自身并非其他字符串子域的键。
  // 但根据问题描述，即使值列表为空，如果它在原始输入中，也可能需要保留作为键（如 "camera.dsrl.nikon.com" : []）。
  // 原始代码的意图是删除那些“被其他键替代”的空键。
  // 这里的实现将保留所有原始输入中作为键的字符串，除非它们被更长的子域所“吸收”。
  // 重新审视原始代码的意图：
  // `mergedDomainList.forEach((x) => { if (dict[x].length == 0) delete dict[x]; });`
  // 这一步实际上删除了那些在第一步被初始化为键，但在第二步中没有被任何其他字符串分组，
  // *并且* 它本身是某个更长字符串的子域的键。
  // 例如，如果 "samsung.phone.com" 在列表中，且 "phone.com" 也是键，
  // "samsung.phone.com" 的值列表在第二步结束后是空的。
  // 如果 "samsung.phone.com" 也是 `mergedDomainList` 的一部分 (因为它被 "hello.samsung.phone.com" 分组了)，
  // 那么它不会被删除。如果它没被分组，且它本身是某个子域，那么它会被删除。
  // 实际作用是：如果一个字符串 `X` 被 `Y` 分组（即 `X` 是 `Y` 的子域），
  // 且 `X` 在 `dict` 中作为键，但其值列表是空的，则删除 `X`。
  // 这一步是为了避免 `phone.com` 和 `samsung.phone.com` 都作为键，但 `samsung.phone.com` 的值列表是空的。
  // 让我们按照原始代码的精确逻辑来：
  const keysToDelete = [];
  for (const key of Object.keys(dict)) {
    if (dict[key].length === 0 && mergedDomainList.includes(key)) {
      keysToDelete.push(key);
    }
  }
  keysToDelete.forEach(key => delete dict[key]);


  // 步骤 5: 精炼分组结果，确保“最长匹配”原则
  const finalKeys = Object.keys(dict); // 当前字典中所有最终的键
  for (const [key, value] of Object.entries(dict)) {
    // 过滤掉值列表中那些本身也是最终键的字符串
    // 这样可以确保一个字符串只被其最长的、最具体的子域后缀所分组
    dict[key] = value.filter(function (el) {
      return !finalKeys.includes(el);
    });
  }

  return dict;
}

注意事项

性能： 该算法包含嵌套循环，其时间复杂度大致为 O(N^2)，其中 N 是输入字符串列表的长度。对于非常大的数据集，这可能不是最优解。
子域定义： 代码中子域的提取逻辑 substring(indexOf(".") + 1) 意味着它只考虑第一个点号之后的后缀。如果需要更灵活的后缀匹配（例如，匹配任意长度的共同后缀），则需要调整 subdomain 的提取逻辑，可能需要结合Trie树或后缀树等数据结构。
空字符串或无点号字符串： 对于不含点号的字符串（如 "com"）或空字符串，indexOf(".") 将返回 -1，substring 行为需要注意。当前代码通过 firstDotIndex > 0 && firstDotIndex

示例用法

下面是使用上述 filterBySubdomain 函数处理不同输入列表的示例：

// 示例 1: 初始数据集
const x1 = [
  "samsung.phone.com",
  "lg.phone.com",
  "phone.com",
  "camera.dsrl.nikon.com",
  "amd.gpu.com",
  "intel.cpu.com",
];
const result1 = filterBySubdomain(x1);
console.log("结果 1:", result1);

// 示例 2: 添加 "cpu.com"
const x2 = [
  "samsung.phone.com",
  "lg.phone.com",
  "phone.com",
  "camera.dsrl.nikon.com",
  "amd.gpu.com",
  "intel.cpu.com",
  "cpu.com", // 新增
];
const result2 = filterBySubdomain(x2);
console.log("\n结果 2:", result2);

// 示例 3: 添加 "hello.samsung.phone.com"
const x3 = [
  "samsung.phone.com",
  "lg.phone.com",
  "phone.com",
  "camera.dsrl.nikon.com",
  "amd.gpu.com",
  "intel.cpu.com",
  "cpu.com",
  "hello.samsung.phone.com", // 新增
];
const result3 = filterBySubdomain(x3);
console.log("\n结果 3:", result3);

预期输出

结果 1: {
  'phone.com': [ 'samsung.phone.com', 'lg.phone.com' ],
  'camera.dsrl.nikon.com': [],
  'amd.gpu.com': [],
  'intel.cpu.com': []
} 

结果 2: {
  'phone.com': [ 'samsung.phone.com', 'lg.phone.com' ],
  'camera.dsrl.nikon.com': [],
  'amd.gpu.com': [],
  'cpu.com': [ 'intel.cpu.com' ]
} 

结果 3: {
  'samsung.phone.com': [ 'hello.samsung.phone.com' ],
  'phone.com': [ 'lg.phone.com' ],
  'camera.dsrl.nikon.com': [],
  'amd.gpu.com': [],
  'cpu.com': [ 'intel.cpu.com' ]
}

总结

本教程提供了一个实用的JavaScript解决方案，用于根据最长子域后缀对字符串进行分组。通过分步的字典初始化、子域关系识别和精炼过滤，该方法能够准确地实现所需的层次化分组逻辑。虽然其性能在处理海量数据时可能存在局限，但对于中小型数据集，它提供了一个清晰且可维护的实现方案。在实际应用中，开发者应根据具体的数据规模和性能要求，权衡是否需要采用更复杂但效率更高的算法。

如何用JavaScript实现深拷贝_有哪些常用技巧

javascript怎样处理错误_它有哪些错误类型？

javascript中cookie如何操作_localStorage和sessionStorage怎么用？

javascript如何改变网页交互_你了解这些核心概念吗

javascript事件处理机制是什么_如何绑定与移除事件监听器？

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

553

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

477

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

394

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

990

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

551

2023.09.20