0

0

使用ExecutorService高效并行计算字符串相似度

聖光之護

聖光之護

发布时间:2025-09-18 13:27:01

|

539人浏览过

|

来源于php中文网

原创

使用ExecutorService高效并行计算字符串相似度

本文详细介绍了如何利用Java的ExecutorService和线程池机制,高效并行地计算列表中字符串的相似度。通过将每个字符串的相似度计算任务封装成独立的Runnable,并提交给线程池执行,避免了传统单线程或不当多线程同步导致的性能瓶颈,实现了任务的合理分解与并发处理,从而显著提升了处理效率。

在处理大量数据时,例如计算一个字符串列表内所有字符串两两之间的相似度,如果采用单线程顺序执行,效率会非常低下。而如果采用多线程,但任务分解不合理或同步机制使用不当,也可能无法达到预期的并行效果,甚至引入新的问题。本教程将指导您如何使用java的executorservice,以一种标准且高效的方式实现这一目标。

问题分析与传统方法局限

在原始场景中,用户尝试通过创建一个Runnable实例,并在其中使用synchronized (LOCK)来同步对整个列表的相似度计算过程。这种做法存在以下几个问题:

  1. 不合理的同步范围: synchronized (LOCK)锁住了整个run方法中的循环,导致同一时刻只有一个线程能够执行相似度计算,这完全失去了多线程并行的意义。
  2. 任务分解不当: 每个线程被设计为独立完成整个列表的相似度计算,这不仅重复工作,而且在同步的限制下,实际上是串行执行。
  3. 索引越界风险: newList.get(i)和i++的组合在循环中可能导致索引越界(i可能达到newList.size()),且逻辑上可能不是期望的两两比较。

正确的做法是将大任务分解成多个小任务,每个小任务独立完成一部分工作,然后由线程池来调度这些小任务的并行执行。

使用ExecutorService进行任务分解与并行计算

Java的java.util.concurrent.ExecutorService提供了一种高级的并发API,用于管理线程池和提交任务。通过它,我们可以将计算字符串相似度的任务分解为针对每个字符串的独立子任务,然后由线程池中的线程并行执行。

核心思想

  1. 创建线程池: 使用Executors.newFixedThreadPool(int nThreads)创建一个固定大小的线程池,限制同时运行的线程数量。
  2. 任务封装: 将每个字符串的相似度计算逻辑封装到一个Runnable实现中。这个Runnable负责计算一个特定字符串与列表中所有其他字符串的相似度。
  3. 提交任务: 遍历字符串列表,为每个字符串创建一个Runnable实例,并将其提交给ExecutorService。
  4. 关闭线程池: 在所有任务提交完毕后,调用pool.shutdown()优雅地关闭线程池,等待所有已提交任务完成。

示例代码与解析

以下是使用ExecutorService实现字符串相似度并行计算的示例代码:

佳蓝在线销售系统(创业版) 佳蓝在线销售
佳蓝在线销售系统(创业版) 佳蓝在线销售

1、对ASP内核代码进行DLL封装,从而大大提高了用户的访问速度和安全性;2、采用后台生成HTML网页的格式,使程序访问速度得到进一步的提升;3、用户可发展下级会员并在下级购买商品时获得差额利润;4、全新模板选择功能;5、后台增加磁盘绑定功能;6、后台增加库存查询功能;7、后台增加财务统计功能;8、后台面值类型批量设定;9、后台财务曲线报表显示;10、完善订单功能;11、对所有传输的字符串进行安全

下载
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

// 假设有一个Solution类提供findSimilarityRatio方法
class Solution {
    public double findSimilarityRatio(String s1, String s2) {
        // 模拟耗时的相似度计算
        try {
            Thread.sleep(10); // 模拟计算耗时
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
        }
        // 实际的相似度计算逻辑
        return (double) Math.min(s1.length(), s2.length()) / Math.max(s1.length(), s2.length());
    }
}

// 假设listExe提供获取字符串列表的方法
class ListExecutor {
    public List getStringList() {
        List list = new ArrayList<>();
        list.add("apple");
        list.add("apricot");
        list.add("banana");
        list.add("bandana");
        list.add("orange");
        list.add("grape");
        return list;
    }
}

public class MultiThreadSimilarityCalculator {

    // solution对象,假设它是线程安全的或我们会在需要时同步
    private static final Solution solution = new Solution();
    private static final ListExecutor listExe = new ListExecutor();

    public static void main(String[] args) {
        // 创建一个固定大小为10的线程池
        ExecutorService pool = Executors.newFixedThreadPool(10);
        List stringList = listExe.getStringList();

        // 遍历列表中的每个字符串,为每个字符串创建一个任务
        for (String str : stringList) {
            // 将任务提交给线程池
            pool.submit(new SimilarityRunnable(str, stringList));
        }

        // 所有任务提交完毕后,关闭线程池。
        // shutdown()方法会阻止新的任务提交,并等待所有已提交任务完成。
        pool.shutdown();
        System.out.println("所有任务已提交,线程池正在关闭...");
    }

    /**
     * SimilarityRunnable 类封装了计算一个字符串与列表中所有其他字符串相似度的任务。
     */
    private static class SimilarityRunnable implements Runnable {
        private final String str; // 当前要比较的字符串
        private final List stringList; // 整个字符串列表

        public SimilarityRunnable(String str, List stringList) {
            this.str = str;
            this.stringList = stringList;
        }

        @Override
        public void run() {
            for (String listStr : stringList) {
                // 避免自身与自身比较,这里使用 == 判断引用是否相同,
                // 如果字符串内容相同但引用不同,仍会比较。
                // 如果需要严格避免内容相同的字符串比较,需要使用 equals()。
                if (listStr == str) {
                    continue;
                }

                // 如果 solution 对象不是线程安全的,需要在这里进行同步。
                // 例如:synchronized (solution) { ... }
                System.out.println(Thread.currentThread().getName()
                    + ": 字符串 '" + str + "' 与 '" + listStr + "' 的相似度是 "
                    + solution.findSimilarityRatio(str, listStr));
            }
        }
    }
}

代码解析:

  1. main 方法:

    • ExecutorService pool = Executors.newFixedThreadPool(10);:创建了一个包含10个线程的线程池。这意味着最多可以有10个任务同时执行。
    • for (String str : stringList):迭代原始字符串列表。
    • pool.submit(new SimilarityRunnable(str, stringList));:对于列表中的每一个字符串str,都创建一个SimilarityRunnable实例,并将其提交给线程池。每个SimilarityRunnable实例都负责计算str与stringList中所有其他字符串的相似度。
    • pool.shutdown();:在所有任务都提交给线程池后,调用shutdown()方法。这会阻止新的任务被提交,并允许线程池中的线程完成所有已提交的任务,然后优雅地终止。
  2. SimilarityRunnable 类:

    • 它实现了Runnable接口,定义了任务的执行逻辑。
    • 构造函数接收一个str(当前要进行比较的字符串)和stringList(完整的字符串列表)。
    • run() 方法包含实际的业务逻辑:遍历stringList,计算str与listStr的相似度。
    • if (listStr == str):这是一个优化点,用于跳过字符串自身与自身的比较。需要注意的是,==比较的是对象的引用,如果列表中存在内容相同但引用不同的字符串,它们仍然会被比较。如果希望完全跳过内容相同的字符串,应使用listStr.equals(str)。
    • 线程安全考虑: solution.findSimilarityRatio(str, listStr)这行代码假设solution对象及其findSimilarityRatio方法是线程安全的(即,它不会修改共享状态,或者其内部已处理了并发)。如果solution对象不是线程安全的,那么在调用其方法时需要进行额外的同步,例如 synchronized (solution) { ... }。

注意事项与最佳实践

  1. 线程池大小: newFixedThreadPool(10)中的10是一个示例值。理想的线程池大小取决于您的任务性质(CPU密集型或I/O密集型)、系统可用核心数以及内存限制。对于CPU密集型任务,通常设置为CPU核心数加1或2。
  2. 共享资源同步: 确保所有线程访问的共享资源(如本例中的solution对象)是线程安全的。如果不是,必须采取适当的同步措施(如synchronized关键字、ReentrantLock等)。
  3. 任务粒度: 将任务分解为粒度适中的小任务非常重要。过大的任务会减少并行度,过小的任务则会增加线程调度的开销。本例中,为每个字符串创建一个任务是合理的粒度。
  4. 异常处理: 在Runnable的run()方法中,应该包含健壮的异常处理逻辑,以防止单个任务的失败影响整个应用程序。
  5. 线程池的关闭: 务必在应用程序生命周期结束时调用pool.shutdown()。如果需要等待所有任务完成,可以使用pool.awaitTermination()方法。例如:
    pool.shutdown();
    try {
        if (!pool.awaitTermination(60, TimeUnit.SECONDS)) { // 等待最多60秒
            pool.shutdownNow(); // 如果超时,强制关闭
        }
    } catch (InterruptedException ex) {
        pool.shutdownNow();
        Thread.currentThread().interrupt();
    }
  6. submit() vs execute(): ExecutorService提供了execute()和submit()方法。
    • execute(Runnable command):用于提交Runnable任务,不返回任何结果。
    • submit(Runnable task) 或 submit(Callable task):提交Runnable或Callable任务,返回一个Future对象,可以用来检查任务状态、获取任务结果或取消任务。在本例中,我们不需要获取任务的返回值,所以submit(Runnable)或execute(Runnable)都可以。

总结

通过本教程,我们学习了如何利用Java的ExecutorService和线程池机制,将字符串相似度计算任务分解为可并行执行的子任务。这种模式不仅能够有效利用多核处理器的性能,提高应用程序的响应速度和吞吐量,而且通过线程池的管理,避免了手动创建和销毁线程的开销,使并发编程更加简洁和高效。理解并正确应用这种任务分解和线程池管理模式,是进行高效并发编程的关键。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

831

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

737

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

733

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

397

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

398

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

430

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16925

2023.08.03

Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

10

2026.01.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 2.4万人学习

C# 教程
C# 教程

共94课时 | 6.5万人学习

Java 教程
Java 教程

共578课时 | 45.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号