使用Java进行WAV音频处理：剪辑、音量修改与文件合并

心靈之曲

发布时间：2025-11-15 16:11:16

996人浏览过

来源于php中文网

原创

使用Java进行WAV音频处理：剪辑、音量修改与文件合并

本教程详细介绍了如何使用java对wav音频文件进行剪辑、音量调整和合并操作。通过示例代码，您将学习如何读取音频数据、截取特定片段、修改片段的振幅（音量），以及将多个音频文件无缝合并成一个新文件，从而实现基础的音频编辑功能。

在数字音频处理中，WAV文件因其无损特性而广泛应用于各种场景。本教程将指导您如何利用Java语言实现对WAV音频文件的基本编辑功能，包括将一个音频文件剪辑成多个片段、独立调整其中某个片段的音量，并最终将这些片段重新合并为一个完整的音频文件。我们将结合使用StdAudio库进行简化的音频数据读写，以及Java标准库javax.sound.sampled进行更复杂的音频流操作。

1. 环境准备与音频数据模型

在开始之前，我们需要了解音频数据的基本表示。WAV文件通常包含一系列数字样本，每个样本代表某一时刻的声波振幅。在Java中，我们可以将这些样本读取到一个double数组中，其中数组的每个元素对应一个音频样本的振幅值。

本教程的示例代码将依赖于以下两个方面：

StdAudio 库： 这是一个简化音频I/O操作的第三方库，常用于教学目的，提供了方便的read()和save()方法来将WAV文件转换为double[]数组并保存。如果您没有此库，需要自行下载并添加到项目中，或者使用javax.sound.sampled API实现类似的读写功能。
javax.sound.sampled API： Java标准库中用于处理音频的API，我们将主要用它来执行复杂的音频流合并操作。

假设 StdAudio 库已配置并可用，且默认采样率为 44100 Hz。

立即学习“Java免费学习笔记（深入）”；

2. WAV 文件读取与片段截取

要对WAV文件进行剪辑，首先需要将其内容读取到内存中，然后根据时间戳（或样本索引）截取所需的片段。

假设我们有一个名为 music.wav 的音频文件，其中包含“Hi there”的声音，我们希望将其分割成“Hi”和“there”两部分。

import java.io.File;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import javax.sound.sampled.*;
import java.io.IOException;
import java.io.SequenceInputStream;

// 假设 StdAudio 类已导入或在同一包中
// import edu.princeton.cs.algs4.StdAudio; // 如果您使用的是Princeton的StdAudio

public class AudioEditor {

    // 假设 StdAudio.read() 和 StdAudio.save() 方法可用
    // 实际项目中可能需要自己实现或使用其他库来读写 double[] 数组

    /**
     * 模拟 StdAudio.read() 方法，实际项目中需替换为真实实现
     * 将 WAV 文件读取为 double 数组。
     * @param filename WAV 文件路径
     * @return 包含音频样本的 double 数组
     */
    public static double[] read(String filename) {
        // 实际实现会使用 javax.sound.sampled.AudioSystem 来读取
        // 这里仅为示例，假设它能工作
        System.out.println("Reading " + filename + "...");
        // 模拟读取一个包含多个样本的数组
        // 实际应用中，这里会解析WAV文件，将字节数据转换为double样本
        // 假设音乐长度为10秒，采样率为44100，立体声则样本数为 10 * 44100 * 2
        // 这里简化为模拟数据
        int totalSamples = 44100 * 10 * 2; // 10秒，立体声
        double[] samples = new double[totalSamples];
        for (int i = 0; i < totalSamples; i++) {
            samples[i] = Math.sin(i / 100.0) * 0.5; // 模拟波形
        }
        return samples;
    }

    /**
     * 模拟 StdAudio.save() 方法，实际项目中需替换为真实实现
     * 将 double 数组保存为 WAV 文件。
     * @param filename 要保存的文件路径
     * @param samples 包含音频样本的 double 数组
     */
    public static void save(String filename, double[] samples) {
        System.out.println("Saving " + filename + " with " + samples.length + " samples.");
        // 实际实现会使用 javax.sound.sampled.AudioSystem 来写入
        // 这里仅为示例，假设它能工作
        // 伪代码：
        // AudioFormat format = new AudioFormat(44100.0f, 16, 2, true, false);
        // byte[] audioBytes = convertDoubleToByteArray(samples, format);
        // AudioInputStream ais = new AudioInputStream(new ByteArrayInputStream(audioBytes), format, audioBytes.length / format.getFrameSize());
        // AudioSystem.write(ais, AudioFileFormat.Type.WAVE, new File(filename));
    }


    public static void main(String[] args) throws Exception {
        // 假设 music.wav 是原始文件
        double[] music = read("music.wav");

        // 假设 "Hi" 部分的结束样本索引和 "there" 部分的开始样本索引
        // 这些索引需要通过音频分析工具（如Audacity）精确获取
        // 这里我们使用示例值，假设原始音乐有足够长度
        int hiEndSample = 792478 * 2; // 假设 "Hi" 结束的样本点 (立体声需要乘以2)
        int thereEndSample = 1118153 * 2; // 假设 "there" 结束的样本点

        // 1. 截取 "Hi" 部分
        double[] hiSegment = new double[hiEndSample];
        for (int i = 0; i < hiEndSample; i++) {
            hiSegment[i] = music[i];
        }
        save("hi.wav", hiSegment); // 保存 "Hi" 部分到 hi.wav

        // 2. 截取 "there" 部分
        double[] thereSegment = new double double[thereEndSample - hiEndSample];
        for (int i = hiEndSample; i < thereEndSample; i++) {
            thereSegment[i - hiEndSample] = music[i];
        }
        // 此时 thereSegment 包含原始 "there" 的音频数据
        // 我们将对其进行音量修改，所以暂时不保存原始 there.wav
        // save("there_original.wav", thereSegment); // 如果需要保存原始there部分
    }
}

注意： hiEndSample 和 thereEndSample 的值需要根据实际音频文件的采样率和时间点进行精确计算。例如，如果音频是立体声（2声道），则每个时间点的样本数是2。如果采样率是44100 Hz，那么1秒的音频就有44100个样本（单声道）或88200个样本（立体声）。

ProfilePicture.AI

在线创建自定义头像的工具

下载

3. 音频片段振幅（音量）调整

调整音频片段的音量实际上就是修改其样本的振幅。通过将double[]数组中的每个样本值乘以一个乘数，可以实现音量的增减。

乘数大于1：音量增大
乘数小于1（大于0）：音量减小
乘数等于1：音量不变

我们将对上一步截取到的 thereSegment 进行音量调整。

// 承接上文 main 方法中的代码...

        // 3. 调整 "there" 部分的音量/振幅
        double volumeMultiplier = 0.5; // 将音量减半
        for (int i = 0; i < thereSegment.length; i++) {
            thereSegment[i] = volumeMultiplier * thereSegment[i];
        }
        save("there_modified.wav", thereSegment); // 保存修改音量后的 "there" 部分

注意事项：

音量过大可能导致削波（Clipping）： 当样本值超过其数据类型所能表示的最大范围时，就会发生削波，表现为音频失真。在double数组中，通常样本值在-1.0到1.0之间。如果乘数过大导致样本值超出此范围，在保存为WAV文件时可能会被截断。
乘数应为double类型： 确保乘数是浮点数，以避免整数除法或乘法带来的精度损失。

4. 合并WAV音频文件

最后一步是将修改后的“there”片段与“Hi”片段合并成一个新的WAV文件。这需要使用javax.sound.sampled库中的AudioInputStream和SequenceInputStream。

SequenceInputStream可以将多个InputStream串联起来，形成一个连续的输入流。对于音频文件，这意味着我们可以将多个AudioInputStream连接起来，然后将这个合并后的流写入一个新的WAV文件。

// 承接上文 main 方法中的代码...

        // 4. 合并 "hi.wav" 和 "there_modified.wav"
        ArrayList joinedAudioFiles = new ArrayList<>();
        joinedAudioFiles.add(new File("hi.wav"));
        joinedAudioFiles.add(new File("there_modified.wav"));

        // 定义音频格式，确保所有待合并文件格式一致
        float sampleRate = 44100.0f; // 采样率
        AudioFormat format = new AudioFormat(
            AudioFormat.Encoding.PCM_SIGNED, // 编码方式，PCM有符号
            sampleRate,                       // 采样率
            16,                               // 每样本位数 (16位是常见CD音质)
            2,                                // 声道数 (2为立体声)
            4,                                // 帧大小 (字节), 2声道 * 16位/8 = 4字节
            sampleRate,                       // 帧率 (通常等于采样率)
            false                             // 是否大端序 (false为小端序，Windows/Intel常用)
        );

        File outputMergedFile = new File("hi_there_edited.wav");
        joinAudioFiles(format, joinedAudioFiles, outputMergedFile);

        System.out.println("Audio editing complete. Merged file saved to " + outputMergedFile.getAbsolutePath());
    }

    /**
     * 将多个音频文件合并为一个 WAV 文件。
     *
     * @param audioFormat 合并后文件的音频格式。所有输入文件应与此格式兼容。
     * @param audioFiles 待合并的音频文件列表。
     * @param output 合并后输出的 WAV 文件。
     * @throws IOException 如果发生 I/O 错误。
     * @throws UnsupportedAudioFileException 如果输入文件不是支持的音频文件类型。
     */
    public static void joinAudioFiles(AudioFormat audioFormat,
                                      java.util.List audioFiles, File output)
            throws IOException, UnsupportedAudioFileException {
        // 确保输出目录存在
        if (output.getParentFile() != null) {
            output.getParentFile().mkdirs();
        }
        output.delete(); // 如果文件已存在，则删除
        output.createNewFile(); // 创建新文件

        List audioInputStreams = new ArrayList<>();
        long totalFrameLength = 0;

        // 遍历所有输入文件，创建 AudioInputStream 并计算总帧长
        for (File audioFile : audioFiles) {
            AudioInputStream fileAudioInputStream = AudioSystem.getAudioInputStream(audioFile);
            // 确保输入流的格式与目标格式兼容
            if (!fileAudioInputStream.getFormat().matches(audioFormat)) {
                // 如果格式不完全匹配，尝试转换
                fileAudioInputStream = AudioSystem.getAudioInputStream(audioFormat, fileAudioInputStream);
            }
            audioInputStreams.add(fileAudioInputStream);
            totalFrameLength += fileAudioInputStream.getFrameLength();
        }

        // 使用 SequenceInputStream 将所有 AudioInputStream 串联起来
        AudioInputStream sequenceInputStream = new AudioInputStream(
                new SequenceInputStream(Collections.enumeration(audioInputStreams)),
                audioFormat,
                totalFrameLength
        );

        // 将合并后的流写入新的 WAV 文件
        AudioSystem.write(sequenceInputStream, AudioFileFormat.Type.WAVE, output);

        // 关闭所有输入流
        for (AudioInputStream ais : audioInputStreams) {
            ais.close();
        }
        sequenceInputStream.close();
    }
}

AudioFormat 参数说明：

AudioFormat.Encoding.PCM_SIGNED：表示有符号的脉冲编码调制（PCM）数据，这是最常见的无损音频编码。
sampleRate：每秒采样的次数，例如 44100 Hz (CD音质)。
sampleSizeInBits：每个样本的位数，例如 16 位 (CD音质)。
channels：声道数，1为单声道，2为立体声。
frameSize：每帧的字节数。计算方式为 (sampleSizeInBits / 8) * channels。例如，16位立体声的帧大小为 (16/8) * 2 = 4 字节。
frameRate：每秒的帧数，通常等于采样率。
bigEndian：指示数据是否为大端序。false表示小端序，这是Windows和Intel系统常用的格式。