Deno中高效生成大型CSV文件的流式处理教程

花韻仙語

发布时间：2025-11-17 13:44:29

656人浏览过

来源于php中文网

原创

Deno中高效生成大型CSV文件的流式处理教程

本文旨在解决deno环境中生成百万级csv文件时遇到的性能瓶颈。通过深入探讨传统的迭代写入方式的局限性，我们推荐并详细演示了如何利用deno标准库（`deno.land/std`）提供的`csvstringifystream`和`readablestreamfromiterable`进行流式处理。这种方法能够显著提升写入速度，优化内存使用，从而高效、稳定地生成大规模csv数据文件。

在Deno开发中，当需要生成包含百万行甚至更多数据的大型CSV文件时，直接通过循环迭代并逐行写入的方式往往会遇到严重的性能问题。这种传统方法可能导致频繁的文件I/O操作和不必要的内存占用，使得整个写入过程耗时过长。为了克服这一挑战，Deno提供了一套强大的流（Streams）API，结合其标准库中的CSV处理工具，能够实现高效、内存友好的数据写入。

传统写入方式的局限性

在处理大量数据时，如果采用如下所示的基于asyncIterator逐个yield数据对象，然后通过第三方库进行序列化的方式，虽然代码逻辑清晰，但性能表现不佳。

// 模拟生成大量数据
const data: { plz: string; strasse: string }[] = [];
for (let i = 0; i < 1000000; i++) {
  data.push({ plz: '12345', strasse: 'Teststrasse-' + i });
}

// 异步迭代器，逐个生成数据
async function* asyncIterator(data: any[]): AsyncGenerator {
  for (const entry of data) {
    yield entry;
  }
}

// 使用第三方库写入CSV（示例，可能性能不佳）
async function writeCSV(data: any[]): Promise {
  // 假设这里使用了某个社区库的writeCSVObjects方法
  // const file = await Deno.open('./test.csv', { write: true, create: true });
  // await writeCSVObjects(file, asyncIterator(data), { header: ['plz', 'strasse'] });
  // file.close();
  console.log("此为传统方式示意，不推荐用于大规模数据");
}

// writeCSV(data);

这种方法的问题在于，频繁的yield操作和可能存在的同步或非优化的写入逻辑，会使得整个过程效率低下。尤其当数据量达到百万级别时，性能瓶颈会非常明显。此外，值得注意的是，社区模块（如deno.land/x下的一些库）在某些性能敏感的场景下，可能不如Deno标准库（deno.land/std）提供的工具经过高度优化。

利用Deno标准库实现高效流式写入

Deno的标准库提供了高度优化的CSV处理工具，特别是CsvStringifyStream，它能够将JavaScript对象流转换为CSV字符串流。结合Deno的流API，我们可以构建一个高效的数据管道，实现对大型CSV文件的流式写入。

奥硕企业网站管理系统1.9 Sql版

临沂奥硕软件有限公司拥有国内一流的企业网站管理系统，奥硕企业网站管理系统真正会打字就会建站的管理系统，其强大的扩展性可以满足企业网站实现各种功能。奥硕企业网站管理系统具有一下特色功能1、双语双模（中英文采用单独模板设计，可制作中英文不同样式的网站）2、在线编辑JS动态菜单支持下拉效果，同时生成中文，英文，静态3个JS菜单3、在线制作并调用FLASH展示动画4、自动生成缩略图，可以自由设置宽高5、图

下载

核心思想是：

数据源流化：将待写入的数据转换为一个可读流（ReadableStream）。
CSV序列化：通过CsvStringifyStream将对象流转换为CSV格式的字符串流。
编码：将CSV字符串流转换为字节流，因为文件写入操作通常处理的是字节。
文件写入：将字节流直接管道传输到文件的可写流（WritableStream）。

关键组件

readableStreamFromIterable: 位于https://deno.land/std/streams/readable_stream_from_iterable.ts，用于将任何可迭代对象（如数组）转换为一个可读流。
CsvStringifyStream: 位于https://deno.land/std/csv/csv_stringify_stream.ts，这是一个TransformStream，它接收JavaScript对象作为输入，并输出CSV格式的字符串。
TextEncoderStream: 内置的Web API，将文本字符串流编码为UTF-8字节流。
Deno.open: 用于打开或创建文件，并返回一个文件句柄，该句柄包含readable和writable属性，分别对应文件的可读流和可写流。

示例代码：高效生成大型CSV文件

以下是一个完整的示例，演示如何使用Deno标准库的流API高效生成一个包含百万行数据的CSV文件：

import { CsvStringifyStream } from "https://deno.land/std@0.219.0/csv/csv_stringify_stream.ts";
import { readableStreamFromIterable } from "https://deno.land/std@0.219.0/streams/readable_stream_from_iterable.ts";

/**
 * 模拟生成大量数据
 * @param count 生成的数据行数
 * @returns 一个包含指定行数的数组
 */
function generateLargeData(count: number): { id: number; name: string; description: string }[] {
  const data: { id: number; name: string; description: string }[] = [];
  for (let i = 0; i < count; i++) {
    data.push({ id: i + 1, name: `Item ${i + 1}`, description: `Description for item ${i + 1}` });
  }
  return data;
}

/**
 * 高效写入CSV文件
 * @param filename 要写入的文件名
 * @param data 要写入的数据数组
 * @param columns CSV文件的列名数组
 */
async function writeLargeCsvEfficiently(
  filename: string,
  data: { [key: string]: any }[],
  columns: string[],
): Promise {
  console.log(`开始写入 ${filename}，数据量：${data.length} 行...`);
  const startTime = performance.now();

  // 1. 打开文件，获取其可写流
  const file = await Deno.open(filename, { create: true, write: true, truncate: true });

  // 2. 将数据数组转换为可读流
  const readable = readableStreamFromIterable(data);

  // 3. 构建数据处理管道
  await readable
    // 管道传输到 CsvStringifyStream，将对象转换为CSV字符串
    .pipeThrough(new CsvStringifyStream({ columns: columns }))
    // 管道传输到 TextEncoderStream，将CSV字符串编码为字节流（UTF-8）
    .pipeThrough(new TextEncoderStream())
    // 管道传输到文件的可写流，完成写入
    .pipeTo(file.writable);

  // 文件写入完成后，Deno会自动关闭文件句柄，但显式关闭也是一个好习惯
  // file.close(); // pipeTo会自动关闭，此处可省略

  const endTime = performance.now();
  console.log(`CSV文件 ${filename} 写入完成，耗时：${((endTime - startTime) / 1000).toFixed(2)} 秒`);
}

// 调用示例
const numberOfRecords = 1_000_000; // 一百万行数据
const largeDataset = generateLargeData(numberOfRecords);
const csvColumns = ["id", "name", "description"];

await writeLargeCsvEfficiently("output_data.csv", largeDataset, csvColumns);

// 尝试写入一个更小的文件以验证
// await writeLargeCsvEfficiently("small_output.csv", generateLargeData(100), csvColumns);

代码解析

generateLargeData(count: number): 这是一个辅助函数，用于模拟生成指定行数的数据。在实际应用中，这部分数据可能来自数据库查询、API调用或其他文件读取。
Deno.open(filename, { create: true, write: true, truncate: true }): 以写入模式打开或创建文件。truncate: true确保如果文件已存在，其内容会被清空。file对象包含一个writable属性，它是一个WritableStream，可以接收字节数据。
readableStreamFromIterable(data): 将我们生成的largeDataset数组转换为一个ReadableStream。这个流会逐个推送数组中的数据对象。
.pipeThrough(new CsvStringifyStream({ columns: columns })): 这是管道的第一步。CsvStringifyStream接收一个配置对象，其中columns属性至关重要，它定义了CSV文件的列顺序和标题。流经此处的JavaScript对象会被转换为CSV格式的字符串。
.pipeThrough(new TextEncoderStream()): CSV字符串需要被编码成字节才能写入文件。TextEncoderStream是一个标准的Web API，它将文本字符串流转换为UTF-8编码的字节流。
.pipeTo(file.writable): 这是管道的最后一步。它将最终的字节流直接导向到文件的可写流。当所有数据都成功写入文件后，pipeTo操作会自动完成并关闭相关的流和文件句柄。

总结与注意事项

性能优势：使用流式处理方法，数据不是一次性加载到内存中，而是以小块的形式在管道中流动。这大大减少了内存占用，并允许Deno运行时在数据生成、转换和写入之间进行高效的调度，从而显著提升处理大规模数据的性能。
标准库优先：对于Deno的核心功能，如文件I/O、网络、加密、CSV处理等，优先使用deno.land/std下的模块。它们通常经过Deno团队的优化和维护，具有更好的性能、稳定性和兼容性。
错误处理：在生产环境中，需要为流管道添加适当的错误处理机制。例如，可以使用.catch()方法捕获管道中的错误，或者在pipeTo操作中提供一个signal来中断管道。
列定义：CsvStringifyStream的columns选项非常重要，它不仅定义了CSV的列头，还决定了每个数据对象中哪些属性会被提取并按什么顺序排列。
异步特性：整个流式处理过程是异步的，await readable.pipeTo(...)会等待整个文件写入操作完成。

通过采纳这种基于Deno标准库和流API的策略，开发者可以轻松应对Deno环境中生成大型CSV文件的性能挑战，构建出更健壮、更高效的数据处理应用。

javascript DOM操作_怎样动态修改页面内容

javascript正则表达式是什么_如何进行模式匹配？

javascript Promise是什么_如何使用then和catch

javascript的Node_js是什么_如何用它构建后端应用

怎么使用javascript操作DOM_有哪些高效的方法可以避免重排？

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：优化JavaScript预加载器：彻底杜绝内容泄露（FOUC）的策略与实践下一篇：雅致（Agora）令牌在云函数中的生成与常见问题解决

作者最新文章

Grok 2.0：埃隆·马斯克AI新模型引发伦理与创新大辩论

2026-01-11 10:31

小红书达人佣金多久结算？开通带货达人的要求有哪些？

2026-01-11 10:40

AWS AI图像分析器：使用Bedrock和Terraform构建无服务器应用

2026-01-11 10:41

科技论文海报设计终极指南：抓住眼球，赢得认可

2026-01-11 10:41

趣味动物世界：3D动画揭秘趣味变身和爆裂惊喜

2026-01-11 10:43

有限元分析中的机器学习：提速与优化

2026-01-11 10:50

京粉如何允许读取剪贴板

2026-01-11 10:59

如何在Java中正确实现数组元素删除并避免过早抛出异常

2026-01-11 11:13

《光与影：33号远征队》最终BOSS难度低于开发者预期

2026-01-11 11:13

《抖音商城》足迹记录查看方法

2026-01-11 11:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

552

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

730

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

475

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

394

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

990

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

551

2023.09.20