Node.js Stream 的四种类型及其特点

可读流（Readable Streams）

本质原理 可读流是 Node.js Stream 中用于从数据源读取数据的类型。在 Node.js 内部，可读流基于事件驱动模型工作。它维护着一个内部缓冲区，数据从数据源流入这个缓冲区，应用程序可以从缓冲区中读取数据。当缓冲区为空且没有更多数据可读时，可读流会触发 end 事件。

可读流有两种模式：暂停模式和流动模式。在暂停模式下，数据不会自动从缓冲区流出，应用程序需要显式调用 read() 方法来读取数据。而在流动模式下，数据会自动从缓冲区流出，通过 data 事件传递给应用程序。

特点
- 数据读取控制：在暂停模式下，开发者对数据读取有更精细的控制，可以按需读取数据，避免一次性处理大量数据导致内存压力过大。例如，在处理大文件时，可以每次只读取一小部分数据进行处理。
- 事件驱动：通过事件来通知数据的可用性和流的状态变化，如 data 事件表示有新数据可读，end 事件表示流结束，error 事件表示发生错误。这种事件驱动机制使得代码能够灵活响应不同的流状态。
- 背压处理：在某些情况下，特别是当数据读取速度大于处理速度时，可读流需要处理背压问题。Node.js 通过 highWaterMark 来控制缓冲区的大小，当缓冲区接近或达到 highWaterMark 时，流会自动暂停，防止数据溢出。
代码示例

const fs = require('fs');
const readableStream = fs.createReadStream('largeFile.txt');

readableStream.on('data', (chunk) => {
    console.log('Received a chunk of data:', chunk.length);
    // 这里可以对读取到的数据块进行处理
});

readableStream.on('end', () => {
    console.log('All data has been read.');
});

readableStream.on('error', (err) => {
    console.error('An error occurred:', err);
});

在上述代码中，通过 fs.createReadStream 创建了一个可读流来读取文件 largeFile.txt。data 事件处理函数在每次接收到数据块时被调用，end 事件处理函数在文件读取完毕时被调用，error 事件处理函数在读取过程中发生错误时被调用。

可写流（Writable Streams）

本质原理 可写流用于将数据写入到目的地，如文件、网络套接字等。它同样基于事件驱动模型，内部也有一个缓冲区。当应用程序调用 write() 方法写入数据时，数据首先被放入缓冲区。如果缓冲区未满，write() 方法会返回 true，表示数据成功写入缓冲区；如果缓冲区已满，write() 方法会返回 false，此时应用程序需要暂停写入，直到缓冲区有空间。
特点
- 数据写入管理：可写流提供了对数据写入的有效管理，通过缓冲区机制可以平滑地处理数据写入操作，避免因瞬间大量数据写入而导致的性能问题。例如，在向文件写入大量日志数据时，缓冲区可以减少磁盘 I/O 的频率。
- 事件通知：可写流通过 drain 事件通知应用程序缓冲区有空间可以继续写入数据，通过 finish 事件表示所有数据已成功写入目的地，通过 error 事件处理写入过程中发生的错误。
- 灵活的目的地支持：可写流可以将数据写入多种不同的目的地，不仅局限于文件，还可以是网络连接、管道等。这使得它在各种数据输出场景中都非常实用。
代码示例

const fs = require('fs');
const writableStream = fs.createWriteStream('outputFile.txt');

const data = 'This is some data to be written to the file.';
const writeResult = writableStream.write(data);

if (!writeResult) {
    console.log('Buffer is full. Pause writing.');
    // 这里可以暂停写入操作，直到drain事件触发
}

writableStream.on('drain', () => {
    console.log('Buffer has drained. Resume writing.');
    // 可以在这里继续写入数据
});

writableStream.on('finish', () => {
    console.log('All data has been written to the file.');
});

writableStream.on('error', (err) => {
    console.error('An error occurred while writing:', err);
});

writableStream.end();

在这段代码中，通过 fs.createWriteStream 创建了一个可写流用于写入文件 outputFile.txt。首先调用 write() 方法写入数据，并根据返回结果判断缓冲区状态。drain 事件处理函数在缓冲区有空间时被调用，finish 事件处理函数在所有数据写入完成时被调用，error 事件处理函数在写入过程中发生错误时被调用。最后通过 end() 方法结束写入操作。

双工流（Duplex Streams）

本质原理 双工流结合了可读流和可写流的功能，它既可以从数据源读取数据，也可以将数据写入到目的地。在 Node.js 中，双工流是基于可读流和可写流的基础构建的，内部维护着两个独立的缓冲区，一个用于读取数据，一个用于写入数据。
特点
- 双向数据传输：这是双工流最显著的特点，它允许在同一个流对象上同时进行数据的读取和写入操作。例如，在网络通信中，一个 TCP 套接字可以同时接收和发送数据，双工流就非常适合这种场景。
- 独立的缓冲区管理：由于双工流有独立的读取和写入缓冲区，因此可以分别对读取和写入操作进行控制和优化。例如，可以根据应用程序的需求，分别设置读取和写入缓冲区的大小。
- 事件驱动的组合：双工流继承了可读流和可写流的事件，如 data、end、drain、finish、error 等。这使得开发者可以根据不同的事件，对读取和写入操作进行灵活的处理。
代码示例

const net = require('net');
const server = net.createServer((socket) => {
    socket.write('Welcome to the server!\n');
    socket.on('data', (data) => {
        console.log('Received from client:', data.toString());
        socket.write('Message received: ' + data.toString());
    });
    socket.on('end', () => {
        console.log('Client disconnected.');
    });
    socket.on('error', (err) => {
        console.error('Socket error:', err);
    });
});

server.listen(3000, () => {
    console.log('Server listening on port 3000');
});

在这个示例中，net.createServer 创建的 socket 对象就是一个双工流。它可以向客户端写入数据（socket.write），同时也可以从客户端读取数据（通过 data 事件）。end 事件处理客户端断开连接，error 事件处理套接字发生的错误。

转换流（Transform Streams）

本质原理 转换流是双工流的一种特殊类型，它在读取和写入数据的过程中对数据进行转换。转换流内部维护着可读和可写的缓冲区，当从可读端读取数据时，会经过转换函数处理后再写入到可写端。这种转换可以是数据格式的转换、数据加密解密、数据压缩解压缩等。
特点
- 数据转换功能：这是转换流的核心特点，它允许在数据流动的过程中对数据进行实时转换。例如，在处理文件上传时，可以使用转换流对上传的文件数据进行压缩后再保存到服务器。
- 无缝集成：转换流可以无缝地集成到可读流和可写流组成的流管道中，使得整个数据处理流程更加流畅。它就像一个中间环节，对经过的数据进行特定的处理后再传递下去。
- 可定制性：开发者可以根据具体需求定义自己的转换函数，实现各种复杂的数据转换逻辑。无论是简单的字符串替换，还是复杂的图像格式转换，都可以通过转换流来实现。
代码示例

const { Transform } = require('stream');

class UppercaseTransform extends Transform {
    _transform(chunk, encoding, callback) {
        const upperChunk = chunk.toString().toUpperCase();
        callback(null, upperChunk);
    }
}

const readableStream = require('fs').createReadStream('input.txt');
const uppercaseTransform = new UppercaseTransform();
const writableStream = require('fs').createWriteStream('output.txt');

readableStream.pipe(uppercaseTransform).pipe(writableStream);

在上述代码中，定义了一个 UppercaseTransform 类继承自 Transform 类。_transform 方法是转换流的核心方法，在这个方法中，将读取到的数据块转换为大写形式。然后通过 pipe 方法将可读流、转换流和可写流连接起来，实现了从文件读取数据、转换为大写并写入到另一个文件的功能。

四种类型对比与总结

功能对比
- 可读流：专注于从数据源读取数据，主要用于数据输入场景，如读取文件、网络请求响应等。
- 可写流：负责将数据写入到目的地，用于数据输出场景，如写入文件、网络请求发送等。
- 双工流：同时具备读取和写入功能，适用于需要双向数据传输的场景，如网络套接字通信。
- 转换流：在数据流动过程中对数据进行转换，是双工流的特殊应用，用于数据处理和格式转换等场景。
应用场景差异
- 可读流：常用于处理大文件读取、实时数据获取（如实时日志读取）等场景，通过控制读取速度和缓冲区大小来优化内存使用。
- 可写流：在文件写入、日志记录、网络数据发送等场景中广泛应用，通过缓冲区管理和事件驱动来确保数据的稳定写入。
- 双工流：在网络通信领域，如 TCP 套接字、WebSocket 等场景中不可或缺，支持双向数据的高效传输。
- 转换流：在数据预处理和后处理阶段非常有用，如数据加密解密、数据格式转换（如 JSON 到 XML 的转换）等场景。
性能与资源管理
- 可读流：合理设置 highWaterMark 可以有效控制缓冲区大小，避免内存溢出。在处理大量数据时，采用暂停模式按需读取数据可以优化性能。
- 可写流：通过 write() 方法的返回值和 drain 事件来管理缓冲区，防止数据丢失。对于频繁的写入操作，合理调整缓冲区大小可以提高写入效率。
- 双工流：由于同时进行读取和写入操作，需要平衡两个方向的数据流量，确保不会因为一方的操作影响另一方的性能。同时，独立管理读取和写入缓冲区也有助于优化资源使用。
- 转换流：在数据转换过程中，要注意转换函数的性能，避免复杂的转换操作导致流的性能瓶颈。合理利用缓冲区和事件驱动机制，可以提高整体的数据处理效率。

在实际的 Node.js 应用开发中，根据具体的业务需求选择合适的流类型，并结合它们的特点进行优化，可以实现高效、稳定的数据处理和传输。无论是处理大规模数据的服务器应用，还是实时数据交互的 Web 应用，Stream 的合理运用都能带来显著的性能提升和资源优化。