Ruby 的 CSV 文件处理 - 摩柯技术社区

Ruby 中 CSV 文件处理基础

CSV 文件简介

CSV（Comma - Separated Values），即逗号分隔值，是一种常见的简单数据存储格式。它以纯文本形式存储表格数据，每行代表一条记录，各字段之间通常用逗号分隔。例如，一个简单的 CSV 文件可能如下所示：

name,age,email
John,25,john@example.com
Jane,30,jane@example.com

这种格式在数据交换、数据备份以及简单数据存储等场景中广泛应用。

Ruby 中的 CSV 库

Ruby 标准库提供了 CSV 模块，用于方便地处理 CSV 文件。使用前，无需额外安装 gem，只需在代码中引入：

require 'csv'

这就引入了 CSV 模块，使得我们可以使用其中的各种方法来处理 CSV 文件。

读取 CSV 文件

基本读取方法

最基本的读取 CSV 文件的方式是使用 CSV.read 方法。假设我们有一个名为 data.csv 的文件，内容如下：

name,age,email
John,25,john@example.com
Jane,30,jane@example.com

我们可以这样读取：

require 'csv'

data = CSV.read('data.csv')
data.each do |row|
  puts row
end

上述代码中，CSV.read('data.csv') 会将整个 CSV 文件读取到一个二维数组 data 中。每一行数据是数组中的一个子数组，子数组的每个元素对应 CSV 文件中该行的一个字段。运行这段代码，会输出：

["name", "age", "email"]
["John", "25", "john@example.com"]
["Jane", "30", "jane@example.com"]

带选项的读取

CSV.read 方法还支持很多选项，以满足不同的读取需求。例如，我们可以指定分隔符、引用字符等。如果我们的 CSV 文件使用分号作为分隔符，内容如下：

name;age;email
John;25;john@example.com
Jane;30;jane@example.com

可以这样读取：

require 'csv'

data = CSV.read('data.csv', col_sep: ';')
data.each do |row|
  puts row
end

这里通过 col_sep 选项指定了分隔符为分号。

另一个常用选项是 headers。如果 CSV 文件的第一行是表头，我们可以设置 headers: true，这样读取的数据会以 CSV::Row 对象组成的数组形式返回，每个 CSV::Row 对象可以通过表头字段名来访问数据。例如：

require 'csv'

data = CSV.read('data.csv', headers: true)
data.each do |row|
  puts row['name']
  puts row['age']
  puts row['email']
end

这样，我们就可以通过表头字段名方便地访问每一行的数据。

写入 CSV 文件

基本写入方法

要写入 CSV 文件，可以使用 CSV.open 方法结合 write 或 << 方法。例如，我们要创建一个新的 CSV 文件 new_data.csv 并写入一些数据：

require 'csv'

CSV.open('new_data.csv', 'w') do |csv|
  csv << ['name', 'age', 'email']
  csv << ['Bob', 28, 'bob@example.com']
  csv << ['Alice', 32, 'alice@example.com']
end

上述代码中，CSV.open('new_data.csv', 'w') 以写入模式打开 new_data.csv 文件。在块中，通过 << 方法逐行写入数据。运行后，会生成一个 new_data.csv 文件，内容如下：

name,age,email
Bob,28,bob@example.com
Alice,32,alice@example.com

带选项的写入

与读取类似，写入时也可以设置一些选项。例如，设置分隔符为制表符 \t：

require 'csv'

CSV.open('new_data.csv', 'w', col_sep: "\t") do |csv|
  csv << ['name', 'age', 'email']
  csv << ['Bob', 28, 'bob@example.com']
  csv << ['Alice', 32, 'alice@example.com']
end

这样生成的 new_data.csv 文件，字段之间将以制表符分隔。

处理复杂 CSV 文件场景

处理包含特殊字符的 CSV 文件

处理引号内的分隔符

在一些 CSV 文件中，字段内容可能包含与分隔符相同的字符。例如，我们有一个 CSV 文件 special.csv，内容如下：

name,description
John,"Loves coding, especially Ruby"
Jane,"Works in a team; has many projects"

这里，description 字段中包含了逗号和分号，这些字符不应被误识别为字段分隔符。Ruby 的 CSV 库在读取这种文件时，会自动识别引号内的内容，不会将其中的分隔符作为字段分隔依据。我们可以这样读取：

require 'csv'

data = CSV.read('special.csv')
data.each do |row|
  puts row
end

运行代码，会正确输出每一行的数据，description 字段中的特殊字符会被完整保留。

处理转义字符

有些 CSV 文件可能使用转义字符来处理特殊字符。例如，使用反斜杠 \ 作为转义字符，文件 escaped.csv 内容如下：

name,message
John,He said \"Hello!\"

读取这种文件时，我们需要设置 quote_char 和 escape_char 选项。假设双引号 " 是引用字符，反斜杠 \ 是转义字符：

require 'csv'

data = CSV.read('escaped.csv', quote_char: '"', escape_char: '\\')
data.each do |row|
  puts row
end

这样，就可以正确处理包含转义字符的 CSV 文件。

处理大 CSV 文件

逐行读取大文件

当处理非常大的 CSV 文件时，一次性将整个文件读入内存可能会导致内存不足。此时，可以使用 CSV.foreach 方法逐行读取文件。例如，我们有一个非常大的 big_data.csv 文件，内容是大量的用户记录：

require 'csv'

CSV.foreach('big_data.csv') do |row|
  # 处理每一行数据，例如打印
  puts row
end

这种方式每次只读取一行数据到内存中，大大减少了内存占用。我们可以在块中对每一行数据进行相应的处理，如数据验证、数据转换等。

分块读取大文件

除了逐行读取，还可以按块读取大文件。通过设置 batch_size 选项，可以指定每次读取的行数。例如，每次读取 1000 行：

require 'csv'

CSV.foreach('big_data.csv', batch_size: 1000) do |batch|
  batch.each do |row|
    # 处理每一行数据
    puts row
  end
end

这样，每读取 1000 行数据，就会进入块中进行处理。这种方式在需要对数据进行一些批量操作时非常有用，同时也能控制内存的使用。

处理不同编码的 CSV 文件

检测文件编码

在处理 CSV 文件之前，有时需要先检测文件的编码。Ruby 可以使用一些第三方库，如 charlock_holmes 来检测编码。首先安装该库：

gem install charlock_holmes

然后在代码中使用：

require 'charlock_holmes'

encoding = CharlockHolmes::EncodingDetector.detect(File.read('data.csv'))
puts encoding.name

上述代码会检测 data.csv 文件的编码并输出编码名称。

处理不同编码的读取和写入

假设我们检测到文件是 Windows - 1251 编码，而我们希望以 UTF - 8 编码进行处理。可以使用 iconv 库（Ruby 标准库）来转换编码。例如，读取 Windows - 1251 编码的 win1251_data.csv 文件并以 UTF - 8 编码写入新文件 utf8_data.csv：

require 'csv'
require 'iconv'

input_encoding = 'Windows - 1251'
output_encoding = 'UTF - 8'

iconv = Iconv.new(output_encoding, input_encoding)
CSV.open('utf8_data.csv', 'w') do |csv|
  CSV.foreach('win1251_data.csv') do |row|
    new_row = row.map { |field| iconv.iconv(field).first }
    csv << new_row
  end
end

上述代码通过 Iconv 对象将每一个字段从 Windows - 1251 编码转换为 UTF - 8 编码，然后写入新的 CSV 文件。

CSV 文件数据处理与转换

数据验证

验证字段格式

在读取 CSV 文件数据时，通常需要验证字段格式。例如，对于包含年龄的 CSV 文件，我们希望验证年龄字段是否为有效的数字。假设我们有一个 age_data.csv 文件，内容如下：

name,age
John,25
Jane,abc

我们可以这样验证：

require 'csv'

CSV.foreach('age_data.csv', headers: true) do |row|
  age = row['age']
  if age =~ /^\d+$/
    puts "#{row['name']}'s age is valid: #{age}"
  else
    puts "#{row['name']}'s age is invalid: #{age}"
  end
end

上述代码通过正则表达式 ^\d+$ 验证年龄字段是否为纯数字。如果是，则输出有效信息；否则，输出无效信息。

验证必填字段

对于一些必填字段，我们也需要进行验证。例如，假设 name 字段是必填的，在 required_data.csv 文件中：

name,email
,test@example.com
John,john@example.com

可以这样验证：

require 'csv'

CSV.foreach('required_data.csv', headers: true) do |row|
  name = row['name']
  if name &&!name.empty?
    puts "#{name}'s data is valid"
  else
    puts "Name is missing"
  end
end

这段代码检查 name 字段是否为空，如果为空则提示缺失。

数据转换

字段类型转换

常常需要对 CSV 文件中的字段进行类型转换。例如，将年龄从字符串转换为整数。假设 type_data.csv 文件如下：

name,age
John,25
Jane,30

我们可以这样转换：

require 'csv'

CSV.foreach('type_data.csv', headers: true) do |row|
  age = row['age'].to_i
  puts "#{row['name']}'s age as integer: #{age}"
end

这里通过 to_i 方法将年龄字段从字符串转换为整数。

数据格式转换

有时需要转换数据的格式。例如，将日期格式从 YYYY - MM - DD 转换为 MM/DD/YYYY。假设 date_data.csv 文件如下：

name,date
John,2023 - 01 - 15
Jane,2023 - 02 - 20

可以这样转换：

require 'csv'

CSV.foreach('date_data.csv', headers: true) do |row|
  date_str = row['date']
  date = Date.parse(date_str)
  new_date_str = date.strftime('%m/%d/%Y')
  puts "#{row['name']}'s new date format: #{new_date_str}"
end

上述代码使用 Date.parse 方法将字符串解析为 Date 对象，然后通过 strftime 方法转换为指定的日期格式。

数据过滤与筛选

按字段值筛选

我们可能只需要 CSV 文件中满足某些条件的数据。例如，从 filter_data.csv 文件中筛选出年龄大于 25 岁的记录，文件内容如下：

name,age
John,25
Jane,30
Bob,28

可以这样筛选：

require 'csv'

CSV.foreach('filter_data.csv', headers: true) do |row|
  age = row['age'].to_i
  if age > 25
    puts row
  end
end

这段代码会输出年龄大于 25 岁的行。

多条件筛选

也可以进行多条件筛选。例如，筛选出年龄大于 25 岁且名字以 J 开头的记录：

require 'csv'

CSV.foreach('filter_data.csv', headers: true) do |row|
  age = row['age'].to_i
  name = row['name']
  if age > 25 && name.start_with?('J')
    puts row
  end
end

这样就可以筛选出同时满足两个条件的记录。

CSV 文件与数据库交互

将 CSV 文件数据导入数据库

连接数据库

在 Ruby 中，常用的数据库连接库有 sqlite3、mysql2 等。以 SQLite 为例，首先安装 sqlite3 库：

gem install sqlite3

然后连接数据库：

require'sqlite3'

db = SQLite3::Database.new('test.db')

上述代码创建或连接到一个名为 test.db 的 SQLite 数据库。

导入 CSV 数据

假设我们有一个 users.csv 文件，内容如下：

name,age,email
John,25,john@example.com
Jane,30,jane@example.com

我们可以将其数据导入到数据库的 users 表中。首先创建表：

require'sqlite3'

db = SQLite3::Database.new('test.db')
db.execute('CREATE TABLE users (name TEXT, age INTEGER, email TEXT)')

然后导入数据：

require'sqlite3'
require 'csv'

db = SQLite3::Database.new('test.db')
CSV.foreach('users.csv', headers: true) do |row|
  name = row['name']
  age = row['age'].to_i
  email = row['email']
  db.execute('INSERT INTO users (name, age, email) VALUES (?,?,?)', [name, age, email])
end

上述代码逐行读取 CSV 文件数据，并插入到数据库的 users 表中。

从数据库导出数据到 CSV 文件

查询数据库数据

首先查询数据库中的数据。例如，从刚才创建的 users 表中查询所有数据：

require'sqlite3'

db = SQLite3::Database.new('test.db')
results = db.execute('SELECT * FROM users')

results 是一个二维数组，包含了查询结果。

导出数据到 CSV 文件

将查询结果导出到 exported_users.csv 文件：

require'sqlite3'
require 'csv'

db = SQLite3::Database.new('test.db')
results = db.execute('SELECT * FROM users')

CSV.open('exported_users.csv', 'w') do |csv|
  csv << ['name', 'age', 'email']
  results.each do |row|
    csv << row
  end
end

上述代码先写入表头，然后逐行写入查询结果到 CSV 文件中。

高级 CSV 文件处理技巧

使用自定义记录处理器

定义自定义处理器

在某些情况下，我们可能需要对 CSV 文件的每一条记录进行复杂的处理。可以定义一个自定义的记录处理器。例如，我们希望对每一行数据进行加密处理。假设我们有一个简单的加密函数：

def encrypt_string(str)
  str.chars.map { |c| (c.ord + 1).chr }.join
end

然后定义一个自定义记录处理器：

class EncryptingCSVProcessor
  def initialize
  end

  def call(row)
    row.map { |field| encrypt_string(field) }
  end
end

使用自定义处理器

使用自定义处理器来处理 CSV 文件。假设 original.csv 文件如下：

name,message
John,Hello
Jane,World

可以这样处理：

require 'csv'

processor = EncryptingCSVProcessor.new
CSV.open('encrypted.csv', 'w') do |csv|
  CSV.foreach('original.csv') do |row|
    encrypted_row = processor.call(row)
    csv << encrypted_row
  end
end

这样，original.csv 文件中的每一行数据都会经过加密处理，并写入到 encrypted.csv 文件中。

处理嵌套的 CSV 数据

解析嵌套结构

有些 CSV 文件可能包含嵌套的数据结构。例如，我们有一个 nested.csv 文件，其中一个字段包含逗号分隔的子数据，如下：

name,skills
John,ruby,java,python
Jane,c++,javascript

我们可以将 skills 字段解析为数组。例如：

require 'csv'

CSV.foreach('nested.csv', headers: true) do |row|
  name = row['name']
  skills = row['skills'].split(',')
  puts "#{name}'s skills: #{skills}"
end

这样就将 skills 字段解析为了数组。

生成嵌套结构的 CSV

反过来，我们也可以生成包含嵌套结构的 CSV 文件。假设我们有一个数组，每个元素包含一个人的名字和技能数组，如下：

data = [
  ['John', ['ruby', 'java', 'python']],
  ['Jane', ['c++', 'javascript']]
]

我们可以将其写入 CSV 文件，使技能字段以逗号分隔：

require 'csv'

CSV.open('generated_nested.csv', 'w') do |csv|
  csv << ['name','skills']
  data.each do |person|
    name = person[0]
    skills = person[1].join(',')
    csv << [name, skills]
  end
end

这样就生成了包含嵌套结构的 CSV 文件。

通过以上对 Ruby 中 CSV 文件处理的详细介绍，涵盖了从基础操作到复杂场景、数据处理以及与数据库交互等多方面内容，希望能帮助开发者在实际项目中灵活高效地处理 CSV 文件。