Bash中的错误处理与日志记录

错误处理基础概念

在Bash脚本中，错误处理是确保脚本稳健运行的关键部分。每当一个命令在Bash中执行时，它会返回一个退出状态码（exit status）。这个状态码是一个介于0到255之间的整数，其中0表示命令成功执行，而任何非零值则表示出现了错误。

例如，考虑以下简单的命令：

ls /nonexistentdirectory
echo $?

在上述代码中，ls 命令尝试列出一个不存在的目录。由于该目录不存在，ls 命令会失败并返回一个非零的退出状态码。echo $? 这一行则用于打印前一个命令的退出状态码。在这种情况下，$? 的值将是一个非零数，具体取决于 ls 命令的实现和失败原因。

简单的错误检查

在Bash脚本中，最基本的错误检查方式是在每个可能出错的命令后立即检查 $? 的值。例如，假设我们要创建一个目录并在其中创建一个文件：

mkdir mydirectory
if [ $? -ne 0 ]; then
    echo "Failed to create directory"
    exit 1
fi

touch mydirectory/myfile.txt
if [ $? -ne 0 ]; then
    echo "Failed to create file"
    exit 1
fi

在上述脚本中，mkdir mydirectory 命令尝试创建一个目录。如果该命令失败（即 $? 不等于0），脚本会打印一条错误消息并以状态码1退出。同样的逻辑也应用于 touch mydirectory/myfile.txt 命令。这种方法虽然直观，但随着脚本变得更加复杂，代码可能会变得冗长和难以维护，因为需要在每个命令后都进行这种检查。

使用 `set -e` 选项

为了简化错误处理，Bash提供了 set -e 选项。当在脚本中使用 set -e 时，只要任何一个命令的退出状态码是非零值，脚本就会立即停止执行。例如：

set -e
mkdir mydirectory
touch mydirectory/myfile.txt

在这个脚本中，如果 mkdir mydirectory 失败，由于 set -e 的作用，脚本将立即停止执行，不会继续尝试执行 touch mydirectory/myfile.txt。这使得脚本在遇到错误时能够快速失败，避免在错误的状态下继续执行可能导致更多问题的操作。

然而，set -e 也有一些需要注意的地方。例如，在某些情况下，你可能不希望脚本在特定命令失败时停止执行。比如在条件语句或循环中的命令失败，你可能希望脚本能够继续处理其他情况。在这种情况下，可以使用 set +e 来临时禁用 set -e 的行为，然后再使用 set -e 重新启用它。

set -e
# 主逻辑部分

# 禁用 set -e
set +e
# 这里的命令失败不会导致脚本停止
some_command_that_might_fail
# 重新启用 set -e
set -e
# 后续逻辑部分

`trap` 命令用于捕获信号和错误

set -e 虽然能在命令失败时快速停止脚本，但有时我们需要更精细的控制，比如在脚本即将退出（由于错误或正常结束）时执行一些清理操作。这时候就可以使用 trap 命令。

\trap 命令用于指定在接收到特定信号时要执行的命令。例如，我们可以设置在脚本接收到 EXIT 信号（无论是正常退出还是因为错误退出）时执行清理操作：

cleanup() {
    echo "Performing cleanup"
    # 这里可以添加删除临时文件等清理操作
    rm -f /tmp/tempfile.txt
}
trap cleanup EXIT

# 脚本主体逻辑
mkdir mydirectory
touch mydirectory/myfile.txt

在上述脚本中，cleanup 函数定义了清理操作。trap cleanup EXIT 这一行指定了当脚本接收到 EXIT 信号时，会执行 cleanup 函数中的命令。这样，无论脚本是因为成功完成还是因为某个命令失败而退出，都会执行清理操作。

除了 EXIT 信号，trap 还可以捕获其他信号，比如 SIGINT（通常由用户通过按下 Ctrl+C 产生）。例如：

handle_interrupt() {
    echo "Received SIGINT. Stopping gracefully"
    # 可以在这里添加中断处理逻辑，如关闭打开的文件、终止子进程等
    kill $(jobs -p)
}
trap handle_interrupt SIGINT

# 脚本主体逻辑，可能是一个长时间运行的任务
while true; do
    echo "Running..."
    sleep 1
done

在这个脚本中，handle_interrupt 函数定义了接收到 SIGINT 信号时的处理逻辑。trap handle_interrupt SIGINT 使得脚本在接收到 SIGINT 信号时会执行 handle_interrupt 函数中的命令，实现了更优雅的中断处理。

错误处理中的函数和子脚本

在复杂的Bash脚本中，通常会将功能封装到函数或子脚本中。在这种情况下，错误处理需要特别注意。

当在函数中使用 set -e 时，函数内的命令失败会导致整个函数退出。如果函数是在 set -e 启用的脚本环境中调用，函数的失败也会导致整个脚本停止执行。例如：

function create_file() {
    set -e
    touch /nonexistentdirectory/myfile.txt
}

set -e
create_file

在上述代码中，create_file 函数尝试在一个不存在的目录中创建文件。由于 set -e 在函数内启用，函数会因为 touch 命令失败而退出。并且由于脚本整体也启用了 set -e，create_file 函数的失败会导致整个脚本停止执行。

如果函数需要有自己独立的错误处理逻辑，并且不希望因为函数内的错误导致整个脚本立即停止，可以在函数内使用 local 变量来控制 set -e 的行为。例如：

function create_file() {
    local old_errexit
    old_errexit=$(set +e; :; echo $?)
    set -e
    touch /nonexistentdirectory/myfile.txt
    set $old_errexit
    if [ $? -ne 0 ]; then
        echo "Failed to create file in function"
        return 1
    fi
    return 0
}

set -e
create_file

在这个改进的版本中，create_file 函数在开始时保存了当前的 set -e 状态（通过 old_errexit=$(set +e; :; echo $?)），然后启用 set -e 执行函数内的命令。命令执行完毕后，恢复之前的 set -e 状态。这样，函数内的错误可以在函数内部处理，而不会直接导致整个脚本停止执行。

对于子脚本，类似的原则也适用。如果在主脚本中使用 source 命令引入子脚本，子脚本中的错误处理会受到主脚本 set -e 等设置的影响。如果希望子脚本有独立的错误处理，可以在子脚本内部进行相应的设置。

日志记录基础

日志记录在Bash脚本中对于调试和监控脚本运行状态非常重要。通过记录日志，我们可以了解脚本在执行过程中发生了什么，特别是在出现错误时，日志可以提供关键的信息来帮助定位问题。

在Bash中，最基本的日志记录方式是使用 echo 命令将信息输出到标准输出（stdout）或标准错误输出（stderr）。例如：

echo "This is a normal log message" >&1
echo "This is an error log message" >&2

在上述代码中，echo "This is a normal log message" >&1 将消息输出到标准输出，而 echo "This is an error log message" >&2 将消息输出到标准错误输出。这种方式简单直接，但对于更复杂的日志记录需求，可能需要更高级的方法。

使用 `tee` 命令记录日志到文件

tee 命令可以将输入同时输出到标准输出和一个或多个文件。这对于记录日志非常有用，因为我们既可以在屏幕上看到日志信息，又可以将其保存到文件中。例如：

echo "This is a log message" | tee -a logfile.txt

在上述代码中，echo "This is a log message" 输出的消息通过管道传递给 tee -a logfile.txt。-a 选项表示以追加模式写入文件，这样每次执行该命令时，日志消息都会添加到 logfile.txt 文件的末尾。

我们可以将脚本中的重要信息通过这种方式记录到日志文件中。例如：

#!/bin/bash

echo "Starting script" | tee -a logfile.txt

# 执行一些命令
mkdir mydirectory
if [ $? -eq 0 ]; then
    echo "Directory created successfully" | tee -a logfile.txt
else
    echo "Failed to create directory" | tee -a logfile.txt >&2
fi

touch mydirectory/myfile.txt
if [ $? -eq 0 ]; then
    echo "File created successfully" | tee -a logfile.txt
else
    echo "Failed to create file" | tee -a logfile.txt >&2
fi

echo "Ending script" | tee -a logfile.txt

在这个脚本中，每次重要操作的结果都会被记录到 logfile.txt 文件中，并且错误消息会同时输出到标准错误输出，方便查看。

自定义日志函数

为了使日志记录更加统一和方便，我们可以定义一个自定义的日志函数。例如：

log() {
    local timestamp=$(date +"%Y-%m-%d %H:%M:%S")
    local message="$1"
    local log_level="$2"
    local log_file="logfile.txt"

    case $log_level in
        INFO) echo -e "[INFO] $timestamp - $message" | tee -a $log_file ;;
        WARNING) echo -e "[WARNING] $timestamp - $message" | tee -a $log_file >&2 ;;
        ERROR) echo -e "[ERROR] $timestamp - $message" | tee -a $log_file >&2 ;;
        *) echo -e "[UNKNOWN] $timestamp - $message" | tee -a $log_file ;;
    esac
}

log "Starting script" INFO
mkdir mydirectory
if [ $? -eq 0 ]; then
    log "Directory created successfully" INFO
else
    log "Failed to create directory" ERROR
fi

touch mydirectory/myfile.txt
if [ $? -eq 0 ]; then
    log "File created successfully" INFO
else
    log "Failed to create file" ERROR
fi

log "Ending script" INFO

在这个自定义的 log 函数中，它接受两个参数：日志消息和日志级别。函数会根据日志级别添加相应的前缀，并将日志消息记录到 logfile.txt 文件中，同时对于 WARNING 和 ERROR 级别的消息，还会输出到标准错误输出。这样，在整个脚本中，我们可以通过调用 log 函数来统一进行日志记录，使得日志格式更加规范，便于管理和分析。

日志记录与错误处理结合

将日志记录与错误处理紧密结合可以极大地提高脚本的可维护性和故障排查能力。例如，当在错误处理逻辑中使用日志记录时，我们可以记录详细的错误信息，包括错误发生的时间、位置以及可能的原因。

cleanup() {
    local exit_status=$?
    if [ $exit_status -ne 0 ]; then
        log "Script exited with error code $exit_status" ERROR
    else
        log "Script completed successfully" INFO
    fi
}
trap cleanup EXIT

log "Starting script" INFO
mkdir mydirectory
if [ $? -ne 0 ]; then
    log "Failed to create directory" ERROR
    exit 1
fi

touch mydirectory/myfile.txt
if [ $? -ne 0 ]; then
    log "Failed to create file" ERROR
    exit 1
fi

log "Ending script" INFO

在上述脚本中，cleanup 函数在脚本即将退出时被调用。它会检查脚本的退出状态码，如果是非零值，说明脚本是因为错误而退出，此时会记录一条错误日志；如果是零值，则记录脚本成功完成的日志。这样，通过查看日志文件，我们可以清楚地了解脚本的执行过程和是否出现了错误。

另外，在函数内部的错误处理中，也可以结合日志记录。例如：

function create_file() {
    local old_errexit
    old_errexit=$(set +e; :; echo $?)
    set -e
    touch /nonexistentdirectory/myfile.txt
    set $old_errexit
    if [ $? -ne 0 ]; then
        log "Failed to create file in function" ERROR
        return 1
    fi
    return 0
}

log "Starting script" INFO
create_file
if [ $? -ne 0 ]; then
    log "Function create_file failed" ERROR
    exit 1
fi
log "Ending script" INFO

在 create_file 函数中，如果文件创建失败，会记录错误日志。在主脚本中调用该函数后，也会根据函数的返回值记录相应的日志，进一步完善了错误处理与日志记录的结合。

高级日志记录功能

日志轮转 随着脚本的长时间运行，日志文件可能会变得非常大，占用大量的磁盘空间。日志轮转（log rotation）是一种管理日志文件大小的方法，它会定期将旧的日志文件重命名并创建一个新的空日志文件。在Bash中，可以借助外部工具如 logrotate 来实现日志轮转。

首先，需要安装 logrotate（在基于Debian或Ubuntu的系统上，可以使用 sudo apt install logrotate 安装；在基于Red Hat或CentOS的系统上，可以使用 sudo yum install logrotate 安装）。

然后，创建一个 logrotate 配置文件，例如 /etc/logrotate.d/my_script_log：

/path/to/logfile.txt {
    daily
    missingok
    rotate 7
    compress
    delaycompress
    notifempty
    create 644 user group
    sharedscripts
    postrotate
        /usr/bin/killall -HUP rsyslogd 2>/dev/null || true
    endscript
}

在这个配置文件中：

daily 表示每天进行日志轮转。
missingok 表示如果日志文件不存在，不报错。
rotate 7 表示保留7个旧的日志文件。
compress 表示压缩旧的日志文件。
delaycompress 表示延迟压缩，即下次轮转时压缩上次轮转的日志文件。
notifempty 表示如果日志文件为空，不进行轮转。
create 644 user group 表示轮转后创建新的日志文件，权限为644，所有者为 user，所属组为 group。
sharedscripts 和 postrotate、endscript 部分用于在日志轮转后执行一些脚本，这里是重新加载 rsyslogd 服务（如果它在使用日志文件）。

日志级别控制 在一些情况下，我们可能希望在不同的运行环境中控制日志的详细程度。可以通过设置一个全局变量来实现对日志级别的控制。例如：

LOG_LEVEL=INFO

log() {
    local timestamp=$(date +"%Y-%m-%d %H:%M:%S")
    local message="$1"
    local log_level="$2"
    local log_file="logfile.txt"

    case $log_level in
        DEBUG) if [ "$LOG_LEVEL" = "DEBUG" ] || [ "$LOG_LEVEL" = "INFO" ] || [ "$LOG_LEVEL" = "WARNING" ] || [ "$LOG_LEVEL" = "ERROR" ]; then echo -e "[DEBUG] $timestamp - $message" | tee -a $log_file; fi ;;
        INFO) if [ "$LOG_LEVEL" = "INFO" ] || [ "$LOG_LEVEL" = "WARNING" ] || [ "$LOG_LEVEL" = "ERROR" ]; then echo -e "[INFO] $timestamp - $message" | tee -a $log_file; fi ;;
        WARNING) if [ "$LOG_LEVEL" = "WARNING" ] || [ "$LOG_LEVEL" = "ERROR" ]; then echo -e "[WARNING] $timestamp - $message" | tee -a $log_file >&2; fi ;;
        ERROR) echo -e "[ERROR] $timestamp - $message" | tee -a $log_file >&2 ;;
        *) echo -e "[UNKNOWN] $timestamp - $message" | tee -a $log_file ;;
    esac
}

log "This is a debug message" DEBUG
log "This is an info message" INFO
log "This is a warning message" WARNING
log "This is an error message" ERROR

在上述代码中，通过设置 LOG_LEVEL 变量，可以控制哪些级别的日志消息会被记录。如果 LOG_LEVEL 设置为 INFO，那么 DEBUG 级别的日志消息将不会被记录。这样，在开发环境中可以将 LOG_LEVEL 设置为 DEBUG 以获取详细的调试信息，而在生产环境中可以将其设置为 INFO 或更高级别，减少不必要的日志输出。

多线程或并发脚本中的日志记录 在一些复杂的Bash脚本中，可能会使用多线程或并发执行任务。在这种情况下，日志记录需要特别注意，以避免日志信息混乱。

一种解决方法是为每个线程或并发任务创建单独的日志文件。例如，假设我们使用 bash 的 & 操作符在后台并发执行一些任务：

function task1() {
    log "Task 1 started" INFO > task1.log
    # 任务1的逻辑
    sleep 2
    log "Task 1 ended" INFO >> task1.log
}

function task2() {
    log "Task 2 started" INFO > task2.log
    # 任务2的逻辑
    sleep 3
    log "Task 2 ended" INFO >> task2.log
}

task1 &
task2 &
wait

在这个例子中，task1 和 task2 函数分别将自己的日志记录到 task1.log 和 task2.log 文件中，避免了日志信息的混淆。

另一种方法是在日志消息中添加线程或任务的标识符。例如：

log() {
    local timestamp=$(date +"%Y-%m-%d %H:%M:%S")
    local message="$1"
    local log_level="$2"
    local task_id="$3"
    local log_file="combined.log"

    echo -e "[${task_id}] [${log_level}] ${timestamp} - ${message}" | tee -a $log_file
}

function task1() {
    local task_id=1
    log "Task 1 started" INFO $task_id
    # 任务1的逻辑
    sleep 2
    log "Task 1 ended" INFO $task_id
}

function task2() {
    local task_id=2
    log "Task 2 started" INFO $task_id
    # 任务2的逻辑
    sleep 3
    log "Task 2 ended" INFO $task_id
}

task1 &
task2 &
wait

在这个版本中，所有任务的日志都记录到 combined.log 文件中，但通过在日志消息中添加 task_id，可以清晰地分辨出每个任务的日志信息。

错误处理与日志记录的最佳实践

尽早检查错误 在脚本执行过程中，一旦某个命令可能出现错误，应尽快检查其退出状态码并进行相应的错误处理。不要等到后续依赖该命令结果的操作失败后才发现问题，这样可以避免更复杂的错误排查过程。
提供详细的错误信息 在记录错误日志时，尽量提供详细的信息，如错误发生的位置（函数名、脚本行号等）、相关的变量值以及可能导致错误的操作。这样可以大大缩短定位和解决问题的时间。
区分不同类型的错误 根据错误的性质，将其分为不同的类型，如文件系统错误、网络错误、权限错误等。在错误处理和日志记录中，明确标识错误类型，有助于更高效地进行故障排查。
定期清理日志 如前文所述，使用日志轮转等方法定期清理旧的日志文件，避免日志文件占用过多的磁盘空间。同时，也要注意合理保留一定时间的日志，以便在需要时进行历史数据分析。
测试错误处理和日志记录 在开发脚本时，要对各种可能的错误情况进行测试，确保错误处理逻辑正确，并且日志记录能够提供有用的信息。可以使用模拟错误的方法，如故意使某个命令失败，来验证错误处理和日志记录的功能。

通过遵循这些最佳实践，可以使Bash脚本的错误处理和日志记录更加有效，提高脚本的可靠性和可维护性。无论是小型的自动化脚本还是大型的系统管理脚本，良好的错误处理和日志记录机制都是不可或缺的。