MariaDB架构设计原理探究 - 摩柯技术社区

MariaDB 架构概述

整体架构分层

MariaDB 的架构可以大致分为几个主要层次，这有助于理解其不同功能模块如何协同工作。最上层是客户端接口层，负责与外部应用程序进行交互。客户端通过各种数据库驱动（如 JDBC、ODBC 等）连接到 MariaDB 服务器，该层处理连接管理、身份验证以及对客户端请求的初步解析。

中间层是查询处理层，这是 MariaDB 处理 SQL 查询的核心部分。它接收来自客户端接口层的解析后的查询，进行查询优化，生成执行计划，并负责调用存储引擎层来实际执行查询。查询优化器在这一层起着关键作用，它分析查询语句，考虑表结构、索引等信息，以确定最优的执行路径。

最底层是存储引擎层，MariaDB 支持多种存储引擎，如 InnoDB、MyISAM 等。每个存储引擎负责实际的数据存储和检索，它们具有不同的特性，例如 InnoDB 支持事务、行级锁，而 MyISAM 则更适合读密集型应用，支持表级锁。这种插件式的存储引擎架构使得 MariaDB 能够根据不同的应用需求灵活选择最合适的存储方式。

进程与线程模型

MariaDB 通常以服务器进程的形式运行，该进程可以处理多个客户端连接。在处理客户端请求时，MariaDB 采用多线程模型。主线程负责监听客户端连接请求，一旦有新连接到来，主线程会创建一个新的线程来处理该客户端的所有请求。这样可以有效地利用多核 CPU 的优势，提高并发处理能力。

例如，在 Linux 系统下，可以通过 ps -ef | grep mysqld 命令查看 MariaDB 相关进程，会看到一个主 mysqld 进程以及多个线程，每个线程对应一个客户端连接或者执行特定的后台任务。这种多线程模型虽然提高了并发性能，但也带来了一些挑战，如线程间的资源竞争和同步问题。为了应对这些问题，MariaDB 使用了各种锁机制，如互斥锁（Mutex）来保护共享资源，确保数据的一致性和线程安全。

客户端接口层

连接管理

连接协议 MariaDB 支持多种连接协议，最常用的是 TCP/IP 协议。客户端通过指定服务器的 IP 地址和端口号（默认为 3306）来建立连接。在建立连接过程中，首先进行三次握手以确保网络连接的可靠性。然后，客户端和服务器之间会进行身份验证相关的信息交互。
身份验证 身份验证是确保只有授权用户能够访问数据库的重要环节。MariaDB 支持多种身份验证插件，常见的有 mysql_native_password 插件。当客户端发起连接请求时，服务器会要求客户端提供用户名和密码。客户端使用特定的加密算法（如 SHA - 256）对密码进行加密后发送给服务器。服务器根据存储在系统表（如 mysql.user 表）中的用户信息和加密后的密码进行匹配验证。以下是一个简单的 Python 代码示例，使用 mysql - connector - python 库连接 MariaDB 数据库：

import mysql.connector

try:
    cnx = mysql.connector.connect(user='your_user', password='your_password',
                                  host='127.0.0.1',
                                  database='your_database')
    print("成功连接到数据库")
    cnx.close()
except mysql.connector.Error as err:
    print(f"连接错误: {err}")

请求解析

词法分析 当客户端发送 SQL 请求到服务器后，首先会进行词法分析。词法分析器将输入的 SQL 语句按字符流拆分成一个个的词法单元（Token），如关键字（SELECT、FROM、WHERE 等）、标识符（表名、列名）、操作符（=、+、- 等）和常量（字符串、数字）。例如，对于 SQL 语句 SELECT column1, column2 FROM table1 WHERE column3 > 10;，词法分析器会将其拆分为 SELECT、column1、,、column2、FROM、table1、WHERE、column3、>、10、; 等词法单元。
语法分析 语法分析基于词法分析得到的词法单元，依据 SQL 语法规则构建一棵语法树。语法树反映了 SQL 语句的层次结构和逻辑关系。例如，上述 SQL 语句构建的语法树中，根节点可能是 SELECT 操作，其下包含 SELECT_LIST 子节点（包含 column1 和 column2）、FROM_CLAUSE 子节点（包含 table1）以及 WHERE_CLAUSE 子节点（包含 column3 > 10 的条件表达式）。语法分析不仅检查 SQL 语句的语法是否正确，还为后续的语义分析和查询优化提供基础。

查询处理层

查询优化器

统计信息收集 查询优化器需要依赖统计信息来做出最优的执行计划决策。MariaDB 通过对表和索引的统计信息收集来了解数据的分布情况。例如，对于每张表，数据库会记录行数、平均行长度等信息。对于索引，会记录索引的基数（不同值的数量）等。这些统计信息通常通过 ANALYZE TABLE 语句来更新。
查询重写 查询优化器可能会对原始的 SQL 查询进行重写，以提高执行效率。常见的重写方式包括子查询优化、视图合并等。例如，对于一些简单的子查询，优化器可能将其转换为连接操作，因为连接操作在某些情况下执行效率更高。假设原始查询为 SELECT column1 FROM table1 WHERE column2 IN (SELECT column2 FROM table2 WHERE condition);，优化器可能将其重写为 SELECT table1.column1 FROM table1 JOIN table2 ON table1.column2 = table2.column2 WHERE table2.condition;
执行计划生成 基于统计信息和查询重写后的结果，查询优化器生成执行计划。执行计划描述了查询执行的具体步骤，包括表的连接顺序、使用的索引等。例如，对于一个多表连接查询，优化器会根据统计信息评估不同连接顺序的成本，选择成本最低的连接顺序作为执行计划。执行计划可以通过 EXPLAIN 关键字来查看，以下是一个简单的示例：

EXPLAIN SELECT column1, column2 FROM table1 JOIN table2 ON table1.id = table2.id WHERE table1.status = 'active';

上述 EXPLAIN 语句执行后，会返回包含查询执行计划的详细信息，如 id（标识查询中各个操作的顺序）、select_type（查询类型，如 SIMPLE、SUBQUERY 等）、table（涉及的表）、type（连接类型，如 ALL、index 等）、possible_keys（可能使用的索引）、key（实际使用的索引）等。

执行引擎

操作符执行 执行引擎根据查询优化器生成的执行计划，具体执行各个操作符。例如，对于连接操作，执行引擎会根据连接类型（如内连接、外连接），按照指定的连接条件从多个表中检索数据并组合。对于筛选操作（WHERE 子句），执行引擎会对每一行数据进行条件判断，只返回满足条件的数据行。
中间结果处理 在查询执行过程中，可能会产生中间结果。执行引擎需要有效地管理这些中间结果，以避免过多的内存占用。对于一些复杂的查询，可能需要临时表来存储中间结果。例如，在多表连接和分组操作中，如果结果集较大，可能会创建临时表来存储分组前的中间数据。执行引擎会根据查询的特点，决定是否使用临时表以及如何对临时表进行优化，如是否对临时表创建索引以提高后续操作的效率。

存储引擎层

InnoDB 存储引擎

数据存储结构 InnoDB 使用页（Page）作为数据存储的基本单位，页的大小通常为 16KB。表数据以聚集索引的形式存储，即数据行按照主键顺序存储在页中。如果表没有显式定义主键，InnoDB 会自动生成一个隐藏的主键。除了数据页，InnoDB 还使用索引页来存储索引信息。B - Tree 结构是 InnoDB 索引的主要组织形式，通过 B - Tree 可以快速定位到数据页。
事务管理 InnoDB 是支持事务的存储引擎，它通过日志（如重做日志 Redolog 和回滚日志 Undolog）来实现事务的持久性、原子性、一致性和隔离性（ACID）特性。重做日志记录了数据库物理层面的修改操作，用于崩溃恢复，确保已提交的事务在系统崩溃后可以重新应用。回滚日志则用于事务回滚，记录了事务修改前的数据版本，以便在需要时撤销未提交的修改。以下是一个简单的 InnoDB 事务代码示例：

START TRANSACTION;
UPDATE table1 SET column1 = 'new_value' WHERE condition;
DELETE FROM table2 WHERE another_condition;
COMMIT;

锁机制 InnoDB 支持行级锁，这使得在并发访问时可以更细粒度地控制对数据的访问。当一个事务对某一行数据进行修改时，会对该行数据加锁，其他事务如果要访问该行数据，需要等待锁的释放。InnoDB 还支持意向锁，如意向共享锁（IS）和意向排他锁（IX），用于在表级和行级锁之间进行协调，提高并发性能。例如，当一个事务要对某一行加排他锁时，会先对表加意向排他锁，这样可以避免其他事务在表级加锁时造成死锁。

MyISAM 存储引擎

数据存储结构 MyISAM 将表数据和索引分开存储。数据文件以堆文件的形式存储，即数据行按照插入顺序存储，不按照任何特定的顺序（除了通过索引访问时）。索引文件采用 B - Tree 结构，与 InnoDB 不同的是，MyISAM 的索引是非聚集索引，索引中存储的是数据行的物理地址（而不是像 InnoDB 那样存储实际数据）。
特性与适用场景 MyISAM 不支持事务，这使得它在一些简单的读密集型应用中具有较高的性能。因为没有事务管理的开销，MyISAM 在数据插入和查询方面相对较快。它支持表级锁，在写入操作时会锁定整个表，这在并发写入场景下可能会导致性能瓶颈，但在读多写少的情况下可以很好地工作。例如，对于一些日志记录类的表，使用 MyISAM 存储引擎可以快速地进行插入操作，并且查询时也能有较好的性能。

内存管理

缓冲池

结构与功能 MariaDB 的缓冲池是内存管理的重要组成部分，主要用于缓存经常访问的数据和索引页。缓冲池采用链表结构来管理缓存页，包括空闲链表、最近最少使用（LRU）链表等。当数据库读取数据页时，首先会在缓冲池中查找，如果找到则直接从缓冲池读取，避免磁盘 I/O。如果缓冲池已满，需要淘汰一些页时，会从 LRU 链表中选择最近最少使用的页进行淘汰。
配置与优化 可以通过配置参数来调整缓冲池的大小，如 innodb_buffer_pool_size 参数用于设置 InnoDB 存储引擎的缓冲池大小。合理设置缓冲池大小对于数据库性能至关重要。如果缓冲池过小，可能会频繁发生磁盘 I/O，导致性能下降；如果缓冲池过大，可能会占用过多系统内存，影响其他进程运行。一般来说，可以根据服务器的物理内存大小和数据库的负载情况来调整缓冲池大小，例如对于一个具有 16GB 内存的数据库服务器，可将 innodb_buffer_pool_size 设置为 8GB 左右。

临时内存使用

临时表与排序 在查询执行过程中，如涉及分组、排序等操作，可能需要临时内存来存储中间结果。MariaDB 会根据需要创建临时表来存储这些数据。对于排序操作，如果数据量较小，会在内存中进行排序；如果数据量较大，会使用外部排序，即将数据分成多个部分，在内存中排序后再合并。临时内存的使用受到 tmp_table_size 和 max_heap_table_size 等参数的限制。tmp_table_size 定义了内存中临时表的最大大小，max_heap_table_size 定义了 MEMORY 存储引擎表（常用于临时表）的最大大小。
优化策略 为了优化临时内存使用，可以通过合理调整相关参数，如增大 tmp_table_size 以适应较大的中间结果集，但也要注意不要设置过大导致内存耗尽。另外，通过优化查询语句，减少不必要的分组和排序操作，也可以降低临时内存的使用。例如，对于一些可以提前在索引中完成的排序操作，尽量利用索引来避免全表扫描和额外的排序开销。

日志管理

重做日志（Redolog）

作用与原理 重做日志用于记录数据库物理层面的修改操作，其主要作用是保证事务的持久性。当一个事务对数据进行修改时，首先会将修改操作记录到重做日志缓冲区中，然后在适当的时候（如事务提交时或缓冲区满时）将重做日志刷新到磁盘上的重做日志文件中。在系统崩溃后重新启动时，数据库会根据重做日志中的记录将未完成的事务回滚，并将已提交的事务重新应用，从而恢复到崩溃前的状态。
配置与管理 重做日志相关的配置参数包括 innodb_log_file_size（定义每个重做日志文件的大小）、innodb_log_files_in_group（定义重做日志文件组中的文件数量）等。合理设置这些参数对于数据库性能和恢复能力很重要。如果 innodb_log_file_size 设置过小，可能会导致频繁的日志切换和磁盘 I/O；如果设置过大，在崩溃恢复时可能需要较长时间来应用重做日志。一般建议根据数据库的负载和恢复时间目标来调整这些参数。

二进制日志（Binlog）

作用与原理 二进制日志记录了数据库逻辑层面的修改操作，主要用于主从复制和数据备份恢复。在主从复制架构中，主库将写操作记录到二进制日志中，从库通过读取主库的二进制日志并应用这些操作来保持与主库的数据一致性。二进制日志采用追加写的方式，不会覆盖旧的日志记录，除非手动删除或根据配置进行日志清理。
日志格式 MariaDB 支持多种二进制日志格式，如 STATEMENT 格式、ROW 格式和 MIXED 格式。STATEMENT 格式记录的是 SQL 语句本身，这种格式的优点是日志文件较小，但在一些情况下可能会导致主从复制的一致性问题，例如涉及到函数（如 NOW()）或不确定操作的语句。ROW 格式记录的是每一行数据的实际修改，能更好地保证主从复制的一致性，但日志文件会相对较大。MIXED 格式则是根据具体情况自动选择 STATEMENT 或 ROW 格式，以平衡日志大小和复制一致性。

主从复制

复制原理

主库操作 在主从复制架构中，主库将所有修改数据的操作记录到二进制日志中。每当一个事务提交时，主库会将该事务对应的二进制日志事件写入二进制日志文件。同时，主库维护一个二进制日志索引文件，记录每个二进制日志文件的位置和状态。
从库操作 从库通过 I/O 线程连接到主库，读取主库的二进制日志索引文件，获取最新的二进制日志位置。然后，从库的 I/O 线程开始从主库拉取二进制日志事件，并将其写入到从库本地的中继日志中。从库的 SQL 线程负责读取中继日志中的事件，并按照顺序在从库上执行这些操作，从而使从库的数据与主库保持一致。以下是简单配置主从复制的步骤示例（假设主库 IP 为 192.168.1.100，从库 IP 为 192.168.1.101）：

主库配置：
- 在 my.cnf 文件中添加或修改以下配置：
```
[mysqld]
server - id = 1
log - bin = /var/lib/mysql/mysql - bin.log
```
- 重启 MariaDB 服务。
- 获取主库状态：
```
SHOW MASTER STATUS;
```
记录下 File 和 Position 的值。

从库配置：

在 my.cnf 文件中添加或修改以下配置：

[mysqld]
server - id = 2

重启 MariaDB 服务。
配置主库连接信息：

CHANGE MASTER TO
    MASTER_HOST='192.168.1.100',
    MASTER_USER='replication_user',
    MASTER_PASSWORD='replication_password',
    MASTER_LOG_FILE='主库的 File 值',
    MASTER_LOG_POS=主库的 Position 值;

启动从库复制：

START SLAVE;

检查从库状态：

SHOW SLAVE STATUS \G;

确保 Slave_IO_Running 和 Slave_SQL_Running 都为 Yes，且 Seconds_Behind_Master 为 0 或较小的值，表示复制正常。

复制拓扑与应用场景

一主多从拓扑 一主多从是最常见的主从复制拓扑结构，一个主库对应多个从库。这种拓扑适用于读密集型应用，多个从库可以分担主库的读压力。例如，一个电商网站的数据库，主库负责处理所有的写操作（如订单提交、用户信息修改等），多个从库用于处理用户的查询请求（如商品查询、订单查询等），从而提高系统的整体性能。
级联复制拓扑 级联复制中，从库不仅可以从主库同步数据，还可以作为其他从库的主库。这种拓扑结构可以减少主库的负载，因为部分从库的复制请求可以由中间级的从库来处理。例如，在一个大型分布式系统中，可能存在多个地域的数据中心，每个数据中心内部可以采用级联复制的方式，由一个中心从库从主库同步数据，然后该中心从库再作为主库供本地的数据中心内的其他从库同步数据，降低了跨地域网络传输对主库的压力。

高可用性与集群

Galera Cluster

原理与架构 Galera Cluster 是 MariaDB 实现高可用性和集群的一种解决方案，基于同步多主复制技术。在 Galera Cluster 中，每个节点都是平等的，都可以进行读写操作。数据通过同步复制在各个节点之间保持一致。Galera Cluster 使用认证复制协议，当一个节点接收到写操作时，会将该操作广播到其他所有节点，只有当所有节点都确认可以应用该操作（通过认证）后，才会真正提交事务。这种机制确保了所有节点的数据一致性，并且在节点故障时，集群可以自动进行故障检测和转移。
配置与部署 部署 Galera Cluster 首先需要准备多个 MariaDB 节点，每个节点需要安装 Galera 相关的软件包。在配置文件（如 my.cnf）中，需要设置一些与 Galera 相关的参数，如 wsrep_provider（指定 Galera 库路径）、wsrep_cluster_address（指定集群节点地址）等。例如：

[mysqld]
wsrep_provider=/usr/lib/galera/libgalera_smm.so
wsrep_cluster_address="gcomm://node1_ip,node2_ip,node3_ip"
wsrep_node_name="node1"
wsrep_node_address="node1_ip"

每个节点都需要类似的配置，只是 wsrep_node_name 和 wsrep_node_address 根据实际节点情况进行修改。配置完成后，依次启动各个节点，节点会自动加入集群并进行数据同步。

MaxScale

负载均衡与故障转移 MaxScale 是 MariaDB 提供的一种中间件，用于实现负载均衡和故障转移。它可以作为客户端与 MariaDB 服务器之间的代理，接收客户端的请求，并根据配置将请求转发到合适的数据库节点。MaxScale 支持多种负载均衡算法，如轮询、基于权重的负载均衡等。当某个数据库节点发生故障时，MaxScale 可以自动检测并将请求转发到其他正常节点，从而实现故障转移，提高系统的可用性。
配置与使用 MaxScale 的配置主要通过配置文件（如 maxscale.cnf）进行。在配置文件中，需要定义服务器组（包含多个 MariaDB 节点）、服务（如读服务、写服务）以及路由规则等。例如：

[server1]
type = server
address = 192.168.1.100
port = 3306

[server2]
type = server
address = 192.168.1.101
port = 3306

[read - pool]
type = service
router = readwritesplit
servers = server1,server2
user = maxscale_user
passwd = maxscale_password

[read - listener]
type = listener
service = read - pool
protocol = MySQLClient
port = 4006

上述配置定义了两个 MariaDB 服务器 server1 和 server2，一个读服务 read - pool 采用 readwritesplit 路由规则，将读请求均衡分配到两个服务器上，以及一个监听在 4006 端口的读监听器 read - listener 用于接收客户端请求。通过这样的配置，客户端可以连接到 MaxScale 的 4006 端口，MaxScale 会根据配置进行负载均衡和故障转移。