Go哈希表的设计与实现 - 摩柯技术社区

Go 语言中的哈希表基础

在 Go 语言中，哈希表被称为 map。map 是一种无序的键值对集合，它提供了快速的查找、插入和删除操作。哈希表的核心原理是通过哈希函数将键映射到一个索引位置，从而能够迅速定位到对应的值。

map 的定义与初始化

在 Go 中，定义一个 map 可以使用以下方式：

// 定义一个空的 map
var m1 map[string]int
// 使用 make 函数初始化 map
m2 := make(map[string]int)
// 初始化并赋值
m3 := map[string]int{
    "apple":  1,
    "banana": 2,
}

在上述代码中，m1 定义了一个类型为 map[string]int 的空 map，此时它的值为 nil，不能直接用于赋值操作。m2 使用 make 函数初始化了一个 map[string]int，make 函数接受 map 类型作为参数，并分配内存空间。m3 在定义的同时进行了初始化并赋值。

访问和修改 map 中的值

访问 map 中的值很简单，使用键作为索引即可：

m := map[string]int{
    "apple":  1,
    "banana": 2,
}
value := m["apple"]
fmt.Println(value) // 输出 1

如果访问一个不存在的键，Go 语言不会报错，而是返回该值类型的零值。例如，对于 map[string]int，如果访问不存在的键，会返回 0。如果需要判断键是否存在，可以使用如下方式：

m := map[string]int{
    "apple":  1,
    "banana": 2,
}
value, exists := m["cherry"]
if exists {
    fmt.Printf("键 cherry 存在，值为 %d\n", value)
} else {
    fmt.Println("键 cherry 不存在")
}

修改 map 中的值同样通过键来操作：

m := map[string]int{
    "apple":  1,
    "banana": 2,
}
m["apple"] = 3
fmt.Println(m["apple"]) // 输出 3

删除 map 中的键值对

使用 delete 函数可以删除 map 中的键值对：

m := map[string]int{
    "apple":  1,
    "banana": 2,
}
delete(m, "apple")
value, exists := m["apple"]
if exists {
    fmt.Printf("键 apple 存在，值为 %d\n", value)
} else {
    fmt.Println("键 apple 已被删除")
}

Go 哈希表的底层设计

数据结构

Go 语言的 map 在底层使用哈希表来实现。其核心数据结构包含了 hmap 和 bmap。

hmap 是哈希表的整体结构，它包含了以下重要字段：

type hmap struct {
    count     int // 当前 map 中的键值对数量
    flags     uint8
    B         uint8  // 表示桶的数量为 2^B
    noverflow uint16 // 溢出桶的数量
    hash0     uint32 // 哈希种子，用于哈希函数的计算
    buckets    unsafe.Pointer // 指向桶数组的指针，每个桶可以存放 8 个键值对
    oldbuckets unsafe.Pointer // 用于扩容时保存旧的桶数组
    nevacuate  uintptr
    extra *mapextra // 额外的信息，如溢出桶的指针等
}

bmap 是桶的结构，每个桶可以存放 8 个键值对：

// bmap 实际结构在运行时会根据字段动态调整
type bmap struct {
    tophash [bucketCnt]uint8
}

在实际的 bmap 结构中，除了 tophash 数组用于存储哈希值的高位部分外，还会在运行时根据键值对的大小动态分配空间来存储键和值。

哈希函数

Go 语言的 map 使用的哈希函数是 murmur3 算法的变种。哈希函数的作用是将任意长度的键转换为固定长度的哈希值，以便能够均匀地分布在哈希表的桶中。

murmur3 算法具有较高的性能和较好的哈希分布特性。它通过对键进行一系列的位运算和混合操作，生成一个 32 位或 64 位的哈希值。在 Go 中，哈希函数会结合 hmap 中的 hash0 种子，使得不同的 map 即使键相同，哈希值也会不同，从而避免哈希冲突。

哈希冲突的解决

当两个不同的键经过哈希函数计算得到相同的哈希值时，就会发生哈希冲突。Go 语言的 map 使用链地址法（separate chaining）来解决哈希冲突。

具体来说，每个桶（bmap）可以存放 8 个键值对。如果一个桶已满且又有新的键值对要插入，就会使用溢出桶（extrabuckets）。溢出桶也是 bmap 类型，通过链表的方式连接在一起。在查找键值对时，首先根据哈希值找到对应的桶，然后在桶及其溢出桶中逐个比较键，直到找到匹配的键或遍历完所有桶。

Go 哈希表的操作实现细节

插入操作

计算哈希值：首先使用哈希函数（如 murmur3 变种）结合 hash0 种子计算键的哈希值。
确定桶的位置：通过哈希值的低位部分（与 2^B - 1 进行按位与操作）确定该键值对应该插入到哪个桶中。
查找桶内位置：在桶内查找是否已经存在该键，如果存在则更新值。如果桶未满且不存在该键，则直接插入。
处理溢出：如果桶已满，则创建一个溢出桶，并将键值对插入到溢出桶中。同时，hmap 的 noverflow 字段会增加。

以下是简化的插入操作伪代码：

func insert(h *hmap, key, value) {
    hash := hashFunc(key, h.hash0)
    bucketIndex := hash & (1<<h.B - 1)
    bucket := (*bmap)(unsafe.Pointer(uintptr(h.buckets) + bucketIndex*bucketSize))

    for i := 0; i < bucketCnt; i++ {
        if bucket.tophash[i] == topHash(hash) {
            if equal(key, bucket.keys[i]) {
                bucket.values[i] = value
                return
            }
        }
    }

    if isFull(bucket) {
        newBucket := getOverflowBucket(h)
        linkBucket(bucket, newBucket)
        bucket = newBucket
    }

    insertKeyAndValue(bucket, key, value)
    h.count++
}

查找操作

计算哈希值：与插入操作一样，先计算键的哈希值。
确定桶的位置：通过哈希值的低位部分确定桶的位置。
在桶及其溢出桶中查找：在桶及其连接的溢出桶中逐个比较键的哈希值高位部分（tophash）和键本身，直到找到匹配的键或遍历完所有桶。

简化的查找操作伪代码如下：

func lookup(h *hmap, key) (value, bool) {
    hash := hashFunc(key, h.hash0)
    bucketIndex := hash & (1<<h.B - 1)
    bucket := (*bmap)(unsafe.Pointer(uintptr(h.buckets) + bucketIndex*bucketSize))

    for {
        for i := 0; i < bucketCnt; i++ {
            if bucket.tophash[i] == topHash(hash) {
                if equal(key, bucket.keys[i]) {
                    return bucket.values[i], true
                }
            }
        }

        if bucket.overflow() == nil {
            break
        }
        bucket = bucket.overflow()
    }

    return zeroValue, false
}

删除操作

计算哈希值：计算要删除键的哈希值。
确定桶的位置：根据哈希值低位确定桶。
在桶及其溢出桶中查找并删除：找到匹配的键值对后，将其从桶中删除。删除操作可能涉及到对键值对的移动和对溢出桶的调整。例如，如果删除的键值对位于桶的中间位置，后面的键值对需要向前移动。如果溢出桶为空，可能需要将其从链表中移除。

简化的删除操作伪代码：

func delete(h *hmap, key) {
    hash := hashFunc(key, h.hash0)
    bucketIndex := hash & (1<<h.B - 1)
    bucket := (*bmap)(unsafe.Pointer(uintptr(h.buckets) + bucketIndex*bucketSize))

    for {
        for i := 0; i < bucketCnt; i++ {
            if bucket.tophash[i] == topHash(hash) {
                if equal(key, bucket.keys[i]) {
                    deleteKeyAndValue(bucket, i)
                    h.count--
                    return
                }
            }
        }

        if bucket.overflow() == nil {
            break
        }
        bucket = bucket.overflow()
    }
}

Go 哈希表的扩容机制

扩容的触发条件

Go 语言的 map 会在两种情况下触发扩容：

负载因子过高：当 map 中的键值对数量（count）与桶的数量（2^B）的比例超过一定阈值（通常是 6.5）时，会触发扩容。负载因子过高意味着每个桶平均存放的键值对数量过多，会导致哈希冲突加剧，查找性能下降。
溢出桶过多：当溢出桶的数量（noverflow）超过一定阈值（与 2^B 有关）时，也会触发扩容。过多的溢出桶表明哈希分布不均匀，需要重新调整哈希表的结构。

扩容过程

分配新的桶数组：根据扩容条件，确定新的桶数量（通常是原来的两倍，即 2^(B + 1)），并分配新的桶数组内存。
迁移键值对：将旧桶数组中的所有键值对重新计算哈希值，并根据新的哈希值重新分配到新的桶数组中。这个过程称为重排（rehashing）。在迁移过程中，hmap 会同时保留新旧两个桶数组，旧桶数组用于读取，新桶数组用于写入。
逐步迁移：为了避免一次性迁移大量数据导致性能问题，Go 语言的 map 采用逐步迁移的方式。每次插入、删除或查找操作时，都会顺带迁移部分旧桶中的数据到新桶。直到所有旧桶的数据都迁移完毕，才会释放旧桶数组的内存。

以下是简化的扩容过程伪代码：

func grow(h *hmap) {
    newB := h.B + 1
    newBuckets := makeBuckets(1<<newB)
    h.oldbuckets = h.buckets
    h.buckets = newBuckets
    h.B = newB
    h.nevacuate = 0
    h.noverflow = 0

    for ; h.nevacuate < 1<<h.oldB; h.nevacuate++ {
        oldBucket := (*bmap)(unsafe.Pointer(uintptr(h.oldbuckets) + h.nevacuate*bucketSize))
        for {
            for i := 0; i < bucketCnt; i++ {
                if oldBucket.tophash[i] != empty {
                    key := oldBucket.keys[i]
                    value := oldBucket.values[i]
                    hash := hashFunc(key, h.hash0)
                    newBucketIndex := hash & (1<<h.B - 1)
                    newBucket := (*bmap)(unsafe.Pointer(uintptr(h.buckets) + newBucketIndex*bucketSize))
                    insertKeyAndValue(newBucket, key, value)
                }
            }

            if oldBucket.overflow() == nil {
                break
            }
            oldBucket = oldBucket.overflow()
        }
    }

    freeOldBuckets(h.oldbuckets)
    h.oldbuckets = nil
}

性能优化与注意事项

性能优化

预分配内存：在创建 map 时，如果能够预估键值对的数量，可以使用 make 函数预分配足够的空间，避免频繁的扩容操作。例如，m := make(map[string]int, 1000) 预分配了可以容纳 1000 个键值对的空间。
选择合适的键类型：尽量选择具有高效哈希函数的键类型。例如，内置的基本类型（如 int、string）通常具有较好的哈希性能。自定义类型作为键时，要确保其 == 比较操作和哈希函数的实现高效。

注意事项

并发访问：Go 语言的 map 不是线程安全的。在多个 goroutine 并发读写 map 时，可能会导致数据竞争和未定义行为。如果需要在并发环境下使用 map，可以使用 sync.Map 或者自行使用锁机制来保护 map 的访问。
遍历顺序：map 的遍历顺序是不确定的。每次遍历 map 得到的结果顺序可能不同，因为 map 是无序的。如果需要按特定顺序遍历，通常需要先将键提取出来，进行排序后再遍历。

自定义哈希表实现

虽然 Go 语言已经提供了功能强大的内置 map，但在某些特定场景下，可能需要自定义哈希表以满足特殊需求。下面是一个简单的自定义哈希表实现示例，使用链地址法解决哈希冲突。

package main

import (
    "fmt"
)

// 定义桶结构
type bucket struct {
    keyValuePairs [][]interface{}
}

// 定义哈希表结构
type MyHashMap struct {
    buckets []*bucket
    size    int
}

// 创建新的哈希表
func NewMyHashMap(capacity int) *MyHashMap {
    buckets := make([]*bucket, capacity)
    for i := range buckets {
        buckets[i] = &bucket{}
    }
    return &MyHashMap{
        buckets: buckets,
        size:    capacity,
    }
}

// 哈希函数
func (m *MyHashMap) hash(key int) int {
    return key % m.size
}

// 插入键值对
func (m *MyHashMap) Put(key, value int) {
    index := m.hash(key)
    bucket := m.buckets[index]
    for i, pair := range bucket.keyValuePairs {
        if pair[0] == key {
            bucket.keyValuePairs[i][1] = value
            return
        }
    }
    bucket.keyValuePairs = append(bucket.keyValuePairs, []interface{}{key, value})
}

// 获取值
func (m *MyHashMap) Get(key int) (int, bool) {
    index := m.hash(key)
    bucket := m.buckets[index]
    for _, pair := range bucket.keyValuePairs {
        if pair[0] == key {
            return pair[1].(int), true
        }
    }
    return 0, false
}

// 删除键值对
func (m *MyHashMap) Remove(key int) {
    index := m.hash(key)
    bucket := m.buckets[index]
    for i, pair := range bucket.keyValuePairs {
        if pair[0] == key {
            bucket.keyValuePairs = append(bucket.keyValuePairs[:i], bucket.keyValuePairs[i+1:]...)
            return
        }
    }
}

可以通过以下方式测试自定义哈希表：

func main() {
    myMap := NewMyHashMap(10)
    myMap.Put(1, 100)
    myMap.Put(2, 200)

    value, exists := myMap.Get(1)
    if exists {
        fmt.Printf("键 1 的值为 %d\n", value)
    } else {
        fmt.Println("键 1 不存在")
    }

    myMap.Remove(2)
    value, exists = myMap.Get(2)
    if exists {
        fmt.Printf("键 2 的值为 %d\n", value)
    } else {
        fmt.Println("键 2 不存在")
    }
}

在这个自定义哈希表实现中，MyHashMap 结构体包含一个桶数组 buckets 和哈希表的容量 size。bucket 结构体用于存储键值对，使用二维切片 keyValuePairs 来实现。hash 函数简单地通过取模运算将键映射到桶的索引。Put 方法用于插入或更新键值对，Get 方法用于获取值，Remove 方法用于删除键值对。

通过了解 Go 语言哈希表的设计与实现细节，开发者可以更好地使用内置的 map，并在必要时实现自定义的哈希表，以满足不同场景下的性能和功能需求。同时，在使用 map 时注意并发访问和遍历顺序等问题，能够避免潜在的错误和性能瓶颈。