Go高效的goroutine调度 - 摩柯技术社区

Go语言并发编程基础

在深入探讨Go语言中goroutine调度之前，我们先来回顾一下Go语言并发编程的一些基础知识。

并发与并行

并发（Concurrency）和并行（Parallelism）是两个容易混淆的概念。并发指的是在同一时间段内，多个任务交替执行，宏观上看起来是同时进行的，但实际上在单核CPU环境下，同一时刻只有一个任务在执行。而并行则是指在同一时刻，多个任务在不同的CPU核心或处理器上同时执行。Go语言的并发模型主要基于前者，通过高效的调度机制，在单核或多核环境下都能实现高效的并发处理。

goroutine是什么

goroutine是Go语言中实现并发的核心机制，它是一种轻量级的线程。与操作系统原生线程（如POSIX线程）相比，goroutine的创建和销毁成本极低。在Go语言中，只需要使用go关键字就可以轻松创建一个goroutine。例如：

package main

import (
    "fmt"
    "time"
)

func say(s string) {
    for i := 0; i < 5; i++ {
        time.Sleep(100 * time.Millisecond)
        fmt.Println(s)
    }
}

func main() {
    go say("world")
    say("hello")
}

在上述代码中，通过go say("world")创建了一个新的goroutine来执行say("world")函数，而主线程继续执行say("hello")。两个函数的执行在宏观上是并发进行的。

为什么goroutine轻量级

内存占用小：一个原生线程在现代操作系统中通常需要数MB的栈空间，而goroutine的初始栈空间非常小，只有2KB左右。这意味着可以在有限的内存中创建大量的goroutine。随着goroutine的执行，如果栈空间不够用，Go运行时会自动对栈进行扩容。
调度开销低：goroutine的调度由Go运行时（runtime）负责，而不是操作系统内核。这种用户态的调度机制避免了内核态与用户态之间频繁切换带来的开销。

goroutine调度器模型

Go语言的调度器模型经历了多个阶段的发展和优化，从最初的M:N模型逐渐演变为现在成熟的GMP模型。

M:N模型

在早期的Go版本中，采用的是M:N模型。在这种模型中，有M个操作系统线程（M）对应N个用户级线程（N，也就是goroutine）。多个goroutine可以复用少量的操作系统线程，从而减少线程创建和上下文切换的开销。然而，这种模型存在一些问题，比如当某个goroutine执行系统调用时，会阻塞整个操作系统线程，导致其他在该线程上的goroutine也无法执行。

GMP模型

为了解决M:N模型的问题，Go语言引入了GMP模型，它由以下三个主要部分组成：

G（goroutine）：代表一个goroutine，每个G都有自己的栈、程序计数器和局部变量等信息。G是用户级的轻量级线程，由Go运行时调度。
M（machine）：代表一个操作系统线程，它负责执行G。M与操作系统线程一一对应，由操作系统内核调度。
P（processor）：代表一个逻辑处理器，它包含了运行goroutine的资源，如本地goroutine队列等。P的数量决定了同时能执行的goroutine的最大数量，默认情况下，P的数量等于CPU核心数。

GMP模型的核心思想是将goroutine的调度与操作系统线程的调度解耦，通过P来管理和调度G，使得多个goroutine可以在有限的操作系统线程上高效运行。

GMP模型的工作原理

G的创建与调度

创建：当使用go关键字创建一个新的goroutine时，会在堆上分配一个G结构体，初始化其栈和程序计数器等信息，然后将这个G结构体放入全局goroutine队列或者某个P的本地goroutine队列中。
调度：M在执行过程中，会从P的本地goroutine队列中获取G来执行。如果本地队列为空，M会尝试从全局goroutine队列或者其他P的本地队列中窃取一部分G来执行，这个过程称为工作窃取（work - stealing）。例如，以下代码展示了多个goroutine的调度过程：

package main

import (
    "fmt"
    "sync"
)

func worker(id int, wg *sync.WaitGroup) {
    defer wg.Done()
    fmt.Printf("Worker %d started\n", id)
    // 模拟一些工作
    for i := 0; i < 1000000; i++ {
        _ = i * i
    }
    fmt.Printf("Worker %d finished\n", id)
}

func main() {
    var wg sync.WaitGroup
    for i := 0; i < 10; i++ {
        wg.Add(1)
        go worker(i, &wg)
    }
    wg.Wait()
}

在这个例子中，创建了10个goroutine，它们会被调度到不同的M上执行。

M与P的关系

绑定：每个M在运行时需要绑定一个P，M会一直执行绑定的P上的G。当M执行系统调用时，会暂时与P解绑，P可以继续调度其他M来执行本地队列中的G。
数量调整：Go运行时会根据系统资源和负载情况动态调整M的数量。如果有大量的G需要执行，运行时可能会创建更多的M来提高并发度；如果系统负载较低，运行时可能会减少M的数量以节省资源。

全局goroutine队列与本地goroutine队列

全局队列：全局goroutine队列是所有P都可以访问的队列，当新创建的goroutine数量超过一定阈值时，会被放入全局队列。M在本地队列和其他P的本地队列都为空时，会从全局队列中获取G。
本地队列：每个P都有一个本地goroutine队列，优先从本地队列中获取G执行。这样可以减少线程间的竞争，提高调度效率。

调度器的关键流程

初始化阶段

P的初始化：在程序启动时，Go运行时会根据CPU核心数初始化一定数量的P。例如，在一个4核的CPU上，默认会初始化4个P。
M的初始化：同时，运行时会创建一定数量的M，这些M会尝试与P进行绑定。最初，会创建一个主M，它会执行main函数。

运行阶段

G的执行：当一个M绑定了P后，它会从P的本地goroutine队列中取出一个G并执行。在执行G的过程中，如果G调用了系统调用，M会与P解绑，进入睡眠状态，直到系统调用完成。此时，P会调度其他M来执行本地队列中的G。
工作窃取：如果某个P的本地goroutine队列为空，而其他P的队列中有大量的G，空闲的M会从其他P的队列中窃取一半的G到自己绑定的P的本地队列中，然后开始执行这些G。例如，以下代码可以帮助我们理解工作窃取机制：

package main

import (
    "fmt"
    "sync"
    "time"
)

func heavyWork(id int, wg *sync.WaitGroup) {
    defer wg.Done()
    fmt.Printf("Worker %d started heavy work\n", id)
    for i := 0; i < 100000000; i++ {
        _ = i * i
    }
    fmt.Printf("Worker %d finished heavy work\n", id)
}

func lightWork(id int, wg *sync.WaitGroup) {
    defer wg.Done()
    fmt.Printf("Worker %d started light work\n", id)
    for i := 0; i < 1000000; i++ {
        _ = i * i
    }
    fmt.Printf("Worker %d finished light work\n", id)
}

func main() {
    var wg sync.WaitGroup
    for i := 0; i < 2; i++ {
        wg.Add(1)
        go heavyWork(i, &wg)
    }
    for i := 2; i < 10; i++ {
        wg.Add(1)
        go lightWork(i, &wg)
    }
    time.Sleep(2 * time.Second)
    wg.Wait()
}

在这个例子中，前两个goroutine执行繁重的工作，后八个执行较轻的工作。在执行过程中，空闲的M可能会从执行繁重工作的P的队列中窃取一些轻量级的goroutine来执行，以提高整体效率。

退出阶段

G的退出：当一个G执行完毕后，会从P的本地队列或者正在执行它的M中移除。如果G是通过return语句正常结束，或者通过runtime.Goexit()函数显式退出，都会触发这个过程。
M与P的清理：当所有的G都执行完毕，并且没有新的G需要执行时，M会与P解绑，M可能会被回收，P也会进入空闲状态，等待新的G到来。

影响goroutine调度的因素

系统调用

阻塞情况：当goroutine执行系统调用（如文件I/O、网络I/O等）时，对应的M会与P解绑，进入阻塞状态，直到系统调用完成。在这个过程中，P可以调度其他M来执行本地队列中的G，从而避免整个线程被阻塞。例如：

package main

import (
    "fmt"
    "io/ioutil"
    "sync"
)

func readFile(wg *sync.WaitGroup) {
    defer wg.Done()
    data, err := ioutil.ReadFile("nonexistentfile.txt")
    if err != nil {
        fmt.Println("Error reading file:", err)
    }
    fmt.Println("File content:", string(data))
}

func main() {
    var wg sync.WaitGroup
    wg.Add(1)
    go readFile(&wg)
    // 主线程继续执行其他任务
    fmt.Println("Main thread is doing other work")
    wg.Wait()
}

在这个例子中，readFile函数中的文件读取操作是一个系统调用。如果没有调度器的优化，执行这个goroutine的M会被阻塞，影响其他goroutine的执行。但在GMP模型下，M会与P解绑，P可以调度其他M执行其他G。 2. 非阻塞系统调用：Go语言也提供了一些非阻塞的系统调用方式，如使用net.Conn的SetReadDeadline等方法设置超时，这样在系统调用未完成时，goroutine不会一直阻塞，可以继续执行其他逻辑。

抢占式调度

原理：在Go 1.14版本之前，goroutine的调度是非抢占式的，即只有当goroutine主动让出CPU（如通过runtime.Gosched()函数或者执行系统调用等）时，调度器才会调度其他goroutine。从Go 1.14版本开始，引入了抢占式调度机制。当一个goroutine执行时间过长（默认10ms），调度器会强制暂停该goroutine，将其放入队列，调度其他goroutine执行。
代码示例：

package main

import (
    "fmt"
    "runtime"
    "time"
)

func longRunning() {
    for {
        // 模拟长时间运行的任务
        _ = 1 + 1
    }
}

func main() {
    runtime.GOMAXPROCS(1)
    go longRunning()
    time.Sleep(200 * time.Millisecond)
    fmt.Println("Main function can still run")
}

在这个例子中，如果没有抢占式调度，longRunning函数会一直占用CPU，main函数中的fmt.Println语句将无法执行。但由于有了抢占式调度，main函数可以在一定时间后输出信息。

资源竞争

问题表现：当多个goroutine同时访问和修改共享资源时，可能会发生资源竞争问题，导致程序出现不可预测的结果。例如：

package main

import (
    "fmt"
    "sync"
)

var counter int

func increment(wg *sync.WaitGroup) {
    defer wg.Done()
    for i := 0; i < 1000; i++ {
        counter++
    }
}

func main() {
    var wg sync.WaitGroup
    for i := 0; i < 10; i++ {
        wg.Add(1)
        go increment(&wg)
    }
    wg.Wait()
    fmt.Println("Final counter value:", counter)
}

在这个例子中，由于多个goroutine同时对counter变量进行修改，最终的counter值可能不是预期的10000。 2. 解决方法：可以使用互斥锁（sync.Mutex）、读写锁（sync.RWMutex）等机制来保护共享资源，避免资源竞争。修改后的代码如下：

package main

import (
    "fmt"
    "sync"
)

var counter int
var mu sync.Mutex

func increment(wg *sync.WaitGroup) {
    defer wg.Done()
    for i := 0; i < 1000; i++ {
        mu.Lock()
        counter++
        mu.Unlock()
    }
}

func main() {
    var wg sync.WaitGroup
    for i := 0; i < 10; i++ {
        wg.Add(1)
        go increment(&wg)
    }
    wg.Wait()
    fmt.Println("Final counter value:", counter)
}

通过使用互斥锁，确保了在同一时刻只有一个goroutine可以修改counter变量，从而避免了资源竞争问题。

优化goroutine调度的策略

合理设置GOMAXPROCS

作用：GOMAXPROCS设置了可以同时执行的最大P的数量，默认值是CPU核心数。通过合理设置GOMAXPROCS，可以优化程序在不同硬件环境下的性能。例如，在一个CPU密集型的程序中，如果设置GOMAXPROCS为1，所有的goroutine将在一个P上串行执行，可能会降低性能；而如果设置为大于CPU核心数的值，可能会增加调度开销，也不一定能提高性能。
代码示例：

package main

import (
    "fmt"
    "runtime"
    "sync"
)

func cpuIntensive(wg *sync.WaitGroup) {
    defer wg.Done()
    for i := 0; i < 100000000; i++ {
        _ = i * i
    }
}

func main() {
    runtime.GOMAXPROCS(1)
    var wg sync.WaitGroup
    for i := 0; i < 10; i++ {
        wg.Add(1)
        go cpuIntensive(&wg)
    }
    start := time.Now()
    wg.Wait()
    elapsed := time.Since(start)
    fmt.Printf("Execution time with GOMAXPROCS=1: %s\n", elapsed)

    runtime.GOMAXPROCS(runtime.NumCPU())
    wg = sync.WaitGroup{}
    for i := 0; i < 10; i++ {
        wg.Add(1)
        go cpuIntensive(&wg)
    }
    start = time.Now()
    wg.Wait()
    elapsed = time.Since(start)
    fmt.Printf("Execution time with GOMAXPROCS=CPU cores: %s\n", elapsed)
}

通过对比不同GOMAXPROCS设置下的执行时间，可以找到适合程序的最佳值。

减少系统调用的频率

优化思路：由于系统调用会导致M与P解绑，增加调度开销，因此在编写程序时应尽量减少不必要的系统调用。例如，在进行文件I/O操作时，可以使用缓冲区来减少实际的系统调用次数。
代码示例：

package main

import (
    "bufio"
    "fmt"
    "os"
)

func main() {
    file, err := os.Open("largefile.txt")
    if err != nil {
        fmt.Println("Error opening file:", err)
        return
    }
    defer file.Close()

    scanner := bufio.NewScanner(file)
    for scanner.Scan() {
        line := scanner.Text()
        // 处理每一行数据
        fmt.Println(line)
    }
    if err := scanner.Err(); err != nil {
        fmt.Println("Error reading file:", err)
    }
}

在这个例子中，bufio.Scanner使用了缓冲区，减少了每次读取一行数据时的系统调用次数，提高了文件读取效率。

避免资源竞争

重要性：资源竞争不仅会导致程序出现错误，还可能影响goroutine的调度效率。因为在解决资源竞争时使用的锁机制会导致goroutine的阻塞，降低并发度。因此，在设计程序时应尽量避免共享资源，或者使用无锁数据结构（如sync.Map）来减少锁的使用。
无锁数据结构示例：

package main

import (
    "fmt"
    "sync"
)

func main() {
    var mu sync.Mutex
    var m = make(map[string]int)

    var wg sync.WaitGroup
    for i := 0; i < 10; i++ {
        wg.Add(1)
        go func(id int) {
            defer wg.Done()
            key := fmt.Sprintf("key%d", id)
            mu.Lock()
            m[key] = id
            mu.Unlock()
        }(i)
    }
    wg.Wait()
    fmt.Println(m)

    var sm sync.Map
    wg = sync.WaitGroup{}
    for i := 0; i < 10; i++ {
        wg.Add(1)
        go func(id int) {
            defer wg.Done()
            key := fmt.Sprintf("key%d", id)
            sm.Store(key, id)
        }(i)
    }
    wg.Wait()
    sm.Range(func(key, value interface{}) bool {
        fmt.Printf("Key: %s, Value: %d\n", key, value)
        return true
    })
}

在这个例子中，对比了使用普通map加锁和sync.Map的情况。sync.Map是一个线程安全的无锁数据结构，在高并发场景下可以避免锁带来的性能开销。

总结goroutine调度相关要点

调度模型：GMP模型是Go语言高效调度goroutine的核心，理解G、M、P之间的关系和交互原理对于优化并发程序至关重要。
调度流程：从初始化、运行到退出阶段，调度器在不同阶段执行不同的任务，如创建和管理P、M，调度G执行，以及清理资源等。
影响因素：系统调用、抢占式调度和资源竞争等因素会对goroutine的调度产生重要影响，需要在编写程序时加以考虑和处理。
优化策略：通过合理设置GOMAXPROCS、减少系统调用频率和避免资源竞争等策略，可以进一步提高goroutine调度的效率和程序的性能。

通过深入理解和应用上述关于goroutine调度的知识，开发者可以编写出更加高效、稳定的Go语言并发程序。无论是开发网络服务器、分布式系统还是其他高性能应用，掌握goroutine调度的精髓都是必不可少的。