多线程计数性能比较

在现代编程中,多线程是提高程序性能的一种常见方法。本文将探讨在C++中使用不同同步机制进行多线程计数的性能。将比较使用互斥锁(mutex)、原子操作(atomic)、Windows特有的InterlockedIncrement函数、无锁(lock-free)算法、单线程执行以及每个核心一个锁(one lock per core)的性能。

本文的基准测试代码来源于VC++的“Windows上30个多线程错误”文章,但这些代码分散在不同的部分。本文将这些代码集中在一起,以便更清晰地展示它们。将使用C++17的并行std::for_each来在所有逻辑核心上启动线程,除非另有说明。计数基准测试是在装有Windows 11的Intel i7 870处理器上进行的,它有12个逻辑核心。Ubuntu 24.04的基准测试结果将在最后部分展示。

互斥锁(Mutex)

第一个示例涉及使用C++11的互斥锁来同步多个线程的计数。

void inc_mutex() { timer watch; watch.start("inc mutex"); int count = 0; std::mutex mut; std::for_each(std::execution::par, Vec.begin(), Vec.end(), [&mut, &count](size_t num) -> void { if (is_valid((int)(num))) { std::lock_guard guard(mut); ++count; } }); watch.stop(); std::cout << "total count:" << count << std::endl; }

Vec被随机初始化到VEC_SIZE的大小,即100000000。rand()函数用于注入不确定性,以防止编译器在编译时计算结果并优化掉代码。

const size_t VEC_SIZE = 100000000U; void init_vector() { srand(time(NULL)); for (size_t i = 0; i < VEC_SIZE; ++i) Vec.push_back(rand() % 20); } bool is_valid(int n) { return (n % 2 == 0); }

互斥锁的基准测试结果如下。

    inc mutex: 3136ms
    

原子计数(Atomic Count)

由于只处理一个整数count变量,可以放弃互斥锁并使用C++11的原子整数来提高性能。

void inc_atomic() { timer watch; watch.start("inc atomic"); std::atomic count = 0; std::for_each(std::execution::par, Vec.begin(), Vec.end(), [&count](size_t num) -> void { if (is_valid((int)(num))) ++count; }); watch.stop(); std::cout << "total count:" << count << std::endl; }

互斥锁和原子整数的基准测试结果如下。有超过66%的性能提升。

    inc mutex: 3136ms
    inc atomic: 1007ms
    

Windows InterlockedIncrement

如果在Windows上使用预C++11编译器,可以使用Windows的InterlockedIncrement来实现相同的性能提升。

#ifdef _WIN32 void inc_winInterlocked() { timer watch; watch.start("inc win Interlocked"); LONG count = 0; std::for_each(std::execution::par, Vec.begin(), Vec.end(), [&count](size_t num) -> void { if (is_valid((int)(num))) ::InterlockedIncrement(&count); }); watch.stop(); std::cout << "total count:" << count << std::endl; } #endif

互斥锁、原子整数和InterlockedIncrement的基准测试结果如下。

    inc mutex: 3136ms
    inc atomic: 1007ms
    inc win Interlocked: 1005ms
    

无锁(No Lock)

在这个无锁基准测试中,将使用自己编写的loop::parallel_for而不是使用C++17的并行std::for_each。

template void parallel_for(int numOfThreads, size_t beginIndex, size_t endIndex, Func f) { // Function implementation... }

创建一个CountStruct来存储每个线程的计数。buf成员是为了防止伪共享。所有线程结束后,从所有的CountStruct中累加总计数。

struct CountStruct { CountStruct() : Count(0) { memset((void*)buf, 0, sizeof(buf)); } int Count; char buf[128]; // to prevent false sharing }; void inc_no_lock() { int threads = std::thread::hardware_concurrency(); std::vector count(threads); timer watch; watch.start("inc no lock"); loop::parallel_for(threads, (size_t)(0), (size_t)(VEC_SIZE), [&count](int threadIndex, int index) -> void { if (is_valid(Vec[index])) ++(count[threadIndex].Count); }); int total = 0; for (auto& st : count) total += st.Count; watch.stop(); std::cout << "total count:" << total << std::endl; }

无锁的基准测试结果如下。

    inc mutex: 3136ms
    inc atomic: 1007ms
    inc win Interlocked: 1005ms
    inc no lock: 73ms
    

单线程(Single Threaded)

在这一部分,使用普通的for循环来基准测试单线程性能。注意:这个for循环没有前面代码基准测试的线程启动开销。

void inc_single_thread() { timer watch; watch.start("inc single_thread"); int count = 0; for (size_t i = 0; i < Vec.size(); ++i) { if (is_valid(Vec[i])) ++count; } watch.stop(); std::cout << "total count:" << count << std::endl; }

单线程的基准测试结果如下。

    inc mutex: 3136ms
    inc atomic: 1007ms
    inc win Interlocked: 1005ms
    inc no lock: 73ms
    inc single_thread: 86ms
    

每个核心一个锁(One Lock Per Core)

在这一部分,使用C++17的并行std::for_each,但放弃了并行std::for_each的便利性,根据逻辑核心数生成线程,然后在每个线程中手动计算工作分配,并循环存储计数到本地temp_count,在每个线程结束时,获取一个互斥锁,然后累积temp_count到count。注意:获取的互斥锁数量正好是逻辑核心数。

void inc_less_mutex_lock() { timer watch; watch.start("inc less mutex lock"); const size_t threads = std::thread::hardware_concurrency(); std::vector vecIndex; for (size_t i = 0; i < threads; ++i) vecIndex.push_back(i); int count = 0; std::mutex mut; std::for_each(std::execution::par, vecIndex.begin(), vecIndex.end(), [&mut, &count, threads](size_t index) -> void { size_t thunk = Vec.size() / threads; size_t start = thunk * index; size_t end = start + thunk; if (index == (threads - 1)) { size_t remainder = Vec.size() % threads; end += remainder; } int temp_count = 0; for (int i = start; i < end; ++i) { if (is_valid((int)(Vec[i]))) { ++temp_count; } } { std::lock_guard guard(mut); count += temp_count; } }); watch.stop(); std::cout << "total count:" << count << std::endl; }

令人惊讶的是,在Windows上,每个逻辑核心获取一个互斥锁(在Intel i7 870案例中,12个核心)获得了最佳结果。

    inc mutex: 3136ms
    inc atomic: 1007ms
    inc win Interlocked: 1005ms
    inc no lock: 73ms
    inc single_thread: 86ms
    inc less mutex lock: 33ms
    

Ubuntu 24.04在WSL上的基准测试结果

本节列出了在Windows 11 WSL Ubuntu 24.04的G++ 13.2和Clang 18.1.3上的基准测试结果。CPU与之前相同,是Intel i7 870 12个逻辑核心。两个编译器的结果相似。无锁、每个核心一个锁和单线程的性能相似。请注意,对于正常工作负载,比如计数素数,工作时间远远超过写入count的时间。其他两种方法的优势在于可以将工作负载分配到线程中。

    inc mutex: 719ms
    inc atomic: 473ms
    inc no lock: 51ms
    inc single_thread: 48ms
    inc less mutex lock: 54ms
    
    inc mutex: 745ms
    inc atomic: 463ms
    inc no lock: 54ms
    inc single_thread: 52ms
    inc less mutex lock: 58ms
    

编译指令

g++ MultithreadedCount.cpp -O3 -std=c++17 clang++ MultithreadedCount.cpp -O3 -std=c++17
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485