brpc性能压测报告：单机支撑百万QPS的技术内幕

brpc是百度开源的工业级RPC框架，专为高并发、低延迟的分布式系统设计。作为百度内部广泛使用的通信基础设施，brpc在搜索、存储、机器学习、广告、推荐等核心业务中承载着海量请求。本报告将深入解析brpc在性能压测中的卓越表现，揭示其单机支撑百万QPS的技术内幕。## 📊 性能测试环境与方法测试环境基于百度内部的生产级硬件配置，包括E5-2620 @ 2.00GHz超线程24核CPU和6

芮川琨Jack

938人浏览 · 2026-03-25 00:22:25

芮川琨Jack · 2026-03-25 00:22:25 发布

brpc性能压测报告：单机支撑百万QPS的技术内幕

【免费下载链接】brpc brpc is an Industrial-grade RPC framework using C++ Language, which is often used in high performance system such as Search, Storage, Machine learning, Advertisement, Recommendation etc. "brpc" means "better RPC". 项目地址: https://gitcode.com/gh_mirrors/brpc3/brpc

brpc是百度开源的工业级RPC框架，专为高并发、低延迟的分布式系统设计。作为百度内部广泛使用的通信基础设施，brpc在搜索、存储、机器学习、广告、推荐等核心业务中承载着海量请求。本报告将深入解析brpc在性能压测中的卓越表现，揭示其单机支撑百万QPS的技术内幕。

📊 性能测试环境与方法

测试环境基于百度内部的生产级硬件配置，包括E5-2620 @ 2.00GHz超线程24核CPU和64GB内存。为了模拟真实业务场景，测试中特别加入了1%的长尾请求，确保RPC框架能够有效处理真实环境中的性能抖动。

测试方法严格遵循工业标准，所有RPC server配置了24个工作线程，client以多线程同步方式发送请求，最接近真实系统的调用模式。这种测试方法避免了单纯追求QPS数字而忽略实际应用场景的弊端。

🚀 吞吐量性能对比

在同机单client→单server的场景下，brpc展现了惊人的吞吐能力。当请求包小于16KB时，单连接brpc的吞吐量超过了多连接的ubrpc_mc和thrift_mc。随着请求包增大，多连接brpc达到了测试中最高的2.3GB/s吞吐量。

从图中可以看出，随着客户端数量增加，brpc的QPS快速提升，展现了优秀的扩展性。相比之下，UB和thrift增加客户端几乎不能提升server的QPS，而gRPC在所有测试中表现垫底。

⚡ 延迟性能分析

延迟是衡量RPC框架性能的关键指标。在固定1万QPS的测试中，brpc的平均延迟最短，几乎不受长尾请求影响。

CDF曲线显示，brpc的延迟分布最为集中，99%的请求延迟在1-2ms内完成。这种低延迟特性对于实时性要求高的业务场景至关重要，如在线广告竞价、实时推荐等。

🏗️ 高性能架构设计

brpc的高性能源于其创新的架构设计。与传统的IO线程+处理线程模型不同，brpc实现了完全并发的请求处理机制：

完全并发的读取和解析：对不同客户端请求的读取和解析完全并发，用户无需区分"IO线程"和"处理线程"
高度并发的写出机制：多个线程可以高效地向同一个fd写入数据，每秒可处理500万个16字节消息
极少的锁竞争：高QPS服务能充分利用CPU资源，即使QPS超过50万，框架造成的锁竞争也极少
自动线程数调节：每个请求运行在新建立的bthread中，请求结束后线程结束，自动根据负载调节

上图展示了brpc的客户端-服务器端交互流程，不同颜色代表不同线程，实现了fd间并发和fd内并发的高效处理模式。

🔧 核心性能优化技术

bvar高性能监控机制

brpc内置的bvar性能监控机制在多线程环境下表现卓越，平均操作时间稳定在极低水平，不受线程数影响。

这种高效的监控机制为性能调优提供了实时数据支持，是brpc高性能实现的重要支撑。

线程模型优化

brpc采用独特的bthread线程模型，相比传统pthread具有更轻量的上下文切换开销。每个请求运行在独立的bthread中，避免了线程池管理带来的额外开销。

内存管理优化

通过高效的IOBuf内存管理机制，brpc减少了数据拷贝次数，提高了内存使用效率。这在处理大流量数据时尤为重要。

📈 多级服务场景测试

在更复杂的多级服务场景中，brpc同样表现出色。在跨机多client→多server→多server的三级调用测试中，brpc的平均延迟最短，几乎不受长尾影响。

测试结果显示，即使面对1%的长尾请求（耗时10毫秒），brpc仍能保持稳定的性能表现，而sofa-pbrpc有17%的普通请求被长尾严重干扰，hulu-pbrpc基本无法正常工作。

🎯 技术优势总结

通过全面的性能压测分析，brpc在以下方面展现了明显优势：

卓越的吞吐能力：单机支持百万QPS，多连接模式下可达2.3GB/s吞吐
极低的延迟：99%请求延迟在1-2ms内，受长尾影响最小
优秀的扩展性：随着客户端和线程数增加，性能线性提升
稳定的多级服务：在复杂调用链中保持高性能表现
高效的资源利用：CPU利用率高，锁竞争少

🔍 性能调优建议

基于测试结果，为充分发挥brpc性能潜力，建议：

合理配置连接方式：单连接已能提供800+MB/s吞吐，足以打满万兆网卡，且CPU消耗仅为多连接的1/2
监控bvar指标：利用内置性能监控及时发现瓶颈
优化序列化：对于大数据传输，考虑使用支持二进制数据的协议
合理设置超时：根据业务特点调整超时参数，平衡可用性与性能

brpc的性能优势不仅体现在测试数据上，更在百度内部的海量业务实践中得到了验证。作为工业级RPC框架，brpc为构建高性能、高可用的分布式系统提供了可靠的技术基础。

如需了解更多性能优化细节，可参考官方文档：docs/cn/benchmark.md 和架构设计文档：docs/cn/overview.md。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动