MiroThinker批量评估工具：calculate_average_score.py使用详解

MiroThinker是专为深度研究和复杂工具使用场景设计的开源智能体模型，而calculate_average_score.py则是其核心评估组件之一，能够帮助开发者快速批量计算模型评估结果的平均值，为模型性能分析提供关键数据支持。## 工具基本介绍calculate_average_score.py位于项目的`apps/miroflow-agent/benchmarks/evaluat

苏鹃咪Healthy

940人浏览 · 2026-02-24 02:26:13

苏鹃咪Healthy · 2026-02-24 02:26:13 发布

MiroThinker批量评估工具：calculate_average_score.py使用详解

【免费下载链接】MiroThinker MiroThinker is open-source agentic models trained for deep research and complex tool use scenarios. 项目地址: https://gitcode.com/GitHub_Trending/mi/MiroThinker

MiroThinker是专为深度研究和复杂工具使用场景设计的开源智能体模型，而calculate_average_score.py则是其核心评估组件之一，能够帮助开发者快速批量计算模型评估结果的平均值，为模型性能分析提供关键数据支持。

工具基本介绍

calculate_average_score.py位于项目的apps/miroflow-agent/benchmarks/evaluators/目录下，是MiroThinker项目中用于批量评估模型性能的重要工具。它能够自动检测结果目录中的评估文件，提取关键指标并计算平均值、标准差等统计数据，帮助开发者全面了解模型在多次运行中的表现稳定性和整体性能。

图：MiroThinker模型配置界面，可设置工具支持、视觉能力等关键参数

核心功能与工作原理

该工具主要通过两个核心函数实现功能：

detect_pass_at_k函数：自动检测结果目录中使用的pass@k评估指标，识别对应的评估文件
calculate_average_scores函数：读取多个评估文件，提取分数并计算统计数据

工具会扫描指定目录下所有"run_"子目录中的"benchmark_results_pass_at__accuracy.txt"文件，自动识别评估指标k值，然后读取各次运行的准确率分数，计算平均值、标准差、最小值和最大值等关键统计数据。

快速使用步骤

准备工作

首先确保已克隆MiroThinker项目：

git clone https://gitcode.com/GitHub_Trending/mi/MiroThinker

基本使用命令

在项目根目录下，使用以下命令运行工具：

python apps/miroflow-agent/benchmarks/evaluators/calculate_average_score.py <results_directory>

例如，分析GAIA验证集的评估结果：

python apps/miroflow-agent/benchmarks/evaluators/calculate_average_score.py logs/gaia-validation/mytest

输出结果说明

工具会生成详细的统计结果，包括：

检测到的pass@k评估指标
运行次数和各次运行分数
平均分数、标准差、最低分和最高分

结果会同时显示在控制台并保存到结果目录下的"average_scores_pass_at_*.txt"文件中。

实际应用场景

模型优化评估

在对MiroThinker模型进行优化后，可以通过多次运行评估任务，然后使用该工具计算平均分数，更准确地判断优化效果是否显著。

不同配置对比

当测试不同的模型配置（如mirothinker_v1.0.yaml和mirothinker_v1.5.yaml）时，该工具可以帮助快速比较不同配置下的平均性能差异。

稳定性测试

通过多次运行相同配置，使用该工具分析分数的标准差，可以评估模型在特定任务上的稳定性表现。

常见问题解决

找不到评估文件

如果工具提示"No accuracy files found"，请检查：

结果目录路径是否正确
评估结果文件是否按照"benchmark_results_pass_at_*_accuracy.txt"格式命名
是否有"run_*"子目录包含评估结果

分数提取错误

若出现分数读取错误，可能是评估文件格式不符合预期。确保文件内容为纯数字加百分号的格式（如"85.67%"）。

总结

calculate_average_score.py作为MiroThinker项目的重要评估工具，为开发者提供了便捷的批量评估结果分析能力。通过自动检测评估指标、计算关键统计数据，帮助开发者更科学地评估模型性能，为模型优化和配置调整提供数据支持。无论是模型开发初期的性能验证，还是持续优化过程中的效果评估，该工具都能发挥重要作用。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动