PyCaret模型评估指标详解：准确率、精确率与F1值

PyCaret是一款开源的低代码机器学习库，它提供了简单易用的接口帮助用户快速构建、评估和部署机器学习模型。在模型开发过程中，选择合适的评估指标至关重要，它能帮助我们客观地衡量模型性能并做出优化决策。本文将详细解析PyCaret中最常用的三大分类评估指标：准确率（Accuracy）、精确率（Precision）和F1值（F1-Score），帮助你轻松掌握模型评估的核心要点。## 为什么模型评估

袁耿浩

985人浏览 · 2026-03-13 01:24:10

袁耿浩 · 2026-03-13 01:24:10 发布

PyCaret模型评估指标详解：准确率、精确率与F1值

【免费下载链接】pycaret An open-source, low-code machine learning library in Python 项目地址: https://gitcode.com/gh_mirrors/py/pycaret

为什么模型评估指标如此重要？

在机器学习项目中，选择正确的评估指标直接影响模型优化方向和最终效果。不同的业务场景需要关注不同的指标：

垃圾邮件检测系统可能更关注精确率（减少正常邮件被误判为垃圾邮件）
疾病诊断模型则需要高召回率（尽量不遗漏患病案例）
而F1值则能在精确率和召回率之间取得平衡

PyCaret在分类模块中内置了完整的评估指标体系，相关实现可以在pycaret/containers/metrics/classification.py中查看。这些指标通过ClassificationMetricContainer类进行统一管理，确保评估过程的标准化和一致性。

图1：PyCaret分类功能界面展示了模型训练和评估的完整流程，指标结果实时可视化

准确率（Accuracy）：最直观的整体表现

准确率的定义与计算

准确率是最基础也最容易理解的评估指标，它表示模型正确预测的样本占总样本的比例：

准确率 = (正确预测的样本数) / (总样本数)

在PyCaret中，准确率通过AccuracyMetricContainer类实现，核心代码如下：

class AccuracyMetricContainer(ClassificationMetricContainer):
    def __init__(self, globals_dict: dict) -> None:
        super().__init__(
            id="acc",
            name="Accuracy",
            score_func=metrics.accuracy_score,
            scorer="accuracy",
        )

准确率的适用场景与局限性

准确率适用于样本分布均衡的场景，例如预测客户是否会购买产品（假设购买和不购买的比例接近）。但在以下情况可能会产生误导：

样本不平衡：当正负样本比例悬殊时（如1%的正样本），模型只需全部预测为负样本就能达到99%的准确率
错误代价不对称：在医疗诊断中，漏诊（假阴性）和误诊（假阳性）的代价差异巨大

如何在PyCaret中查看准确率

在PyCaret分类实验中，准确率会自动计算并显示在模型比较表格中：

from pycaret.classification import *
clf1 = setup(data, target = 'target_column')
compare_models()  # 表格中Accuracy列即为准确率

精确率（Precision）：关注预测结果的可靠性

精确率的定义与计算

精确率（也称为查准率）衡量的是模型预测为正例的样本中，真正为正例的比例：

精确率 = (真正例数) / (真正例数 + 假正例数)

在PyCaret中，精确率的实现位于PrecisionMetricContainer类：

class PrecisionMetricContainer(ClassificationMetricContainer):
    def __init__(self, globals_dict: dict) -> None:
        args = {"average": "weighted"}
        score_func = pycaret.internal.metrics.BinaryMulticlassScoreFunc(
            pycaret.internal.metrics.EncodedDecodedLabelsScoreFunc(
                metrics.precision_score,
                pycaret.internal.metrics.get_pos_label(globals_dict),
            ),
            kwargs_if_binary={"average": "binary"},
        )
        super().__init__(
            id="precision",
            name="Precision",
            display_name="Prec.",
            score_func=score_func,
            scorer=metrics.make_scorer(
                score_func,** args,
            ),
            args=args,
        )

精确率的适用场景

精确率特别适用于以下场景：

垃圾邮件过滤：希望"垃圾邮件"预测结果中尽量少包含正常邮件
推荐系统：确保推荐的内容真正符合用户兴趣
财务欺诈检测：减少对正常交易的误判

精确率与准确率的区别

准确率关注整体预测正确性，而精确率只关注正例预测的可靠性。一个模型可能准确率很高但精确率很低，例如在欺诈检测中：

99%的交易是正常的，模型将所有交易预测为正常，准确率99%
但此时精确率无意义（没有预测为欺诈的样本）

F1值：精确率与召回率的平衡

F1值的定义与计算

F1值是精确率（Precision）和召回率（Recall）的调和平均数，用于综合评价模型性能：

F1值 = 2 * (精确率 * 召回率) / (精确率 + 召回率)

在PyCaret中，F1值通过F1MetricContainer类实现：

class F1MetricContainer(ClassificationMetricContainer):
    def __init__(self, globals_dict: dict) -> None:
        args = {"average": "weighted"}
        score_func = pycaret.internal.metrics.BinaryMulticlassScoreFunc(
            pycaret.internal.metrics.EncodedDecodedLabelsScoreFunc(
                metrics.f1_score, pycaret.internal.metrics.get_pos_label(globals_dict)
            ),
            kwargs_if_binary={"average": "binary"},
        )
        super().__init__(
            id="f1",
            name="F1",
            score_func=score_func,
            scorer=metrics.make_scorer(
                score_func,
                **args,
            ),
            args=args,
        )

F1值的优势与适用场景

F1值的主要优势在于：

在精确率和召回率之间取得平衡
对样本不平衡问题更鲁棒
适合评估二分类和多分类问题

F1值特别适合以下场景：

信息检索：平衡查准率和查全率
罕见事件预测：如自然灾害预警、疾病筛查
任何需要同时关注精确率和召回率的场景

图2：PyCaret时间序列预测功能界面，展示了多指标综合评估结果

如何在PyCaret中选择和使用评估指标

1. 默认评估指标设置

在PyCaret中，你可以在setup()函数中指定评估指标：

clf1 = setup(
    data, 
    target = 'target_column',
    metric = 'F1'  # 指定F1作为主要评估指标
)

2. 自定义评估指标

如果你需要使用自定义指标，可以通过add_metric()函数实现：

from sklearn.metrics import make_scorer, fbeta_score

# 添加F2分数作为评估指标（更重视召回率）
add_metric(
    id = 'f2',
    name = 'F2 Score',
    score_func = make_scorer(fbeta_score, beta=2),
    greater_is_better = True
)

3. 模型评估报告

PyCaret提供了全面的模型评估报告，包括所有关键指标：

# 训练模型
model = create_model('rf')

# 生成详细评估报告
evaluate_model(model)

实战案例：不同指标在PyCaret中的应用对比

假设我们有一个客户流失预测项目，数据集包含10,000个样本，其中2,000个流失客户（正例）和8,000个非流失客户（负例）。我们使用PyCaret比较不同模型在各指标上的表现：

from pycaret.classification import *
import pandas as pd

# 加载数据
data = pd.read_csv('datasets/churn.csv')

# 初始化实验
clf1 = setup(data, target='Churn', session_id=123)

# 比较不同模型
best_model = compare_models(sort='F1')  # 按F1值排序

实验结果可能显示：