机器学习模型评估：准确率、精确率、召回率到底怎么选？

文章围绕机器学习模型评估中准确率、精确率、召回率及 F1 值展开。介绍指标含义、计算方法与代码实现，指出准确率用于样本均衡场景，精确率控假正例，召回率找正类样本，F1 值兼顾二者。不同场景应选合适指标，合理选择能准确评估模型性能，助于选出契合实际需求的模型。

learnerAi

1078人浏览 · 2026-01-16 14:12:59

learnerAi · 2026-01-16 14:12:59 发布

在进行机器学习模型训练时，我们需要对模型的性能进行评估，以确定其是否有效且满足实际需求。准确率（Accuracy）、精确率（Precision）和召回率（Recall）是机器学习模型评估中常用的指标。然而，在不同的场景下，我们应该如何选择合适的评估指标呢？本文将深入探讨这三个指标的含义、计算方法以及适用场景。

The image

基本概念

在详细介绍准确率、精确率和召回率之前，我们需要先了解一些基本概念。在二分类问题中，我们通常会有以下四种情况：

真正例（True Positive，TP）：模型预测为正类，实际也为正类的样本数量。
假正例（False Positive，FP）：模型预测为正类，实际为负类的样本数量。
真反例（True Negative，TN）：模型预测为负类，实际也为负类的样本数量。
假反例（False Negative，FN）：模型预测为负类，实际为正类的样本数量。

这些概念可以用一个混淆矩阵（Confusion Matrix）来表示，如下所示：

	预测正类	预测负类
实际正类	TP	FN
实际负类	FP	TN

准确率（Accuracy）

定义与计算方法

准确率是指模型预测正确的样本数占总样本数的比例，其计算公式为：
[ Accuracy = frac{TP + TN}{TP + TN + FP + FN} ]

准确率是最直观的评估指标，它反映了模型整体的预测正确性。

代码实现

以下是使用Python和Scikit-learn库计算准确率的示例代码：

from sklearn.metrics import accuracy_score
import numpy as np

# 真实标签
y_true = np.array([1, 0, 1, 0, 1])
# 预测标签
y_pred = np.array([1, 1, 1, 0, 1])

# 计算准确率
accuracy = accuracy_score(y_true, y_pred)
print(f"准确率: {accuracy}")

适用场景

准确率适用于样本分布较为均衡的情况，即正类和负类样本数量大致相等。在这种情况下，准确率能够很好地反映模型的整体性能。然而，当样本分布不均衡时，准确率可能会产生误导。例如，在一个疾病诊断的问题中，大部分人是健康的（负类），只有少数人患病（正类）。如果模型简单地将所有样本都预测为负类，那么准确率可能会很高，但这显然不是一个好的模型。

精确率（Precision）

定义与计算方法

精确率是指模型预测为正类的样本中，实际为正类的样本比例，其计算公式为：
[ Precision = frac{TP}{TP + FP} ]

精确率衡量了模型预测为正类的可靠性。

代码实现

以下是使用Python和Scikit-learn库计算精确率的示例代码：

from sklearn.metrics import precision_score
import numpy as np

# 真实标签
y_true = np.array([1, 0, 1, 0, 1])
# 预测标签
y_pred = np.array([1, 1, 1, 0, 1])

# 计算精确率
precision = precision_score(y_true, y_pred)
print(f"精确率: {precision}")

适用场景

精确率适用于需要严格控制假正例的场景。例如，在垃圾邮件过滤系统中，我们希望尽可能减少将正常邮件误判为垃圾邮件的情况（即降低假正例）。此时，精确率是一个重要的评估指标，因为它反映了模型预测为垃圾邮件的可靠性。

召回率（Recall）

定义与计算方法

召回率是指实际为正类的样本中，被模型正确预测为正类的样本比例，其计算公式为：
[ Recall = frac{TP}{TP + FN} ]

召回率衡量了模型找到所有正类样本的能力。

代码实现

以下是使用Python和Scikit-learn库计算召回率的示例代码：

from sklearn.metrics import recall_score
import numpy as np

# 真实标签
y_true = np.array([1, 0, 1, 0, 1])
# 预测标签
y_pred = np.array([1, 1, 1, 0, 1])

# 计算召回率
recall = recall_score(y_true, y_pred)
print(f"召回率: {recall}")

适用场景

召回率适用于需要尽可能找到所有正类样本的场景。例如，在疾病诊断中，我们希望尽可能不漏掉患病的人（即降低假反例）。此时，召回率是一个重要的评估指标，因为它反映了模型检测出患病样本的能力。

F1值

定义与计算方法

由于精确率和召回率往往是相互矛盾的，提高精确率可能会降低召回率，反之亦然。为了综合考虑这两个指标，我们可以使用F1值。F1值是精确率和召回率的调和平均数，其计算公式为：
[ F1 = 2 imes frac{Precision imes Recall}{Precision + Recall} ]

F1值越高，说明模型在精确率和召回率之间的平衡越好。

代码实现

以下是使用Python和Scikit-learn库计算F1值的示例代码：

from sklearn.metrics import f1_score
import numpy as np

# 真实标签
y_true = np.array([1, 0, 1, 0, 1])
# 预测标签
y_pred = np.array([1, 1, 1, 0, 1])

# 计算F1值
f1 = f1_score(y_true, y_pred)
print(f"F1值: {f1}")

适用场景

F1值适用于需要同时考虑精确率和召回率的场景。当我们对假正例和假反例都有一定的要求时，F1值可以作为一个综合的评估指标。

不同场景下的指标选择

为了更直观地了解在不同场景下应该如何选择评估指标，我们可以通过以下表格进行总结：

场景	关注点	适用指标
样本分布均衡	整体预测正确性	准确率
严格控制假正例	预测为正类的可靠性	精确率
尽可能找到所有正类样本	检测正类样本的能力	召回率
同时考虑精确率和召回率	精确率和召回率的平衡	F1值

总结

在机器学习模型评估中，准确率、精确率、召回率和F1值是常用的评估指标。我们需要根据具体的应用场景和需求来选择合适的指标。当样本分布均衡时，准确率可以作为一个简单直观的评估指标；当需要控制假正例时，精确率更为重要；当需要找到所有正类样本时，召回率是关键；而当需要综合考虑精确率和召回率时，F1值是一个不错的选择。通过合理选择评估指标，我们可以更准确地评估模型的性能，从而选择出最适合实际需求的模型。

希望本文能够帮助你更好地理解机器学习模型评估中准确率、精确率、召回率的选择问题。在实际应用中，你可以根据具体情况灵活运用这些指标，以获得更准确的模型评估结果。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

CNSH通用翻译引擎 | 全语言互译+AI鉴定+来源追溯

《CNSH通用翻译引擎v1.0》摘要：该神经网络式翻译系统采用类脑架构设计，核心包含智能路由中枢（决策前额叶）和模块神经网络。具备多语言互译、AI伪代码识别、代码溯源三大功能，支持动态路径调整和双向反馈学习。系统通过特征感知、智能路由、并行处理实现高效翻译，并采用DNA追溯和三色审计确保可靠性。相比传统流水线架构，新设计具有神经网络的自适应优势，各模块可互相激活协作，实现更接近人类思维的翻译过程。