均值与中位数：数据科学中的双面镜——何时选择谁？

本文深入探讨了均值与中位数在数据科学中的应用场景与选择策略。通过对比分析两者的数学特性和抗干扰能力，揭示了在异常值敏感场景下中位数的优势，以及在正态分布中均值的适用性。文章还介绍了截尾均值等混合策略，并探讨了机器学习中的特征工程选择，为数据分析师提供了实用的决策指南。

c6d7e8f9g

887人浏览 · 2026-02-03 18:36:30

c6d7e8f9g · 2026-02-03 18:36:30 发布

均值与中位数：数据科学中的双面镜——何时选择谁？

在数据科学的世界里，均值和中位数就像一对性格迥异的双胞胎。它们都能告诉我们数据的"中心"在哪里，但选择哪一个作为代言人，往往决定了分析的成败。想象一下，当你面对一份包含亿万富翁和普通工薪阶层收入的数据时，用均值来描述"平均收入"可能会得出令人啼笑皆非的结论——这就是为什么理解这对统计指标的本质差异如此重要。

1. 基础概念：揭开均值与中位数的面纱

1.1 均值的数学本质与特性

均值，这个我们在学生时代就熟悉的统计量，实际上是所有数据点的算术平均。它的计算简单直接：将所有数值相加后除以数据点的数量。在数学上表示为：

def calculate_mean(data):
    return sum(data) / len(data)

均值的核心特征在于它对每个数据点都"一视同仁"。这种特性使其在数据分布均匀时表现优异，但也埋下了隐患——极端值会显著影响均值。例如，在一个10人的小公司中，如果9名员工月薪1万元，CEO月薪100万元，平均月薪就变成了：

(9*10,000 + 1*1,000,000)/10 = 109,000元

这个数字显然不能代表大多数员工的真实收入状况。

1.2 中位数的抗干扰能力

中位数采取了完全不同的策略——它不关心具体数值大小，只关注数据的排序位置。找到中间值的过程就像在人群中寻找身高居中的人：

将所有数据按大小排序
如果数据量为奇数，取正中间的值
如果为偶数，取中间两个数的平均值

用Python实现如下：

def calculate_median(data):
    sorted_data = sorted(data)
    n = len(sorted_data)
    mid = n // 2
    return (sorted_data[mid] + sorted_data[~mid]) / 2 if n % 2 == 0 else sorted_data[mid]

在前面的薪资例子中，中位数就是第5和第6个薪资的平均值（假设偶数个员工），完全不受CEO高薪的影响，真实反映了典型员工的收入水平。

2. 实战场景选择指南：何时该用谁？

2.1 异常值敏感场景：中位数胜出

在现实数据分析中，我们经常会遇到这些典型场景：

场景类型	均值适用性	中位数适用性	典型案例
收入分布分析	低	高	贫富差距大的国家GDP分析
电商价格监控	中	高	防止极端低价/高价扭曲市场
网页响应时间	低	高	识别系统性能瓶颈
用户年龄分布	高	高	社群用户画像构建

专业提示：当数据分布呈现明显偏态（Skewness）时，中位数通常是更可靠的选择。可以通过绘制直方图或计算偏度系数（如Pearson系数）来辅助判断。

2.2 正态分布场景：均值的舞台

当数据服从正态分布或近似正态分布时，均值展现出其独特优势：

统计性质优良：均值是最小二乘估计，在正态假设下具有最优性
计算效率高：流式计算友好，适合实时系统
可解释性强：与方差、标准差等指标天然配合

例如，在质量控制中测量零件尺寸，由于制造误差通常呈正态分布，使用均值监控过程中心位置是最佳实践。

# 正态分布数据示例
import numpy as np
normal_data = np.random.normal(loc=100, scale=15, size=1000)
print(f"均值: {np.mean(normal_data):.2f}, 中位数: {np.median(normal_data):.2f}")
# 典型输出：均值: 100.21, 中位数: 100.34

3. 高级应用：超越基础选择

3.1 混合策略：截尾均值

有时我们需要兼顾均值和中位数的优点。截尾均值（Trimmed Mean）就是这样的混合体——去掉一定比例的最大最小值后计算均值。例如10%截尾均值会去掉最高10%和最低10%的数据：

from scipy.stats import trim_mean
data = [1,2,3,4,5,6,7,8,9,100]
print(f"原始均值: {np.mean(data)}, 截尾均值: {trim_mean(data, 0.1)}")
# 输出：原始均值: 14.5, 截尾均值: 5.0

这种方法在数据竞赛（如奥运会评分）和金融数据分析中特别常见。

3.2 分组对比分析

在实际业务分析中，我们经常需要同时考察多个分组的集中趋势。这时组合使用均值和中位数可以揭示更深层次的洞察：

import pandas as pd

# 模拟电商数据
df = pd.DataFrame({
    'category': ['电子']*100 + ['服装']*100,
    'price': np.concatenate([
        np.random.lognormal(3, 0.5, 100),  # 电子产品价格右偏
        np.random.normal(200, 50, 100)     # 服装价格近似正态
    ])
})

# 分组统计
stats = df.groupby('category')['price'].agg(['mean', 'median'])
print(stats)

输出可能显示：电子产品价格均值明显高于中位数（受少数高价商品影响），而服装品类两者接近。

4. 机器学习中的选择艺术

4.1 特征工程中的考量

在构建机器学习模型时，特征处理阶段就需要做出选择：

归一化/标准化：通常基于均值
缺失值填充：根据分布选择均值或中位数
异常值处理：中位数更鲁棒

from sklearn.impute import SimpleImputer

# 对右偏数据使用中位数填充更合理
imputer = SimpleImputer(strategy='median')
X_imputed = imputer.fit_transform(X)

4.2 模型评估指标

某些评估指标本身就隐含了集中趋势的选择：

指标名称	隐含趋势选择	适用场景
MAE	中位数	对异常值敏感的回归问题
RMSE	均值	强调大误差的惩罚
Huber Loss	混合	兼顾鲁棒性和效率

在房价预测项目中，如果特别关注典型房屋的价格准确性（而非极端豪宅），使用基于中位数的评估指标可能更符合业务需求。

数据科学实践中没有放之四海而皆准的规则。有一次分析用户停留时间数据时，我最初机械地使用中位数，后来发现某些异常短的停留时间实际上是页面加载失败导致的，这时正确做法是先清洗数据，再根据清洗后的分布选择合适指标。这个教训让我明白：工具选择前，先要真正理解数据的故事。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动