闵式距离: 机器学习中的数学

闵式距离（Minkowski Distance），也称为闵可夫斯基距离，是度量空间中的一种距离定义方式，它是欧几里得几何中的距离概念的一种推广。在n维空间中，两点Pp1p2pnPp1p2pn和Qq1q2qnQq1q2qndpPQ∑i1n∣pi−qi∣p1pdpPQi1∑n∣pi−qi∣p1/p其中参数ppp是一个实数，且p≥1。

桥啊 a 啊

1139人浏览 · 2025-03-13 07:12:37

桥啊 a 啊 · 2025-03-13 07:12:37 发布

1. 闵式距离

基本定义

闵式距离（Minkowski Distance），也称为闵可夫斯基距离，是度量空间中的一种距离定义方式，它是欧几里得几何中的距离概念的一种推广。

在n维空间中，两点 $P(p1,p2,…,pn)P(p_1, p_2, \ldots, p_n)$ 和 $Q(q1,q2,…,qn)Q(q_1, q_2, \ldots, q_n)$ 之间的闵式距离定义为：

$dp(P,Q)=(∑i=1n∣pi−qi∣p)1/pd_p(P, Q) = \left(\sum_{i=1}^{n}|p_i - q_i|^p\right)^{1/p}$

其中参数 $p$ 是一个实数，且 $\geq 1$ 。

特殊情况

闵式距离包含了几种常用距离度量作为其特例：

当 $p = 1$ 时：得到曼哈顿距离（Manhattan Distance） $d1(P,Q)=∑i=1n∣pi−qi∣d_1(P, Q) = \sum_{i=1}^{n}|p_i - q_i|$
当 $p = 2$ 时：得到欧几里得距离（Euclidean Distance） $d2(P,Q)=∑i=1n(pi−qi)2d_2(P, Q) = \sqrt{\sum_{i=1}^{n}(p_i - q_i)^2}$
当 $\to \infty$ 时：得到切比雪夫距离（Chebyshev Distance） $d∞(P,Q)=max⁡i=1n∣pi−qi∣d_\infty(P, Q) = \max_{i=1}^{n}|p_i - q_i|$

数学性质

非负性：对于任意两点 $P$ 和 $Q$ ， $dp(P,Q)≥0d_p(P, Q) \geq 0$ ，当且仅当 $P = Q$ 时， $d_p(P, Q) = 0$
对称性：对于任意两点 $P$ 和 $Q$ ， $d_p(P, Q) = d_p(Q, P)$
三角不等式：对于任意三点 $P$ 、 $Q$ 和 $R$ ， $dp(P,R)≤dp(P,Q)+dp(Q,R)d_p(P, R) \leq d_p(P, Q) + d_p(Q, R)$
不等式关系：对于固定的两点，当 $p$ 增大时，对应的距离值减小或保持不变，即如果 $p_1 < p_2$ ，则 $dp1(P,Q)≥dp2(P,Q)d_{p_1}(P, Q) \geq d_{p_2}(P, Q)$
尺度不变性：所有闵式距离对数据点的均匀缩放都是不变的

几何解释与等距线

在二维空间中，不同 $p$ 值对应的等距线形状各不相同：

$p = 1$ ：等距线是菱形
$p = 2$ ：等距线是圆形
$\to \infty$ ：等距线是正方形
$1 < p < 2$ ：等距线介于菱形和圆形之间
$\infty$ ：等距线介于圆形和正方形之间

随着 $p$ 的增加，等距线形状从菱形逐渐过渡到圆形，再到正方形。

$p < 1$ 的情况

当 $0 < p < 1$ 时，闵式距离公式仍可计算，但此时得到的不满足三角不等式，不是真正的距离度量。这种情况下得到的是"拟距离"（quasi-metric）。

应用场景

数据挖掘与机器学习：在特征空间中衡量样本间的相似度
聚类分析：不同的 $p$ 值适合不同形状的聚类
最近邻搜索：根据数据特性选择合适的 $p$ 值可提高搜索精度
图像处理：用于图像相似度比较和模式识别
异常检测：识别多维数据中的异常点

参数 $p$ 的选择

选择合适的 $p$ 值通常取决于：

数据分布：根据数据点分布特性选择合适的距离度量
特征相关性：特征间相关性强弱影响最佳 $p$ 值的选择
计算复杂度：较大的 $p$ 值计算量更大
应用需求：不同应用场景可能需要不同的距离度量

计算示例

考虑二维空间中的点 $A (1, 2)$ 和 $B (5, 6)$ ，计算不同 $p$ 值的闵式距离：

曼哈顿距离（ $p = 1$ ）： $d_1(A, B) = |1 - 5| + |2 - 6| = 4 + 4 = 8$
欧几里得距离（ $p = 2$ ）： $d2(A,B)=(1−5)2+(2−6)2=16+16=32≈5.66d_2(A, B) = \sqrt{(1 - 5)^2 + (2 - 6)^2} = \sqrt{16 + 16} = \sqrt{32} \approx 5.66$
$p = 3$ 的闵式距离： $d3(A,B)=∣1−5∣3+∣2−6∣33=64+643=1283≈5.04d_3(A, B) = \sqrt[3]{|1 - 5|^3 + |2 - 6|^3} = \sqrt[3]{64 + 64} = \sqrt[3]{128} \approx 5.04$
切比雪夫距离（ $\to \infty$ ）： $d∞(A,B)=max⁡(∣1−5∣,∣2−6∣)=4d_\infty(A, B) = \max(|1 - 5|, |2 - 6|) = 4$