闵式距离: 机器学习中的数学
闵式距离(Minkowski Distance),也称为闵可夫斯基距离,是度量空间中的一种距离定义方式,它是欧几里得几何中的距离概念的一种推广。在n维空间中,两点Pp1p2pnPp1p2pn和Qq1q2qnQq1q2qndpPQ∑i1n∣pi−qi∣p1pdpPQi1∑n∣pi−qi∣p1/p其中参数ppp是一个实数,且p≥1。
1. 闵式距离
基本定义
闵式距离(Minkowski Distance),也称为闵可夫斯基距离,是度量空间中的一种距离定义方式,它是欧几里得几何中的距离概念的一种推广。
在n维空间中,两点P(p1,p2,…,pn)P(p_1, p_2, \ldots, p_n)P(p1,p2,…,pn)和Q(q1,q2,…,qn)Q(q_1, q_2, \ldots, q_n)Q(q1,q2,…,qn)之间的闵式距离定义为:
dp(P,Q)=(∑i=1n∣pi−qi∣p)1/pd_p(P, Q) = \left(\sum_{i=1}^{n}|p_i - q_i|^p\right)^{1/p}dp(P,Q)=(i=1∑n∣pi−qi∣p)1/p
其中参数ppp是一个实数,且p≥1p \geq 1p≥1。
特殊情况
闵式距离包含了几种常用距离度量作为其特例:
-
当p=1p = 1p=1时:得到曼哈顿距离(Manhattan Distance) d1(P,Q)=∑i=1n∣pi−qi∣d_1(P, Q) = \sum_{i=1}^{n}|p_i - q_i|d1(P,Q)=i=1∑n∣pi−qi∣
-
当p=2p = 2p=2时:得到欧几里得距离(Euclidean Distance) d2(P,Q)=∑i=1n(pi−qi)2d_2(P, Q) = \sqrt{\sum_{i=1}^{n}(p_i - q_i)^2}d2(P,Q)=i=1∑n(pi−qi)2
-
当p→∞p \to \inftyp→∞时:得到切比雪夫距离(Chebyshev Distance) d∞(P,Q)=maxi=1n∣pi−qi∣d_\infty(P, Q) = \max_{i=1}^{n}|p_i - q_i|d∞(P,Q)=i=1maxn∣pi−qi∣
数学性质
-
非负性:对于任意两点PPP和QQQ,dp(P,Q)≥0d_p(P, Q) \geq 0dp(P,Q)≥0,当且仅当P=QP = QP=Q时,dp(P,Q)=0d_p(P, Q) = 0dp(P,Q)=0
-
对称性:对于任意两点PPP和QQQ,dp(P,Q)=dp(Q,P)d_p(P, Q) = d_p(Q, P)dp(P,Q)=dp(Q,P)
-
三角不等式:对于任意三点PPP、QQQ和RRR,dp(P,R)≤dp(P,Q)+dp(Q,R)d_p(P, R) \leq d_p(P, Q) + d_p(Q, R)dp(P,R)≤dp(P,Q)+dp(Q,R)
-
不等式关系:对于固定的两点,当ppp增大时,对应的距离值减小或保持不变,即如果p1<p2p_1 < p_2p1<p2,则dp1(P,Q)≥dp2(P,Q)d_{p_1}(P, Q) \geq d_{p_2}(P, Q)dp1(P,Q)≥dp2(P,Q)
-
尺度不变性:所有闵式距离对数据点的均匀缩放都是不变的
几何解释与等距线
在二维空间中,不同ppp值对应的等距线形状各不相同:
- p=1p = 1p=1:等距线是菱形
- p=2p = 2p=2:等距线是圆形
- p→∞p \to \inftyp→∞:等距线是正方形
- 1<p<21 < p < 21<p<2:等距线介于菱形和圆形之间
- 2<p<∞2 < p < \infty2<p<∞:等距线介于圆形和正方形之间
随着ppp的增加,等距线形状从菱形逐渐过渡到圆形,再到正方形。
p<1p < 1p<1的情况
当0<p<10 < p < 10<p<1时,闵式距离公式仍可计算,但此时得到的不满足三角不等式,不是真正的距离度量。这种情况下得到的是"拟距离"(quasi-metric)。
应用场景
-
数据挖掘与机器学习:在特征空间中衡量样本间的相似度
-
聚类分析:不同的ppp值适合不同形状的聚类
-
最近邻搜索:根据数据特性选择合适的ppp值可提高搜索精度
-
图像处理:用于图像相似度比较和模式识别
-
异常检测:识别多维数据中的异常点
参数ppp的选择
选择合适的ppp值通常取决于:
-
数据分布:根据数据点分布特性选择合适的距离度量
-
特征相关性:特征间相关性强弱影响最佳ppp值的选择
-
计算复杂度:较大的ppp值计算量更大
-
应用需求:不同应用场景可能需要不同的距离度量
计算示例
考虑二维空间中的点A(1,2)A(1, 2)A(1,2)和B(5,6)B(5, 6)B(5,6),计算不同ppp值的闵式距离:
-
曼哈顿距离(p=1p = 1p=1): d1(A,B)=∣1−5∣+∣2−6∣=4+4=8d_1(A, B) = |1 - 5| + |2 - 6| = 4 + 4 = 8d1(A,B)=∣1−5∣+∣2−6∣=4+4=8
-
欧几里得距离(p=2p = 2p=2): d2(A,B)=(1−5)2+(2−6)2=16+16=32≈5.66d_2(A, B) = \sqrt{(1 - 5)^2 + (2 - 6)^2} = \sqrt{16 + 16} = \sqrt{32} \approx 5.66d2(A,B)=(1−5)2+(2−6)2=16+16=32≈5.66
-
p=3p = 3p=3的闵式距离: d3(A,B)=∣1−5∣3+∣2−6∣33=64+643=1283≈5.04d_3(A, B) = \sqrt[3]{|1 - 5|^3 + |2 - 6|^3} = \sqrt[3]{64 + 64} = \sqrt[3]{128} \approx 5.04d3(A,B)=3∣1−5∣3+∣2−6∣3=364+64=3128≈5.04
-
切比雪夫距离(p→∞p \to \inftyp→∞): d∞(A,B)=max(∣1−5∣,∣2−6∣)=4d_\infty(A, B) = \max(|1 - 5|, |2 - 6|) = 4d∞(A,B)=max(∣1−5∣,∣2−6∣)=4
高维空间中的特性
在高维空间中,闵式距离表现出一些特殊性质:
-
维度灾难:随着维度增加,点之间的距离趋于均匀化
-
ppp值影响:高维空间中,不同ppp值的距离度量差异更加明显
-
计算效率:较大的ppp值在高维空间中计算代价更高
闵式距离是距离度量中最通用的形式之一,通过选择不同的参数ppp,可以适应各种不同的应用场景和数据特性。
更多推荐


所有评论(0)