1. 闵式距离

基本定义

闵式距离(Minkowski Distance),也称为闵可夫斯基距离,是度量空间中的一种距离定义方式,它是欧几里得几何中的距离概念的一种推广。

在n维空间中,两点P(p1,p2,…,pn)P(p_1, p_2, \ldots, p_n)P(p1,p2,,pn)Q(q1,q2,…,qn)Q(q_1, q_2, \ldots, q_n)Q(q1,q2,,qn)之间的闵式距离定义为:

dp(P,Q)=(∑i=1n∣pi−qi∣p)1/pd_p(P, Q) = \left(\sum_{i=1}^{n}|p_i - q_i|^p\right)^{1/p}dp(P,Q)=(i=1npiqip)1/p

其中参数ppp是一个实数,且p≥1p \geq 1p1

特殊情况

闵式距离包含了几种常用距离度量作为其特例:

  1. p=1p = 1p=1:得到曼哈顿距离(Manhattan Distance) d1(P,Q)=∑i=1n∣pi−qi∣d_1(P, Q) = \sum_{i=1}^{n}|p_i - q_i|d1(P,Q)=i=1npiqi

  2. p=2p = 2p=2:得到欧几里得距离(Euclidean Distance) d2(P,Q)=∑i=1n(pi−qi)2d_2(P, Q) = \sqrt{\sum_{i=1}^{n}(p_i - q_i)^2}d2(P,Q)=i=1n(piqi)2

  3. p→∞p \to \inftyp:得到切比雪夫距离(Chebyshev Distance) d∞(P,Q)=max⁡i=1n∣pi−qi∣d_\infty(P, Q) = \max_{i=1}^{n}|p_i - q_i|d(P,Q)=i=1maxnpiqi

数学性质

  1. 非负性:对于任意两点PPPQQQdp(P,Q)≥0d_p(P, Q) \geq 0dp(P,Q)0,当且仅当P=QP = QP=Q时,dp(P,Q)=0d_p(P, Q) = 0dp(P,Q)=0

  2. 对称性:对于任意两点PPPQQQdp(P,Q)=dp(Q,P)d_p(P, Q) = d_p(Q, P)dp(P,Q)=dp(Q,P)

  3. 三角不等式:对于任意三点PPPQQQRRRdp(P,R)≤dp(P,Q)+dp(Q,R)d_p(P, R) \leq d_p(P, Q) + d_p(Q, R)dp(P,R)dp(P,Q)+dp(Q,R)

  4. 不等式关系:对于固定的两点,当ppp增大时,对应的距离值减小或保持不变,即如果p1<p2p_1 < p_2p1<p2,则dp1(P,Q)≥dp2(P,Q)d_{p_1}(P, Q) \geq d_{p_2}(P, Q)dp1(P,Q)dp2(P,Q)

  5. 尺度不变性:所有闵式距离对数据点的均匀缩放都是不变的

几何解释与等距线

在二维空间中,不同ppp值对应的等距线形状各不相同:

  • p=1p = 1p=1:等距线是菱形
  • p=2p = 2p=2:等距线是圆形
  • p→∞p \to \inftyp:等距线是正方形
  • 1<p<21 < p < 21<p<2:等距线介于菱形和圆形之间
  • 2<p<∞2 < p < \infty2<p<:等距线介于圆形和正方形之间

随着ppp的增加,等距线形状从菱形逐渐过渡到圆形,再到正方形。

p<1p < 1p<1的情况

0<p<10 < p < 10<p<1时,闵式距离公式仍可计算,但此时得到的不满足三角不等式,不是真正的距离度量。这种情况下得到的是"拟距离"(quasi-metric)。

应用场景

  1. 数据挖掘与机器学习:在特征空间中衡量样本间的相似度

  2. 聚类分析:不同的ppp值适合不同形状的聚类

  3. 最近邻搜索:根据数据特性选择合适的ppp值可提高搜索精度

  4. 图像处理:用于图像相似度比较和模式识别

  5. 异常检测:识别多维数据中的异常点

参数ppp的选择

选择合适的ppp值通常取决于:

  1. 数据分布:根据数据点分布特性选择合适的距离度量

  2. 特征相关性:特征间相关性强弱影响最佳ppp值的选择

  3. 计算复杂度:较大的ppp值计算量更大

  4. 应用需求:不同应用场景可能需要不同的距离度量

计算示例

考虑二维空间中的点A(1,2)A(1, 2)A(1,2)B(5,6)B(5, 6)B(5,6),计算不同ppp值的闵式距离:

  1. 曼哈顿距离p=1p = 1p=1): d1(A,B)=∣1−5∣+∣2−6∣=4+4=8d_1(A, B) = |1 - 5| + |2 - 6| = 4 + 4 = 8d1(A,B)=∣15∣+∣26∣=4+4=8

  2. 欧几里得距离p=2p = 2p=2): d2(A,B)=(1−5)2+(2−6)2=16+16=32≈5.66d_2(A, B) = \sqrt{(1 - 5)^2 + (2 - 6)^2} = \sqrt{16 + 16} = \sqrt{32} \approx 5.66d2(A,B)=(15)2+(26)2 =16+16 =32 5.66

  3. p=3p = 3p=3的闵式距离d3(A,B)=∣1−5∣3+∣2−6∣33=64+643=1283≈5.04d_3(A, B) = \sqrt[3]{|1 - 5|^3 + |2 - 6|^3} = \sqrt[3]{64 + 64} = \sqrt[3]{128} \approx 5.04d3(A,B)=3∣153+∣263 =364+64 =3128 5.04

  4. 切比雪夫距离p→∞p \to \inftyp): d∞(A,B)=max⁡(∣1−5∣,∣2−6∣)=4d_\infty(A, B) = \max(|1 - 5|, |2 - 6|) = 4d(A,B)=max(∣15∣,∣26∣)=4

高维空间中的特性

在高维空间中,闵式距离表现出一些特殊性质:

  1. 维度灾难:随着维度增加,点之间的距离趋于均匀化

  2. ppp值影响:高维空间中,不同ppp值的距离度量差异更加明显

  3. 计算效率:较大的ppp值在高维空间中计算代价更高

闵式距离是距离度量中最通用的形式之一,通过选择不同的参数ppp,可以适应各种不同的应用场景和数据特性。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐