距离判别

分类:数据集带标签
聚类:无标签数据集

1 欧氏距离与马氏距离

定义:距离判别

  • 判别分析:根据样品的观察值判定归属。
  • 距离判别原理:对距离进行规定,就近原则判定样品的归属。

定义:欧氏距离

$$
d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}\
=\sqrt{(x-y)’(x-y)}
$$

缺点:指标的量纲不同,意义不同。距离会因各个指标单位的变化而改变

定义:马氏距离

  • 声明
    $$
    p元总体G的均值\mu和协方差矩阵\Sigma(\Sigma>0)\
    x,y是取自G的两个样本
    $$
  • 结论
    $$
    马氏距离d(x,y)=\sqrt{(x-y)’\Sigma^{-1}(x-y)}
    $$

    马氏距离与欧氏距离只相差一个协方差矩阵。具体原理的理解放到第二轮复习当中。

性质

  1. 非负性:$d(x,y)\geq 0,当且仅当x=y时,d(x,y)=0$
  2. 自反性:$d(x,y)=d(y,x)$
  3. 三角不等式:对任意的$x,y,z$,有$d(x,z)\leqd(x,y)+d(y,z)$

特点

  1. 当$\Sigma = I_p$时,即总体x的各项指标相互独立且方差相同时,马氏距离为欧氏距离。
  2. 马氏距离是将x和y标准化后的欧氏距离。
    $$
    x^=\Sigma^{-\frac{1}{2}}(x-\mu)\
    y^
    =\Sigma^{-\frac{1}{2}}(y-\mu)
    $$
  3. 马氏距离不受变量的两杠变化的影响,是一个无量纲的量。

2 两个总体的距离

定理:距离判别

$$
\omega(x)=d^2(x,G_2)-d^2(x,G_1)\
\omega(x)=a’(x-\overline{\mu})\
$$
几何意义:用p-1维平面将p维超平面分割成两部分。两个p维空间分别代表$G_1,G_2$

分类步骤

  • 使用样本估计参数
    $$
    \hat{\mu}=\overline{x}\
    \hat{\Sigma}=\frac{1}{n-1}S
    $$
  • 定义判别函数
    $$
    \omega(x)=a’(x-\overline{\mu})
    $$
  • 带入判别分析
  • 评价判别效果

判别的优劣-回报法

使用训练集检验判别的优劣。

判别的优劣-交叉验证法

将带标签的数据分为两部分,训练集和测试集。分成多份。分别计算f。

判别的优劣-刀切法

轮流剔除,得到多个模型,用被剔除的数据进行检验。统计误判率。

3 多个总体的距离

判别方法

$$
d^2(x,G_i)=(x-\mu_i)’\Sigma_i^{-1}(x-\mu_i)\
d^2(x,G_l)=min_{1\leq i\leq m}d^2(x,G_i)
$$