第23节 距离判别
距离判别
分类:数据集带标签
聚类:无标签数据集
1 欧氏距离与马氏距离
定义:距离判别
- 判别分析:根据样品的观察值判定归属。
- 距离判别原理:对距离进行规定,就近原则判定样品的归属。
定义:欧氏距离
$$
d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}\
=\sqrt{(x-y)’(x-y)}
$$
缺点:指标的量纲不同,意义不同。距离会因各个指标单位的变化而改变
定义:马氏距离
- 声明
$$
p元总体G的均值\mu和协方差矩阵\Sigma(\Sigma>0)\
x,y是取自G的两个样本
$$ - 结论
$$
马氏距离d(x,y)=\sqrt{(x-y)’\Sigma^{-1}(x-y)}
$$马氏距离与欧氏距离只相差一个协方差矩阵。具体原理的理解放到第二轮复习当中。
性质
- 非负性:$d(x,y)\geq 0,当且仅当x=y时,d(x,y)=0$
- 自反性:$d(x,y)=d(y,x)$
- 三角不等式:对任意的$x,y,z$,有$d(x,z)\leqd(x,y)+d(y,z)$
特点
- 当$\Sigma = I_p$时,即总体x的各项指标相互独立且方差相同时,马氏距离为欧氏距离。
- 马氏距离是将x和y标准化后的欧氏距离。
$$
x^=\Sigma^{-\frac{1}{2}}(x-\mu)\
y^=\Sigma^{-\frac{1}{2}}(y-\mu)
$$ - 马氏距离不受变量的两杠变化的影响,是一个无量纲的量。
2 两个总体的距离
定理:距离判别
$$
\omega(x)=d^2(x,G_2)-d^2(x,G_1)\
\omega(x)=a’(x-\overline{\mu})\
$$
几何意义:用p-1维平面将p维超平面分割成两部分。两个p维空间分别代表$G_1,G_2$
分类步骤
- 使用样本估计参数
$$
\hat{\mu}=\overline{x}\
\hat{\Sigma}=\frac{1}{n-1}S
$$ - 定义判别函数
$$
\omega(x)=a’(x-\overline{\mu})
$$ - 带入判别分析
- 评价判别效果
判别的优劣-回报法
使用训练集检验判别的优劣。
判别的优劣-交叉验证法
将带标签的数据分为两部分,训练集和测试集。分成多份。分别计算f。
判别的优劣-刀切法
轮流剔除,得到多个模型,用被剔除的数据进行检验。统计误判率。
3 多个总体的距离
判别方法
$$
d^2(x,G_i)=(x-\mu_i)’\Sigma_i^{-1}(x-\mu_i)\
d^2(x,G_l)=min_{1\leq i\leq m}d^2(x,G_i)
$$
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Estom的博客!




