目录

一:数据降维

二:PCA降维算法

1.概念

2.算法原理:

3.降维流程: 

 4.如何找到方差最大的方向

5.降维公式:

1.协方差和散度矩阵:

 2.特征值分解矩阵原理

3.SVD分解矩阵原理

6.PCA算法的两种实现方法:

1.基于特征值分解协方差矩阵实现PCA算法

2. 基于SVD分解协方差矩阵实现PCA算法

三:LDA线性判别

1.概念:

 2.算法原理:

 3.算法实现:

四:NMF非负矩阵分解

1.概念:

五:LLE局部线性嵌入降维算法

六:总结

都看到这里了就点个赞呗!!!


一:数据降维

降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去 除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定 的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方 法。

数据降维,直观地好处是维度降低了,便于计算和可视化,比如将六维的数据降维到三维,就可以画图了,其更深层次的意义在于有效信息的提取 综合及无用信息的摈弃。

降维的优点:

1.减少所需的存储空间

2. 加快计算速度(例如在机器学习算法中),更少的维数意味着更少的计算,并且更少的维数 可以允许使用不适合大量维数的算法

3.去除冗余特征,例如在以平方米和平方公里在存储地形尺寸方面,两者一起用没有意义(数 据收集有缺陷)。

4. 将数据的维数降低到2D或3D可以允许我们绘制和可视化它,可能观察模式,给我们提供 直观感受

5. 太多的特征或太复杂的模型可以导致过拟合。

6. 较简单的模型在小数据集上有更强的鲁棒性

二:PCA降维算法

1.概念

PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法。它不 仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。PCA把原先 的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方 差,尽量使新的m个特征互不相关。

2.算法原理:

PCA方法通过消除数据的相关性,找到一个空间,使得各个类别的数据在该空间上能够很好地分 离。在下图中,有一些离散的二维分布点,其中棕色表示一类集合,黄色表示另一类集合,假设这 两个类别可以用特征X和特征Y进行描述,由图可知,在X轴和Y轴上这两个类别的投影是重叠的,表 明这些点的两个特征X和Y没有表现出突出的识别性。但是两个类的投影在Z轴上区分度较大,显示 出很好的识别性。PCA就是这样的一个工具,它可以产生非常好的降维效果。

3.降维流程: 

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。 PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维 特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的 坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方 差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是 与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得 的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎 为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这 相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特 征的降维处理。

 4.如何找到方差最大的方向

这里要用到概率论中的协方差矩阵,和线性代数中的特征值和特征向量。通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差 最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现 数据特征的降维。 由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩 阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方 差矩阵实现PCA算法。

5.降维公式:

1.协方差和散度矩阵:

样本平均值:

样本方差 :

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部