Unsupervised Learning And Dimensionality Reduction

内容来自于机器学习课程

Unsupervised Learning introduction

without labels

clustering

最小化点到中心点的距离平方之和

最常见的方法是通过观察图来确定数目

Elbow method，选择不同的k值，画出cost function J的值

根据聚类的目的来确定数目

数据压缩可以减少内存占用空间，还可以加速算法运行

预处理数据：feature scaling/mean normalization

compute covariance matrix

compute eigenvectors of matrix

计算出U之后取前k列，转置，乘以X

近似重构原始的数据

X=Ureduce*X

选择K的值

加速监督学习

PCA可以用于数据压缩：减少所需的内存，加速算法的运行

PCA可以用于可视化，plot 2维或者3维的图

PCA不好的应用：阻止过拟合，应该使用正则化