DanWang Blog

聚类

内容来自于《机器学习》

性能度量

聚类性能度量亦称为有效性指标(validity index)。

聚类性能度量大致有两类。一类是将聚类结果与某个参考模型进行比较,成为外部指标,另一类是直接考察聚类结果而不利用任何参考模型,称为内部指标。

聚类性能度量外部指标:

上述性能度量的结果值均在[0,1]区间,值越大越好。

聚类性能度量内部指标:

DB指数(Davies-Bouldin Index,DBI):

Dunn指数(Dunn Index,DI):

DBI值越小越好,DI越大越好

距离计算

对函数dist(.,.),若是一个距离度量,需要满足基本性质:

闵可夫斯基距离(Minkowski distance):

连续属性和离散属性

有序属性和无序属性

原型聚类

原型聚类亦称为基于原型的聚类(prototype-based clustering)。此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。

k均值 k-means算法:

学习向量量化 Learning Vector Quantization, LVQ:试图找到一组原型向量来刻画聚类结构,但与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用养着的这些监督信息来辅助聚类。

高斯混合聚类:采用概率模型来表达聚类原型。

密度聚类

基于密度的聚类 density-based clustering,此类算法假设聚类结构能通过样本分布的紧密程度确定。

DBSCAN是一种著名的密度聚类算法,基于一组邻域参数刻画样本分布的紧密程度。

层次聚类

层次聚类 hierarchical clustering 试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用 自底向上的聚合策略,也可采用自顶向下的分拆策略。

AGNES是一种采用自底向上聚合策略的层次聚类算法。