聚类

内容来自于《机器学习》

性能度量

聚类性能度量亦称为有效性指标（validity index）。

聚类性能度量大致有两类。一类是将聚类结果与某个参考模型进行比较，成为外部指标，另一类是直接考察聚类结果而不利用任何参考模型，称为内部指标。

聚类性能度量外部指标：

上述性能度量的结果值均在[0,1]区间，值越大越好。

聚类性能度量内部指标：

DB指数（Davies-Bouldin Index,DBI）:

Dunn指数（Dunn Index,DI）:

DBI值越小越好，DI越大越好

对函数dist(.,.)，若是一个距离度量，需要满足基本性质：

闵可夫斯基距离（Minkowski distance）:

连续属性和离散属性

有序属性和无序属性

原型聚类亦称为基于原型的聚类（prototype-based clustering）。此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用。

k均值 k-means算法：

学习向量量化 Learning Vector Quantization, LVQ：试图找到一组原型向量来刻画聚类结构，但与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程利用养着的这些监督信息来辅助聚类。

高斯混合聚类：采用概率模型来表达聚类原型。

基于密度的聚类 density-based clustering,此类算法假设聚类结构能通过样本分布的紧密程度确定。

DBSCAN是一种著名的密度聚类算法，基于一组邻域参数刻画样本分布的紧密程度。

层次聚类 hierarchical clustering 试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可采用自底向上的聚合策略，也可采用自顶向下的分拆策略。

AGNES是一种采用自底向上聚合策略的层次聚类算法。