# 聚类

## 第9章 聚类

* Page197: 有效性指标

  聚类性能度量，即评估其好坏的性能度量。聚类性能度量分为两类，外部指标和内部指标。
* Page199: 距离度量

  用于衡量点和点之间的距离，常用的有欧氏、曼哈顿、切比雪夫。最常用的是闵可夫斯基距离：\
  $$dist\_{mk}(x\_i,x\_j)={\left( \sum\_{u=1}^{n}\left|x\_{iu}-x\_{ju} \right|^p\right)}^{\frac{1}{p}}$$
* Page200: 街区距离

  闵可夫斯基距离$$p=1$$时即曼哈顿距离，又称街区距离: $$dist\_{man}(x\_i,x\_j)={\parallel x\_i-x\_j\parallel }*{1} =\sum*{u=1}^{n}\left|x\_{iu}-x\_{ju} \right|$$
* Page200: 离散属性

  定义域上有限个取值，比如{西瓜，哈密瓜，木瓜}。
* Page200: 连续属性

  定义域上可以取无限个取值，如实数。
* Page200: 列名属性

  “离散属性”也称“列名属性”，见“离散属性”。
* Page200: 曼哈顿距离

  同“街区距离”。
* Page200: 闵可夫斯基距离(220)

  见“距离度量”。
* Page200: 欧氏距离

  闵可夫斯基距离$$p=2$$时即欧氏距离：\
  $$dist\_{ed}(x\_i,x\_j)={\parallel x\_i-x\_j\parallel }*{2} =\sqrt{\sum*{u=1}^{n}\left|x\_{iu}-x\_{ju} \right|^2}$$
* Page200: 切比雪夫距离

  闵可夫斯基距离当$$p\rightarrow \infty$$时即切比雪夫距离。
* Page200: 数值属性

  见“连续属性”。
* Page200: 无序属性

  不能直接在属性值上计算距离。
* Page200: 有序属性

  可以直接在属性值上计算距离。
* Page201: 非度量距离

  不满足直递性的距离。
* Page201: 混合属性

  存在有序属性和无序属性。
* Page201: 加权距离

  即给每个距离加权重。
* Page201: 相似度度量

  对两个事物之间相似程度的综合性度量。
* Page201: 距离度量学习(237)

  度量学习（Metric Learning）是常说的相似度学习，距离度量学习则是选定距离计算式来进行度量。
* Page202: 原型聚类

  基于原型的聚类，著名的几种方法包括k均值算法、学习向量量化和高斯混合聚类等。
* Page202: k均值算法(218)

  针对聚类所得的簇，同类样本的最小均方误差。
* Page204: LVQ(218)

  见下
* Page204: 学习向量化(Learning Vector Quantization, LVQ)

  指通过找到一组原型向量来刻画聚类结构，每个原型向量代表一个聚类簇。
* Page206: 概率模型(319)

  概率模型是将学习归结为计算变量的概率分布的一种描述。
* Page206: 高斯混合(296)

  高斯混合是用高斯概率密度函数去量化，将变量/事物分解为若干个高斯密度函数的模型。
* Page211: 密度聚类

  基于密度的聚类，即是通过事物的紧密程度去聚类。如DBSCAN算法。
* Page214: 层次聚类

  通过不同层次对数据集进行划分，得到的是树形聚类结构。可采用“自顶向下”的分拆策略，也可用“自底向上”的聚合策略。著名的AGNES是自底向上聚合的层次聚类算法。
* Page219: 聚类集成

  对原始数据集的多个聚类器进行集成。可有效降低聚类过程中的随机性和聚类假设不符等因素的影响。
* Page219: 异常检测

  异常检测常借助聚类或距离计算，如将离心或密度极低的点作为异常点。
* Page220: 豪斯多夫距离

  Hausdorff distance： $$dist\_H(X, Z) = \max (dist\_h(X, Z), dist\_h(Z, X))$$ 其中 $$dist\_h(X, Z) = \max \limits\_{x\in X} \min \limits\_{z\in Z}\left | x-z \right |\_2$$
