1、层次聚类(Hierarchical clustering)的步骤

假设有N个待聚类的样本,对于层次聚类来说,其步骤为:

(1)初始化:把每个样本各自归为一类(每个样本自成一类),计算每两个类之间的距离,在这里也就是样本与样本之间的相似度(本质还是计算类与类之间的距离)。

(2)寻找各个类之间最近的两个类,把它们归为一类(这样,类的总数就减少了一个)

(3)重新计算新生成的这个类与各个旧类之间的距离(相似度)

(4)重复(2)(3)步,直到所有的样本都归为一类,结束。


2、详细描述:

整个聚类过程其实是建立了一棵树,在建立过程中,可以通过第二步上设置一个阈值,当最近的两个类的距离大于这个阈值,则认为迭代终止


另外,关键的一步是第三步,如何判断两个类之间的相似度有不少种方法,下面介绍三种:

(1)SingleLinkage:又叫做nearest-neighbor,就是取两个类中最近的两个样本之间的距离作为两个集合的距离,即:最近的两个样本之间的距离越小,

这两个类之间相似度越大,容易造成一种叫做Chaining的效果,两个类明明从“大局”上离的比较远,但由于其中个别点距离比较近就被合并了。

这种合并之后Chaining效应会进一步扩大,最后得到比较松散的聚类cluster。

(2)Complete Linkage:完全是SingleLinkage的反面极端,取两个集合距离最远的两个点的距离作为两个集合的距离,其效果也刚好相反,限制非常大。

两个聚类cluster即使已经很接近了,但是只要有不配合的带你存在,就顽固到底,老死不相合并,也是不太好的办法,这两种相似度定义方法共同问题就是:

只考虑了某个特有的数据,而没有考虑类数据整体的特点。

(3)Average Linkage:这种方法就是把两个集合中的点两两距离全部放在一起求平均值,相应的能得到一点合适的结果。

Average Linkage的一个变种就是取两两距离的中值,与取平均值相比更加能够解除个别偏离样本对结果的干扰。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐