机器学习——非监督学习——层次聚类（Hierarchical clustering）

1、层次聚类（Hierarchical clustering）的步骤假设有N个待聚类的样本，对于层次聚类来说，其步骤为：（1）初始化：把每个样本各自归为一类（每个样本自成一类），计算每两个类之间的距离，在这里也就是样本与样本之间的相似度（本质还是计算类与类之间的距离）。（2）寻找各个类之间最近的两个类，把它们归为一类（这样，类的总数就减少了一个）（3）重新计算新生成的这个类与各个旧

loveliuzz

16371人浏览 · 2017-09-21 21:35:11

loveliuzz · 2017-09-21 21:35:11 发布

1、层次聚类（Hierarchical clustering）的步骤

假设有N个待聚类的样本，对于层次聚类来说，其步骤为：

（1）初始化：把每个样本各自归为一类（每个样本自成一类），计算每两个类之间的距离，在这里也就是样本与样本之间的相似度（本质还是计算类与类之间的距离）。

（2）寻找各个类之间最近的两个类，把它们归为一类（这样，类的总数就减少了一个）

（3）重新计算新生成的这个类与各个旧类之间的距离（相似度）

（4）重复（2）（3）步，直到所有的样本都归为一类，结束。

2、详细描述：

整个聚类过程其实是建立了一棵树，在建立过程中，可以通过第二步上设置一个阈值，当最近的两个类的距离大于这个阈值，则认为迭代终止。

另外，关键的一步是第三步，如何判断两个类之间的相似度有不少种方法，下面介绍三种：

（1）SingleLinkage：又叫做nearest-neighbor，就是取两个类中最近的两个样本之间的距离作为两个集合的距离，即：最近的两个样本之间的距离越小，

这两个类之间相似度越大，容易造成一种叫做Chaining的效果，两个类明明从“大局”上离的比较远，但由于其中个别点距离比较近就被合并了。

这种合并之后Chaining效应会进一步扩大，最后得到比较松散的聚类cluster。

（2）Complete Linkage：完全是SingleLinkage的反面极端，取两个集合距离最远的两个点的距离作为两个集合的距离，其效果也刚好相反，限制非常大。

两个聚类cluster即使已经很接近了，但是只要有不配合的带你存在，就顽固到底，老死不相合并，也是不太好的办法，这两种相似度定义方法共同问题就是：

只考虑了某个特有的数据，而没有考虑类数据整体的特点。

（3）Average Linkage：这种方法就是把两个集合中的点两两距离全部放在一起求平均值，相应的能得到一点合适的结果。

Average Linkage的一个变种就是取两两距离的中值，与取平均值相比更加能够解除个别偏离样本对结果的干扰。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

类脑解耦大模型最简 MVP 落地｜从根源解决 LLM 臃肿、黑箱、失忆、幻觉四大问题（大模型的思考：四）

本次最简 MVP 的成功跑通，是模块化类脑大模型架构的里程碑式验证。证明了下一代 AI 的发展方向，不再是无休止的参数堆叠，而是智能的解耦、分工、重构。从最初类脑思想实验，到自我纠偏完善理论，再到低成本工程落地，整套体系逻辑自洽、拓展性极强。丰富颜色、形状、材质多类型特征子模块；接入数学运算独立子模块，解决大模型计算错误问题；迭代存储层，从 JSON 平滑升级轻量化数据库；完善联想、想象拓展模块，

脑启社区

一个大专生的自白：我为什么用「类脑架构」重写了分布式系统

BNOS 负责宏观的节点编排与协作，AAA 负责微观的模型自适应推理，两者在设计上是互补的。在查阅了大量现有的分布式框架和智能体（Agent）协作方案后，我发现它们要么过于厚重，要么在节点通信上引入了极高的复杂度。于是，我决定跳出传统的微服务或消息队列思维，尝试从生物大脑中汲取灵感，设计了一套基于仿生神经网络的通用模块化执行引擎——BNOS（Bionic Neural Network Operat

脑启社区

认知神经科学研究报告【20260014】

本文提出并实现了一种全新的类脑计算架构——物理处理器系统。该系统摒弃了传统人工神经网络中显式的权重矩阵和激活函数，转而利用热传导、相变、粒子迁移、相位耦合等基础物理过程直接实现记忆、推理、情感模拟、意识涌现等高级认知功能。系统由多个 200×200 物理网格处理器构成，包括智能处理器、数学处理器、推理处理器、索引处理器、情感处理器、直觉推理器及全局工作记忆等，并通过全局协调器实现深度互联。我们定义