生物医学工程 | 机器学习 - K means聚类

K means 聚类

假设

有 $k$ 个subset $C_1, C_2, C_3, ... , C_k$ ，有 $1, ..., n$ 个数据点，且所有数据点满足以下条件：

定义距离

Z ( C _ { 1 } , \cdots , C _ { k } ) = \sum _ {l = 1 } ^ { k } \frac { 1 } { 2 | C _ { l } | } \sum _ {i , j \in C _ { l }} { \| x _ { i } - x _ j\|_2 ^ { 2 }}

where $|C_k|$ denotes the number of observations in the kth cluster.

目的是最小化每个cluster的pairwise squared distance

Z ( C _ { 1 } , \cdots , C _ { k } ) = \sum _ { l = 1 } ^ { k } \sum _ { i \in C_l } ^ { k } | | x _ { i } - \mu_l | | _ { 2 } ^ { 2 }

其中，

u _ { l } = \frac { 1 } { | C _ { l } | } \sum _ { i \in C _ { l } } x _ { i }

迭代目标

\operatorname { m i n } _ { c _ { 1 }, \cdots , c _ { k } } Z ( C _ { 1 } , \cdots , C _ { k } )

不一定是最优的，因为如果initialize给的点不好的话，会导致结果收敛到一个次优的聚类

Z ( C _ { 1 } , \cdots , C _ { k } ) = \sum _ {l = 1 } ^ { k } \frac { 1 } { 2 | C _ { l } | } \sum _ {i , j \in C _ { l }} { \| x _ { i } - x _ j\|_2 ^ { 2 }}

选择一：决定k的大小

如果 $Z_{k+1}<<Z_k$ ，则有必要增加这个k，即 $k\rightarrow k+1$

即找到loss function-k函数中所谓的knee的位置

选择二：决定初始聚类分配initial cluster assignment

Decision boundaries

通过两个cluster centroids $\mu_l$ , $\mu_{l'}$ 计算 $\{x\in \mathbb{R}^d\ \ |\ \ ||x-\mu_l||_2 = ||x-\mu_{l'}||_2\}$ 可以计算得到

参考资料

声明：此blog内容为上课笔记，仅为分享使用。部分图片和内容取材于课本、老师课件、网络。如果有侵权，请联系aursus.blog@gmail.com删除。