Skip to content

K 均值聚类

约 233 个字 预计阅读时间 1 分钟

定义

K 均值聚类将样本划分为k个子集,构成k个类,将n个样本分到k个类中,每个样本到其所属类中心的距离最小,这个算法其实在ads中亦有记载

策略

k均值聚类归结为样本集合X的划分,或者从样本到类的函数选择问题。我们依旧是采用欧式距离,定义样本与其所属类中心的距离之和为损失函数,目标自然是最小化损失函数,如果要求最优显然是NPH的,实际求解还是用近似算法,不过这里和ads略有不同:先选择k个类的中心,将样本指派到与其最近的类,得到一个聚类结果,然后更新每个类样本的均值作为类的新中心,重复以上步骤直至收敛。