无监督学习

约 992 个字 6 行代码预计阅读时间 3 分钟

聚类

基本概念

聚类是一种无监督学习方法，目的是在给定的无标签数据集中，根据特征的相似度或距离，将数据对象划分为若干个类。每个类中的数据对象在某种意义上比它们与其他类中的对象更相似。

相似度与距离

闵可夫斯基距离 (Minkowski Distance)： \(d_{ij} = \left(\sum_{i=1}^m |x_{ik} - x_{jk}|^p\right)^{\frac{1}{p}}\) 闵可夫斯基距离是欧氏距离和曼哈顿距离的推广，通过参数 \(p\) 来调整距离的计算方式。
马哈拉诺比斯距离 (Mahalanobis Distance)：假设样本矩阵 \(X\) 的协方差矩阵为 \(S\)，则马哈拉诺比斯距离为： \(d_{ij} = \sqrt{(x_i - x_j)^T S^{-1} (x_i - x_j)}\) 马哈拉诺比斯距离考虑了各特征之间的相关性，距离值越大，相关性越小。
余弦相似度 (Cosine Similarity)： \(\cos(\theta) = \frac{x^T y}{|x| \cdot |y|} = \frac{\sum_{k=1}^m x_{ki} x_{kj}}{\sqrt{\sum_{k=1}^m x_{ki}^2} \sqrt{\sum_{k=1}^m x_{kj}^2}}\) 余弦相似度衡量两个向量之间的夹角，值越接近 1 表示两个向量越相似。
相关系数 (Correlation Coefficient)： \(r_{ij} = \frac{\sum_{k=1}^m (x_{ki} - \overline{x_i})(x_{kj} - \overline{x_j})}{\sqrt{\sum_{k=1}^m (x_{ki} - \overline{x_i})^2} \sqrt{\sum_{k=1}^m (x_{kj} - \overline{x_j})^2}}\) 相关系数衡量两个变量之间的线性相关性，值的范围在 -1 到 1 之间。

K-means 算法

描述

K-均值聚类是一种常用的基于划分的聚类算法。它将样本集合划分为 \(k\) 个子集，每个样本只属于一个类。算法的基本思想是：对每个数据点，根据其与 \(k\) 个中心点的距离，将其分配给最近的中心点，并根据分配结果重新计算每个类的中心点，反复迭代直到收敛。

伪代码

Repeat {
    for i = 1 to m:
        c(i) := index(from 1 to k) of cluster centroid closest to x(i)
    for k = 1 to K:
        uk := average(mean) of points assigned to cluster k
}

该算法分为两个主要步骤： 1. 赋值步骤：对于每个样本 \(i\)，计算其所属的类，即找到与其距离最近的中心点。 2. 聚类中心移动步骤：对于每个类 \(k\)，重新计算该类的中心，即计算与该类关联的所有样本的均值。

最大期望算法

最大期望算法（EM）被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计

降维

为什么需要降维

数据压缩 (Data Compression)：降低维度可以减少数据存储和处理的空间需求，同时加速算法的计算过程。
可视化 (Visualization)：降维可以将高维数据投射到低维空间，帮助我们更直观地理解数据分布，尤其是通过将数据降至二维或三维来进行可视化展示。

主成分分析

描述

主成分分析 (Principal Component Analysis, PCA) 是一种常见的降维方法。PCA 的目标是找到一个方向向量，使得所有数据投影到该向量上的平均均方误差尽可能小。这个方向向量是一个过原点的向量，投影误差是从特征向量到该方向向量做垂线的长度。PCA 通过线性变换找到数据在新空间的主轴，并利用这些主轴来进行数据的降维处理。

线性判别分析

描述

线性判别分析 (Linear Discriminant Analysis, LDA) 是另一种经典的降维算法，也是线性分类方法。LDA 的基本思想是将样本投影到一条直线上，使得同类样本点的投影尽可能接近，而不同类样本点的投影尽可能远离。对于测试集数据，通过投影到该直线上，可以直接判断样本所属的类别。LDA 适用于带有标签的分类问题，并在降维的同时保留了类间的差异性。