Skip to content

监督学习

约 1080 个字 预计阅读时间 4 分钟

简介

监督学习是一种机器学习方法,它通过学习已知输入数据和相应标签之间的映射关系,来预测新数据的标签。常见的监督学习算法包括线性回归、逻辑回归、支持向量机等。

常见算法

线性回归

线性回归是一种用于预测连续变量的模型。其核心思想是找到一条最佳拟合直线,使得训练数据点与这条直线之间的误差最小。

数学表达

假设我们有 \(N\)个训练样本和它们的标签 \(\{(X_1, y_1), (X_2, y_2), \dots, (X_N, y_N)\}\),其中: - \(X_i = [X_{i1}, X_{i2}]^T\)表示第 \(i\)个样本的特征向量 - \(y_i \in \{+1, -1\}\)表示第 \(i\)个样本的标签

当数据在 \(N\)维特征空间是线性可分的时,存在一个 \(( \omega_1, \omega_2, b )\)使得对于所有样本 \(i\)满足以下条件: - 若 \(y_i = +1\),则 \(\omega_1 X_{i1} + \omega_2 X_{i2} + b > 0\) - 若 \(y_i = -1\),则 \(\omega_1 X_{i1} + \omega_2 X_{i2} + b < 0\)

可以将上述条件简化为向量形式: \(y_i (\omega^T X_i + b) > 0\)

线性回归代价函数

在线性回归中,常用的代价函数是最小平方误差(MSE)\(\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - f(x_i, w))^2\)

另一种常见的代价函数是残差平方和(RSS)\(J_n(\alpha) = \sum_{i=1}^n (y_i - f(x_i, w))^2 = (y - X^T w)^T (y - X^T w)\)

线性回归模型

普通最小二乘法

普通线性回归模型的权重计算公式为: \(w = (XX^T)^{-1} Xy\)

当样本数量 \(n\)小于特征数 \(d\)时,矩阵 \(XX^T\)不满秩,无法求逆矩阵,导致线性回归模型存在多个解。

岭回归

为了避免线性回归中的过拟合问题,引入了正则化方法,岭回归的优化目标为: \(w^* = (XX^T + \lambda I)^{-1} Xy\) 其中 \(\lambda\)是正则化参数。

逻辑回归

逻辑回归用于二分类问题,注意这是一个分类算法,输出值为 \(y \in \{0, 1\}\),其中 0 表示负向类,1 表示正向类。通过一个 Sigmoid 函数将输入映射到 \((0, 1)\)之间,从而估计样本属于某个类别的概率。

常用的 Sigmoid 函数为: \(y = \frac{1}{1 + e^{-z}}\)

决策树

决策树是一种用于分类和回归的树形结构模型。通过对数据集的特征进行递归划分,形成树状结构,最终根据特征的值来进行预测或分类。

结构

  • 根节点(Root Node):表示整个数据集,决策从这里开始。
  • 内部节点(Internal Nodes):表示一个特征,基于该特征的条件分割数据集。
  • 叶节点(Leaf Nodes):表示最终的决策输出。

优化方法

  • 剪枝(Pruning):通过减少树的复杂度来避免过拟合。
  • 集成方法:如随机森林(Random Forest),通过多个决策树的组合提高模型的准确性。

支持向量机

支持向量机通过最大化分类间隔(Margin)来实现分类任务。支持向量机的目标是找到一个最佳超平面,使得超平面两侧的间隔最大。

数学描述

目标是最小化: \(\frac{1}{2} \|\omega\|^2\) 并满足约束条件: \(y_i (\omega^T x_i + b) \geq 1\)

在处理线性不可分问题时,可以引入松弛变量 \(\delta_i\)和核函数 \(K(X_1, X_2)\)以升维处理问题。

k近邻算法

KNN算法是一种分类算法,通过找到与测试样本最接近的 \(k\)个训练样本,并根据这些样本的标签来预测测试样本的类别。

距离度量

常用的距离度量包括: - 曼哈顿距离 (p=1) - 欧几里得距离 (p=2) - 切比雪夫距离 (p=\(\infty\))

感知机

感知机是一种简单的二分类模型,通过线性分类器对数据进行分类。感知机模型仅能处理线性可分的数据。

训练过程

感知机训练通过反复调整权重,使得模型能够正确分类给定数据。在线性可分的情况下,感知机算法必然收敛。

局限性

感知机无法处理线性不可分的数据,如 XOR 问题,并且其效率不高。