感知器

约 576 个字预计阅读时间 2 分钟

定义

一个神经元被称作一个激活单元(activation unit)，它可以接收一些输入，然后返回一个输出。感知机(perceptron)正是基于这个假设，它是一个二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别。

假设输入空间为$\chi \subseteq R^n $，输出空间是$y={+1,-1} $，变换函数是$f(x)=sign(wx+b)\in {+1,-1} $。其中$w\in R^n $叫做权值，$b\in R $ 叫做偏置。

感知机的几何意义是一个将样本点分为两类的超平面。

策略

假设训练数据时线性可分的，感知机的目标就是求得一个能够将训练集正负实例点完全分开的超平面。为了实现这个目的，需要确定参数$w,b $

损失函数自然可以选择误分类点的数量，但是这样损失函数不是$w,b \(的连续可导函数（个数自然是离散的，不易优化。所以感知机选择的是误分类点到超平面的总距离。根据距离公式可得损失函数为$-\frac{1}{||w||}\Sigma_{x\in M}[y_i(wx_i+b)] $,$||w||\)可以不管，因为我们可以选择把它限制住。

求解

采用随机梯度下降(SGD)：一次随机选取一个误分类点使其梯度下降。损失函数的梯度很好给出，注意$w,b$才是变量，所以对$w,b$求梯度可得$$\triangledown_wL=-\Sigma y_ix_i,\triangledown_bL=-\Sigma y_i $$ 随机选取一个误分类点进行更新：$$w=w+\eta y_ix_i,b=b+\eta y_i $$

几何理解就是当一个点被误分类时，调整超平面参数使它向该误分类点的一侧移动，以减少该误差点与超平面的距离直至该点被正确分类。如果数据线性可分，那么可以证明算法一定可以在有限次迭代后能够结束。

对偶形式

对偶形式的基本想法是在迭代的时候使用更多的点，不失一般性，最终结果变为$(w=\Sigma \alpha_i y_ix_i,b=\Sigma\alpha_i y_i (\(，这里的$\alpha_i=n_i\eta $，$n_i\)是点\)(x_i,y_i)\)被误分类的次数。