Perceptron 感知机的数学原理

定义

  • 输入空间(特征空间)χRn\chi \in \mathbb{R}^n

  • 输出空间y={+1,1}y = \{ +1,-1 \}

  • 输入xχx \in \chi

  • 输出yYy\in\mathcal{Y}表示实例的类别

由输入空间到输出空间的函数 :

f(x)=sign(wx+b) f(x)=sign(w\cdot x+b)

称为感知机。

其中sign(x)={+1,x01,x<0\text{sign}(x) = \begin{cases} +1, & x \geq 0 \\ -1, & x < 0 \end{cases}

定义在特征空间中的所有线性分类模型或线性分类器,即函数集合,就是感知机模型的假设空间{ff(x)=wx+b}\left \{ f|f(x)=w\cdot x+b \right \}

几何解释

wx+b=0 w\cdot x+b=0 :对应特征空间Rn\mathbb{R}^{n} 中的一个超平面SS ,这个超平面将特征空间划分为两个部分,称为分离超平面(separating hyperplane)

超平面在现代数学应用广泛,但只要掌握其现代拓扑与线性代数定义和凸分析、优化理论方面的应用就足够了

bb:超平面的截距

ww:超平面的法向量

Figure_1.png

素材集的线性可分性

给定一个数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \}

其中xiRn,yi{+1,1}x_i\in\mathbb{R}^{n},y_i\in\left \{ +1,-1 \right \}

如果存在一个超平面wx+b=0w\cdot x+b=0,能够正确地划分所有正负实例点,则称内容集TT 为线性可分素材集(linearky separable data set),否则称其线性不可分.