第5章神经网络

5.1神经元模型

神经网络是由具有适应性的简单单元（神经元模型）组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

神经元接收到来自几个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接(connection)进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”处理以产生神经元的输出。

激活函数

1）阶跃函数

将输入值映射为输出值 “0” 或 “1”，不连续、不光滑

2）Sigmoid函数

把可能在较大范围内变化的输入值挤压到(0 ,1 )输出值范围内

把许多个这样的神经元按一定的层次结构连接起来，就得到了神经网络.

5.2 感知机与多层网络

感知机

感知机(Perceptron)由两层神经元组成，输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称“阈值逻辑单元”。

将阈值看做“哑节点”所对应的连接权重，权重和阈值的学习就可统一为权重的学习。

只拥有一层功能神经元,其学习能力非常有限.

若两类模式是线性可分的，即存在一个线性超平面能将它们分开，则感知机的学习过程一定会收敛(converge)。

多层网络

解决非线性问题

输出层与输入层之间的一层神经元，被称为隐层或隐含层(hidden layer),隐含层和输出层神经元都是拥有激活函数的功能神经元.

每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接.这样的神经网络结构通常称为“多层前馈神经网络”

神经网络的学习过程，就是根据训练数据来调整神经元之间的“连接权”(connection weight)以及每个功能神经元的阈值。

5.3 误差逆传播算法

又称反向传播算法、BP

BP 算法基于梯度下降策略，以目标的负梯度方向对参数进行调整。

学习率控制着算法每一轮迭代中的更新步长，若太大则容易振荡，太小则收敛速度又会过慢.

5.4 全局最小与局部极小

由上图可知二者概念。

局部最小即此点误差函数值小于周围点的误差函数值，全局最小即此点误差函数值小于参数空间所有点的误差函数值。

从某些初始解出发,迭代寻找最优参数值.

如何跳出局部最小？

1）以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数；

2）“模拟退火”，在每一步都以一定的概率接受比当前解更差的结果；

3）随机梯度下降，即便陷入局部极小点，它计算出的梯度仍可能不为零。

5.5 其他常见神经网络

5.5.1 RBF 网络

5.5.2 ART网络

5.5.3 SOM网络

5.5.4级联相关网络

5.5.5 Elman网络

5.5.6 Boltzmann机

。。。

5.6 深度学习

以 “深度学习”(deep learning)为代表的复杂模型，能完成更复杂的学习任务，缓解训练低效性，训练数据的大幅增加则可降低过拟合风险。

增加隐层的数目显然比增加隐层神经元的数目更有效。

“预训练+ 微调”

将大量参数分组,对每组先找到局部看来比较好的设置，然后再基于这些局部较优的结果联合起来进行全局寻优.

“权共享”

相同的连接权

对输入信号进行逐层加工，从而把初始的、与输出目标之间联系不太密切的输入表示，转化成与输出目标联系更密切的表示，使得原来仅基于最后一层输出映射难以完成的任务成为可能.

描述样本的特征通常需由人类专家来设计，这称为“特征工程”。