第5章 神经网络

5.1神经元模型

神经网络是由具有适应性的简单单元(神经元模型)组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

神经元接收到来自几个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。

激活函数

1)阶跃函数

将输入值映射为输出值 “0” 或 “1”,不连续、不光滑

2)Sigmoid函数

把可能在较大范围内变化的输入值挤压到(0 ,1 )输出值范围内

1

把许多个这样的神经元按一定的层次结构连接起来,就得到了神经网络.

5.2 感知机与多层网络

感知机

感知机(Perceptron)由两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元,亦称“阈值逻辑单元”。

2

将阈值看做“哑节点”所对应的连接权重,权重和阈值的学习就可统一为权重的学习。

只拥有一层功能神经元,其学习能力非常有限.

若两类模式是线性可分的,即存在一个线性超平面能将它们分开,则感知机的学习过程一定会收敛(converge)。

多层网络

解决非线性问题

输出层与输入层之间的一层神经元,被称为隐层或隐含层(hidden layer),隐含层和输出层神经元都是拥有激活函数的功能神经元.

每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接.这样的 神经网络结构通常称为“多层前馈神经网络”

3

神经网络的学习过程,就是根据训练数据来调整神经元之间的“连接权”(connection weight)以及每个功能神经元的阈值。

5.3 误差逆传播算法

又称反向传播算法、BP

BP 算法基于梯度下降策略,以目标的负梯度方向对参数进行调整。

4

学习率控制着算法每一轮迭代中的更新步长,若太大则容易振荡,太小则收敛速度又会过慢.

5

5.4 全局最小与局部极小

6

由上图可知二者概念。

局部最小即此点误差函数值小于周围点的误差函数值,全局最小即此点误差函数值小于参数空间所有点的误差函数值。

从某些初始解出发,迭代寻找最优参数值.

如何跳出局部最小?

1)以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差 最小的解作为最终参数;

2)“模拟退火”,在每一步都以一定的概率接受比当前解更差的结果;

3)随机梯度下降,即便陷入局部极小点,它计算出的梯度仍可能不为零。

5.5 其他常见神经网络

5.5.1 RBF 网络

5.5.2 ART网络

5.5.3 SOM网络

5.5.4级联相关网络

5.5.5 Elman网络

5.5.6 Boltzmann机

。。。

5.6 深度学习

以 “深度学习”(deep learning)为代表的复杂模型,能完成更复杂的学习任务,缓解训练低效性,训练数据的大幅增加则可降低过拟合风险。

增加隐层的数目显然比增加隐层神经元的数目更有效。

“预训练+ 微调”

将大量参数分组,对每组先找到局 部看来比较好的设置,然后再基于这些局部较优的结果联合起来进行全局寻优.

“权共享”

相同的连接权

对输入信号进行 逐层加工,从而把初始的、与输出目标之间联系不太密切的输入表示,转化 成与输出目标联系更密切的表示,使得原来仅基于最后一层输出映射难以完 成的任务成为可能.

描述样本的特征通常需由人类专家来设 计,这称为“特征工程”。