吃瓜教程-P4
第5章 神经网络
5.1神经元模型
神经网络是由具有适应性的简单单元(神经元模型)组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
神经元接收到来自几个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。
激活函数
1)阶跃函数
将输入值映射为输出值 “0” 或 “1”,不连续、不光滑
2)Sigmoid函数
把可能在较大范围内变化的输入值挤压到(0 ,1 )输出值范围内
把许多个这样的神经元按一定的层次结构连接起来,就得到了神经网络.
5.2 感知机与多层网络
感知机
感知机(Perceptron)由两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元,亦称“阈值逻辑单元”。
将阈值看做“哑节点”所对应的连接权重,权重和阈值的学习就可统一为权重的学习。
只拥有一层功能神经元,其学习能力非常有限.
若两类模式是线性可分的,即存在一个线性超平面能将它们分开,则感知机的学习过程一定会收敛(converge)。
多层网络
解决非线性问题
输出层与输入层之间的一层神经元,被称为隐层或隐含层(hidden layer),隐含层和输出层神经元都是拥有激活函数的功能神经元.
每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接.这样的 神经网络结构通常称为“多层前馈神经网络”
神经网络的学习过程,就是根据训练数据来调整神经元之间的“连接权”(connection weight)以及每个功能神经元的阈值。
5.3 误差逆传播算法
又称反向传播算法、BP
BP 算法基于梯度下降策略,以目标的负梯度方向对参数进行调整。
学习率控制着算法每一轮迭代中的更新步长,若太大则容易振荡,太小则收敛速度又会过慢.
5.4 全局最小与局部极小
由上图可知二者概念。
局部最小即此点误差函数值小于周围点的误差函数值,全局最小即此点误差函数值小于参数空间所有点的误差函数值。
从某些初始解出发,迭代寻找最优参数值.
如何跳出局部最小?
1)以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差 最小的解作为最终参数;
2)“模拟退火”,在每一步都以一定的概率接受比当前解更差的结果;
3)随机梯度下降,即便陷入局部极小点,它计算出的梯度仍可能不为零。
5.5 其他常见神经网络
5.5.1 RBF 网络
5.5.2 ART网络
5.5.3 SOM网络
5.5.4级联相关网络
5.5.5 Elman网络
5.5.6 Boltzmann机
。。。
5.6 深度学习
以 “深度学习”(deep learning)为代表的复杂模型,能完成更复杂的学习任务,缓解训练低效性,训练数据的大幅增加则可降低过拟合风险。
增加隐层的数目显然比增加隐层神经元的数目更有效。
“预训练+ 微调”
将大量参数分组,对每组先找到局 部看来比较好的设置,然后再基于这些局部较优的结果联合起来进行全局寻优.
“权共享”
相同的连接权
对输入信号进行 逐层加工,从而把初始的、与输出目标之间联系不太密切的输入表示,转化 成与输出目标联系更密切的表示,使得原来仅基于最后一层输出映射难以完 成的任务成为可能.
描述样本的特征通常需由人类专家来设 计,这称为“特征工程”。








