李宏毅机器学习-P3深度学习介绍和反向传播机制

DataWhale李宏毅机器学习

https://linklearner.com/datawhale-homepage/#/learn/detail/93

deep learning的历史：

•    1958: Perceptron (linear model)
•    1969: Perceptron has limitation
•    1980s: Multi-layer perceptron
        Do not have significant difference from DNN today
•    1986: Backpropagation
        Usually more than 3 hidden layers is not helpful
•    1989: 1 hidden layer is “good enough”, why deep?
•    2006: RBM initialization (breakthrough)
•    2009: GPU 加速
•    2011: Start to be popular in speech recognition
•    2012: win ILSVRC image competition

深度学习三步骤
• Step1：神经网络（Neural network）
• Step2：模型评估（Goodness of function）
• Step3：选择最优函数（Pick best function）

Step1：神经网络

不同Neural的连接方式，会产生不同的结构。
我们有很多逻辑回归函数，其中每个逻辑回归都有自己的权重和自己的偏差，这些权重和偏差就是参数。

完全连接前馈神经网络

Neural排成一排，其中的参数根据TrainingData找出。
概念：前馈（feedforward）也可以称为前向，从信号流向来理解就是输入信号进入网络后，信号流动是单向的，即信号从前一层流向后一层，一直到输出层，其中任意两层之间的连接并没有反馈（feedback），亦即信号没有从后一层又返回到前一层。

下图展示已知参数时输入（1，-1）的结果：

当输入0和0时，则得到0.51和0.85

一个神经网络如果权重和偏差都知道的话就可以看成一个函数，他的输入是一个向量，对应的输出也是一个向量。不论是做回归模型（linear model）还是逻辑回归（logistics regression）都是定义了一个函数集（function set）。我们可以给上面的结构的参数设置为不同的数，就是不同的函数（function）。这些可能的函数（function）结合起来就是一个函数集（function set）。这个时候你的函数集（function set）是比较大的，是以前的回归模型（linear model）等没有办法包含的函数（function），所以说深度学习（Deep Learning）能表达出以前所不能表达的情况。

全链接和前馈

全链接(Fully Connect)：layer1与layer2之间两两都有连接
前馈(Feedforward)：传递的方向是由后往前传
“前馈”并不指信号不能向后传，而是指网络拓扑结构上不存在环或回路

• 输入层（Input Layer）：1层
• 隐藏层（Hidden Layer）：N层
• 输出层（Output Layer）：1层

深度的理解

Deep = Many hidden layer
到底几层算deep？很难说
以下是几个例子：
• 2012 AlexNet：8层
• 2014 VGG：19层
• 2014 GoogleNet：22层
• 2015 Residual Net：152层

矩阵计算（Matrix Operation）

随着层数变多，错误率降低，随之运算量增大，通常都是超过亿万级的计算。对于这样复杂的结构，我们一定不会一个一个的计算，对于亿万级的计算，使用loop循环效率很低。
这里我们就引入矩阵计算（Matrix Operation）能使得我们的运算的速度以及效率高很多：
计算方法就是：sigmoid（权重w【黄色】 * 输入【蓝色】+ 偏移量b【绿色】）= 输出

如果有很多层呢？计算方法就像是嵌套。
这样写成矩阵运算的好处是，你可以使用GPU加速。

本质：通过隐藏层进行特征转换

把隐藏层通过特征提取来替代原来的特征工程，这样在最后一个隐藏层输出的就是一组新的特征（相当于黑箱操作）而对于输出层，其实是把前面的隐藏层的输出当做输入（经过特征提取得到的一组最好的特征）然后通过一个多分类器（可以是softmax函数）得到最后的输出y。

示例：手写数字识别
输入：一个16*16=256维的向量，每个pixel对应一个dimension，有颜色用（ink）用1表示，没有颜色（no ink）用0表示输出：10个维度，每个维度代表一个数字的置信度。

在这个问题中，唯一需要的就是一个函数，输入是256维的向量，输出是10维的向量，我们所需要求的函数就是神经网络这个函数。

神经网络的结构决定了函数集（function set），所以说网络结构（network structured）很关键。

Q&A

•    多少层？ 每层有多少神经元？这个问我们需要用尝试加上直觉的方法来进行调试。对于有些机器学习相关的问题，我们一般用特征工程来提取特征，但是对于深度学习，我们只需要设计神经网络模型来进行就可以了。对于语音识别和影像识别，深度学习是个好的方法，因为特征工程提取特征并不容易。
•    结构可以自动确定吗？有很多设计方法可以让机器自动找到神经网络的结构的，比如进化人工神经网络（Evolutionary Artificial Neural Networks）但是这些方法并不是很普及 。
•    我们可以设计网络结构吗？可以的，比如 CNN卷积神经网络（Convolutional Neural Network ）