深度学习训练用激活损失函数和技巧

type

status

date

slug

summary

1. 激活函数

深度学习常见激活函数介绍及代码实现 - UCloud云社区

深度神经网络引入非线性单元，使训练问题不再是一个凸优化问题，虽然我们很难得到最优解，但是可以通过梯度下降去寻找局部最小值。

https://www.ucloud.cn/yun/20462.html

1. ReLU

线性整流函数(Linear rectification function), 又称修正线性单元, 是一种人工神经网络中常用的激活函数(activation function), 通常指代以斜坡函数及其变种为代表的非线性函数.

2. Sigmoid

缺点

sigmoid有一个梯度消失的问题, (变量值很大或很小)的时候, 梯度就快消失了(趋近于0).

3. Tanh

4. Logistic Regression (LR 逻辑回归)

[ML] 逻辑回归与 Softmax 回归

Logistic Regression (LR) 译为逻辑回归，但实际上这是一种分类模型（二分类或多分类）。下面精要地把模型中的核心概念、推导梳理一下。本文主要内容如下：逻辑回归的概率模型逻辑回归的含义逻辑回归损失函数的由来逻辑回归模型的求解方法：牛顿法、梯度下降法多分类问题的一般处理方法多分类逻辑回归的概率模型 Softmax 回归形式推导逻辑回归与 Softmax 回归的联系过拟合问题的处理二分类问题的 LR 模型是如下的条件概率分布：实际上，又可以写成：我们称如下形式的函数为 Sigmoid 函数：实际上，LR 模型是用线性回归模型的结果逼近真实标记 ( ) 的对数几率 (log odds,logit). 所谓的几率表示事件发生的概率与事件不发生的概率之比那么对数几率就是对几率取自然对数的结果因此，在周老师的西瓜书中称该模型为"对数几率回归"（对率回归）. 给定一组训练数据，要求解上述的条件概率分布，可以应用极大似然估计法 (Maximum Likelihood Estimation, MLE) 估计模型的参数。极大似然估计，即是对样本的似然函数进行求参.

https://zhuanlan.zhihu.com/p/62381502

sigmoid函数

LR 模型是用线性回归模型的结果逼近真实标记 ( ) 的对数几率 (log odds,logit). 所谓的几率表示事件发生的概率与事件不发生的概率之比

那么对数几率就是对几率取自然对数的结果

给定一组训练数据, 要求解上述的条件概率分布, 可以应用极大似然估计法 (Maximum Likelihood Estimation, MLE) 估计模型的参数. 极大似然估计, 即是对样本的似然函数 L 进行求参.

令 , 似然函数为:

对数似然函数(求最大化):

最后的优化问题（转化为最小化）：

针对上述最小化问题，采用 Newton method, quasi-Newton method (BFGS, L-BFGS), conjugate gradient 或者梯度下降法 (引入超参数 ) , SGD 等等求都可以.

之后就是求解.

关联知识: 机器学习模型介绍 - 1. Logistic Regression

5. 多项逻辑回归模型(Multinomial Logistic Regression; softmax regression)

Softmax Regression 与 logistic regression 的联系

softmax逻辑回归就是多分类的逻辑回归

详细推导

[ML] 逻辑回归与 Softmax 回归

https://zhuanlan.zhihu.com/p/62381502

2. 损失函数

损失函数的目的: 度量真实值和预测值之间的距离

2.1. 交叉熵(cross entropy)

2.1.1. cross entropy

公式推导过程

你真的理解交叉熵损失函数了吗？_哔哩哔哩_bilibili

让你更全面了解交叉熵损失函数。, 视频播放量 27142、弹幕量 167、点赞数 982、投硬币枚数 685、收藏人数 1234、转发人数 103, 视频作者 RethinkFun, 作者简介重新思考，发现乐趣。分享有趣有深度的人工智能知识。，相关视频：“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”，【10分钟】了解香农熵，交叉熵和KL散度，【交叉熵】信息世界的隐秘节奏，数据分布的背后真谛，【数之道 32】6分钟理解机器学习核心知识之<损失函数>，[5分钟深度学习] #03 激活函数，什么是交叉熵误差，多分类中的交叉熵损失函数，信息量｜熵｜交叉熵｜KL散度（相对熵）｜交叉熵损失函数，[数学！数学] 最大似然估计（MLE）与最小化交叉熵损失（cross entropy loss）的等价性，【1分钟神经网络】1.7.1 交叉熵损失函数 | 神经网络 | 深度学习，从代码角度理解对比学习损失函数

https://www.bilibili.com/video/BV1mZ4y1R76t/?spm_id_from=333.337.search-card.all.click&vd_source=0847973121d4fdd8364284ef7353ef09

表示训练样本数; 表示分类数量. 因为只要找到最值就可以了, 所有这里是额外加一个的. 利用似然函数的特性, 把连乘提到左边变成连加; 加上负号求最小值.

categorial_crossentropy函数和sparse_categorial_crossentropy函数:

相同之处在于它们的都在之间
不同在于:

如果的结果是one-hot encoded, 就是用categorical_crossentropy. 例(三分类问题): .
如果的结果是整型, 使用sparse_categorical_crossentropy. 例(三分类问题): .

2.1.2. Binary cross entropy

二元交叉熵是二分类问题中常用的一个Loss损失函数, 是用来评判一个二分类模型预测结果的好坏程度. 公式如下:

其中, 是二元标签 0 或者 1, 是模型的预测值为标签的概率
之所以加负号是因为概率在, 取log之后是负的, 用负数表示信息不符合我们的认知逻辑，所以取负让结果为正.

就是说模型预测值越接近于gt值, loss越小; 越远离gt值, loss越大.

对于标签为 1 的情况, 如果预测值趋近于 1, 那么损失函数的值应当趋近于 0. 反之, 如果此时预测值趋近于 0, 那么损失函数的值为 . 如下图所示.

对于标签为 0 的情况如下

2.2. Softmax (归一化指数函数)

将原本的输出映射到区间之间, 所有的值和为1

算是一种概率

好处:

求导方便

好结果和坏结果更显著

梯度下降时更新梯度, 由于网络末尾需要softmax函数计算结果.

交叉熵函数的简单形式:

正向和反向求导时就很方便

Softmax 函数的特点和作用是什么？

在看到LDA模型的时候突然发现一个叫softmax函数。维基上的解释和公式是："softmax function is a genera...

https://www.zhihu.com/question/23765351

损失函数推导过程

逻辑回归（Logistic Regression）（二）

代价函数的常见形式（cont）这里接着上篇的内容（逻辑回归（Logistic Regression）（一））写。我们上次说到了逻辑回归中的代价函数 : 但是我们会疑问，为什么这么定义代价函数呢？下面我会简单的解释一下：对于单个的样本来讲，所对应的为：上面的方程等价于：当时：其函数图像为：从图中可以看出，，当预测值时，可以看出代价h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}函数的值为0，这正是我们希望的。如果预测值即 ,意思是预测的概率为0，但是事实上，因此代价函数相当于给学习算法一个惩罚。同理，我们也可以画出当时，函数的图像：代价函数与参数代价函数衡量的是模型预测值h(θ) 与标准答案y之间的差异，所以总的代价函数J是h(θ)和y的函数，即，J=f(h(θ), y)。又因为y都是训练样本中给定的，h(θ)有θ决定，所以，最终还是模型参数θ的改变导致了J的改变。对于不同的θ，对应不同的预测值h(θ)，也就对应着不同的代价函数J的取值。变化过程为：为了更直观的看到参数对代价函数的影响，举个简单的例子：有训练样本{(0, 0), (1, 1), (2, 2), (4, 4)}，即4对训练样本，每个样本中第1个是x的值，第2个是y的值。这几个点很明显都是y=x这条直线上的点。如下图：常数项为0，所以可以取θ0=0，然后取不同的θ1，可以得到不同的拟合直线。当θ1=0时，拟合的直线是y=0，即蓝色线段，此时距离样本点最远，代价函数的值（误差）也最大；当θ1=1时，拟合的直线是y=x，即绿色线段，此时拟合的直线经过每一个样本点，代价函数的值为0。通过下图可以查看随着θ1的变化，J(θ)的变化情况：从图中可以很直观的看到θ对代价函数的影响，当θ1=1时，代价函数J(θ)取到最小值。因为线性回归模型的代价函数（均方误差）的性质非常好，因此也可以直接使用代数的方法，求J(θ)的一阶导数为0的点，就可以直接求出最优的θ值。代价函数与梯度梯度下降中的梯度指的是代价函数对各个参数的偏导数，偏导数的方向决定了在学习过程中参数下降的方向，学习率（通常用α表示）决定了每步变化的步长，有了导数和学习率就可以使用梯度下降算法（Gradient Descent Algorithm）更新参数了, 即求解使最小的参数 : 看来其和线性回归中的梯度下降函数形式一模一样，但其实是不一样的，因为在logistic回归中关于从到推导如下： [机器学习] Coursera ML笔记 - 逻辑回归（Logistic Regression） sigmoid函数详解_mmmmmm_新浪博客逻辑斯谛回归之决策边界 logistic regression -- decision boundary 【机器学习】代价函数（cost function）

https://zhuanlan.zhihu.com/p/28415991

3. 过拟合问题

当讨论到模型的过拟合问题时, 不妨对算法的期望泛化误差进行讨论。我们已经知道: 泛化误差可以分解为 bias, variance, noise 之和。

偏差 (bias) 衡量模型的期望预测与真实结果的偏离程度（模型的拟合能力）；方差 (variance) 衡量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动（数据变化对模型预测能力）所造成的影响（或者理解为在测试集上的表现）。噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度.

过拟合: low bias, high variance

欠拟合: high bias, low varience

3.1. 一般处理方法

减少特征的数量: 人工篮选特征、嵌入式选择

正则化：保持所有特征当时减小或者增大特征参数 , 使得所有变量对最终的预测只贡献一点比例

这里一般采用L1或L2正则化：(损失函数推导见拓展部分)

4. Dropout

以一定的概率随机地“临时丢弃”一部分神经元节点.

优点, 解决过拟合的原因:

训练时:

减小网络的大小
减少神经元之间复杂的共适应关系(co-adaptations), 这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在某个特定特征下才有效果的情况.

人工神经网络的一个核心思想是分布式表征(Distributed Representation), 当我们表述一个概念的时候, 神经元和概念之间不是一对一对应映射(map)存储的，它们之间的关系是多对多。当一个节点发生故障的时候, 其他对应的节点能表达概念.

每次迭代所得到的不同结构的神经网络, 比只在单个健全网络上进行特征学习, 其泛化能力来得更加健壮.

测试时:

将参与学习的节点和那些被隐藏的节点以概率p加权求和，综合计算得到网络的输出。(算是一种集成学习(Ensemble Learning))

训练阶段每个神经元以概率p被保留

测试阶段每个神经元都激活, 权重W要乘以p, 输出pW

因为输入将被dropout的神经元的值为, 训练时dropout之后的期望是, 在预测阶段总是激活, 所以为了保持相同的输出期望, 所以.

5. 目标函数, 代价函数, 损失函数

代价函数:

代价函数=损失函数, loss function越小, 标识模型对数据的拟合越好

目标函数:

在代价函数的最优化经验风险的基础上加入优化结构风险策略(eg: L2正则化)的函数表达式. 不加结构风险策略时, 目标函数就与代价函数一致了.

6. 损失函数的使用场景

7. k-fold交叉验证 Method of Stacking

(左半边) 训练时每个model都用k-fold cross validation训练得到k个模型，测试时每个model的k个模型预测测试集得到的结果取平均

(右半边) 训练时使用level2 model训练验证集的合集和训练集，测试时使用level2 model来预测