深度学习基础-正则化和归一化

一、训练集、验证集和测试集的划分

在机器学习发展的小数据时代,常见做法是将所有数据三七分,即70%训练集和30%测试集,如果没有明确设置验证集,也可以按照60%训练集,20%验证集,20%测试集来划分。 这是早些年机器学习领域普遍认可的最好的实践方法,如果数据只有100条,1000条或10000条,上述比例是非常合理的。

但是在大数据时代,我们现在的数据量可能是百万级别,那么验证集和测试集占数据总量的比例会趋向于变得更小。因为验证集的目的就是为了验证不同的算法,检验哪种算法更有效,我们不需要拿出20%的数据作为验证集。

在这里给出一个结论,在机器学习中,我们通常将样本分成训练集,验证集和测试集三部分,数据集规模相对较小,适合传统的划分比例,数据集规模较大的,验证集和测试集要小于总量的20%或10%。

还有一点需要注意的是,确保测试集和验证集的数据来自同一分布。庞大的数据往往来源不止一个,比如说,现在需要收集猫的图片,我们可以从高清网站上爬取,也可以请业余人士手机拍摄,前者得到的照片像素高,清晰度高,后者得到的照片质量相比之下就没有那么好,这种情况下,需要避免测试集和验证集中的数据来自两个分布。训练集来自专业网站,测试集和验证集来自业余人士手机拍摄。

二、偏差和方差(Bias & Variance)

熟悉机器学习的应该知道,这三种方案的拟合情况是:欠拟合,正常拟合和过拟合。对偏差和方差的一个直观理解是,欠拟合(underfitting)代表着高偏差(high bias),过拟合(overfitting)代表着高方差(high variance)。

如果通过模型在训练集和验证集上的误差来判断偏差和方差的话,简单来说就是:

1.训练集上误差低,验证集上误差高=》高方差(high variance)
2.训练集和验证集误差都高,但是二者相近=》高偏差(high bias)
3.训练集和验证集误差都高,但是验证集误差明显高于训练集=》高偏差和高方差

偏差更倾向于衡量模型在训练集上的表现效果,方差更倾向于衡量模型在验证集或测试集上的表现效果。

三、避免高偏差和高方差的一些策略

避免高偏差(high bias)的的策略:

1.评估训练集或训练数据的性能是否合理
2.采取新的神经网络结构,或增加隐藏层和隐藏单元,用更大的网络去拟合训练数据
3,增加训练时间,优化算法(增加训练时间不一定有效,但是至少没什么坏处)

避免高方差(high variance)的策略:

1.评估验证集的性能是否合理
2.增加训练集,提高模型的性能
3.正则化

上述的策略来自吴恩达老师深度学习视频,大多都是通过大量实践得到的经验,不一定保证有效,但是值得尝试。

四、L2正则化(L2 Regularization)

正则项一般作用于代价函数,以逻辑回归为例,代价函数正则化得到的公式如下:
$$
J(W,b)=\frac{1}{m}\sum_{i=1}^m L(\hat{y^{(i)}},y^{(i}) + \frac{\lambda}{2m}||W||^22+ \frac{\lambda}{2m}\sum{l=1}^L||W^{[l]}||_F^2
$$

这就是L2正则化,最后一项为权重矩阵W的L2范数(也称为欧几里得范数),具体的计算为:

$$
||W||^22=\sum{j=1}^{m}wj^2=W^TW
$$
对应的也有L1正则化,但是使用的比较少,这里给出L1正则化的正则项:
$$
\begin{aligned}
\frac{\lambda}{m}|W| && |W|=\sum
{j=1}^{n}w_j
\end{aligned}
$$
L1正则化会使得W矩阵变得稀疏,有人认为这可以用于压缩模型,但是很少有人这么用,因此人们在训练网络时越来越倾向于使用L2正则化,这里就不再过多讨论L1正则化。为什么只正则化参数W?无论是逻辑回归还是神经网络,需要更新的参数主要是W,相较于W,偏移量b占比比较少,因此添加参数b实际作用不大。

接下来看看神经网络中的正则化:
$$
\begin{aligned}
J(W^{(1)},b^{(1)},W^{(2)},b^{(2)},...,W^{(L)},b^{(L)})=\frac{1}{m} \sum{i=1}^{m}L(\hat y^{(i)},y^{(i)})
\end{aligned}
$$
$$
\begin{aligned}
||W^{[l]}||
{F}^{2}=\sum^{n^{[l-1]}}_{i=1}\sum_{j=1}^{n^{[l]}}(w_{ij}^{[l]})
\end{aligned}
$$

可以看出,神经网络正则化公式与逻辑回归正则化公式大致相似,只是在神经网络中,两层之间的权重参数都是一个矩阵,因此求L2范式时需要单独求每个权重矩阵的L2范式并求和。顺带一提的是,我们通常不将该正则项称为L2范数,而是称为“弗罗贝尼乌斯范数”,它表示一个矩阵中所有元素的平方和。

既然添加正则化后损失函数的表达式发生了变化,那么对应反向传播过程方程也需要做出修改。幸运的是,添加正则项后公式的变化并不复杂,只需要再原来反向传播的基础上加上正则项的导数即可:
$$
\begin{equation}
dw^{[l]}=(from_{}backprop)+\frac{\lambda}{m}w^{[l]}
\end{equation}
$$

五、正则化为什么会起作用

关于正则化为什么会起作用的问题,是存在一套严格的证明方法,这里给出一个直观的解释,不存在公式推导(严格的公式推导博主也不会😅)。

我们知道正则化是为了解决模型过拟合而采取的一个手段,模型过拟合的一个原因是模型参数过多,产生的决策边界函数曲线完美分割训练集中的样本,甚至是一些错误样本也能分割(具体可以参考上文中的过拟合示例图),得到的模型的泛化性能力不强,在验证集或是测试集上表现效果较差。

既然知道问题出在模型参数过多,那么适当减少模型中的参数就可以减轻过拟合现象。这里考虑一个极端的情况,假如正则项中的λ非常大导致第一项中损失函数的作用微乎其微,那么反向传播更倾向于减少正则项的结果,这就导致一些神经元的权重值会变为0,这就变相使得一些神经元失活,减少模型的参数,防止过拟合。其实,有些模型会设置dropout参数,每一轮训练完成时会使一些神经元失活,防止过拟合。

从激活函数来看,更加直观的解释就是,正则项的加入使得神经元的权重值w加速减小,当λ足够大时,某些神经元的w值会变得接近于0,以tanh函数为例:


$$
z=wa^{[l]}+b \text{,线性激活} \
a^{[l+1]}=tanh(z)\text{,非线性激活}
$$
w减小会导致z的变小,从tanh图像可以看出,当x较小时,图像大致呈线性,我们知道线性网络是无法产生出复杂的决策边界,从而阻止了过拟合。

六、Dropout正则化(Dropout Regularization)

Dropout正则化的中心思想是“随机失活”,最常用的方法是inverted dropout(反向随机失活),大致步骤如下:

1.随机初始化一个d[l]向量,l为层的编号,因此每一层(或者说每两层之间)都对应有一个d[l]向量,例如:
  d3 = np.random.rand(a3.shape[0],a3.shape[1])
2.设置评判标准𝑘𝑒𝑒𝑝−𝑝𝑟𝑜𝑏,𝑘𝑒𝑒𝑝−𝑝𝑟𝑜𝑏为一个具体数字,表示保留一个隐藏单元的概率。假设为0.8,则d[l]中值为1的概率为0.8,为0的概率为0.2,例如:
  d3 = np.random.rand(a3.shape[0],a3.shape[1])<0.8
3.得到l层的输出a[l],将a[l]与d[l]相乘,例如:a3 =np.multiply(a3,d3)
4.𝑎3/=𝑘𝑒𝑒𝑝−𝑝𝑟𝑜𝑏 

关于第2步,我们初始化的d向量是通过numpy的提供的随机数函数rand完成的,这就表明d向量中的值实在0~1之间均匀分布的,小于0.8的值占80%,大于0.8的值占20%,通过d3 = np.random.rand(a3.shape[0],a3.shape[1])<0.8可以使得d向量中80%的值变为true,20%的值变为false,python会自动将true处理成1,false处理成0进行运算。

第4步的意义在于,经过第3步后,a[l]中每个值舍弃的概率为0.2,a[l]的期望减少了20%,因此第4步是为了不影响下一层的输出结果而进行的操作。

关于d向量的初始化问题:每进行一轮新的训练,d向量需要重新初始化。这就导致有时这个神经元会被删除,有时这个神经元不会被删除。这就使得神经网络不会将重心放在一个神经元节点上,不会给一个神经元赋予更大的权重。

另外每层𝑘𝑒𝑒𝑝−𝑝𝑟𝑜𝑏的值可以不一样,当𝑘𝑒𝑒𝑝−𝑝𝑟𝑜𝑏的值设置成1时,表明不会在这层实行dropout操作。

七、归一化输入(Normalization)

训练神经网络时,我们可以通过归一化输入加速神经网络训练。归一化主要分为两个步骤:零均值和归一化方差。
$$
\mu=\frac{1}{m}\sum{i=1}^mX^{(i)},X=X-\mu \text{(零均值)}\
\sigma^2=\frac{1}{m}\sum
{i=1}^m(X^(i))^2,X=\frac{X}{\sigma^2}{(归一化方差)}
$$

通过三张图来大致了解归一化的过程,第一张图时未经处理的数据,当我们进行零均值后得到第二张图,可以看出,零均值的意义在于移动数据集,让其更靠近于中心点分布。回到数据集本身,可以看出数据集在x1反向上的反差要远大于x2方向上的方差,方差归一化后的结果第三张图所示,数据集在x1方向和x2方向上的方差大致相同。

那么归一化的意义在哪呢?归一化主要通过加速梯度下降的过程来加快模型训练:

归一化后使得代价函数的图像更加原型化,相较于未归一化的较为狭长的代价函数,圆形化的代价函数梯度下降得更快,更容易找到最小值。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇