梯度消失和梯度爆炸(解释意思,分析产生原因)

在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1,那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则,属于先天不足。

请解释什么是batch normal,它有什么作用?

神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而Batch Normalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

BN层的作用是把一个batch内的所有数据,从不规范的分布拉到正态分布。这样做的好处是使得数据能够分布在激活函数的敏感区域,敏感区域即为梯度较大的区域,因此在反向传播的时候能够较快反馈误差传播。

增大batch size应该增大还是减小学习率?

增大。增大batch size相当于见到的样本更多,波动更小,可以增大学习率,加快收敛速度。

给一个三层神经网络(一个输入层,一个隐藏层,一个输出层),手推一下反向传播算法。

重点关注链式求导法则,sigmoid函数求导。

什么是过拟合,欠拟合

过拟合:训练集上损失很小,测试集上测试效果很差。

欠拟合:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。

正则项的作用,什么是L1,L2正则。它们的区别

防止过拟合。

L1是模型各个参数的绝对值之和; L1会趋向于产生少量的特征,而其他的特征都是0,产生稀疏权重矩阵;   L2是模型各个参数的平方和的开方值。 L2会选择更多的特征,这些特征都会接近于0,当最小化||w||时,就会使每一项趋近于0,防止过拟合

什么是SGD

什么是GAN?

生成器,判别器。能讲出大致思路。

分类问题评价指标

精准,召回,F1等,解释含义。

AUC、ROC

 

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部