新鲜 / 健康 / 便利 / 快速 / 放心
各种优化器的?较
?、可视化?较
1
、?例?
上图描述了在?个曲?上,
6
种优化器的表现,从中可以?致看出:
①
下降速度:
三个?适应学习优化器
Adagrad
、
RMSProp
与
AdaDelta
的下降速度明显?
SGD
要快,其中,
Adagrad
和
RMSProp
齐头并进,要?
AdaDelta
要快。
两个动量优化器
Momentum
和
NAG
由于刚开始?了岔路,初期下降的慢;随着慢慢调整,下降速度越来越快,其中
NAG
到后期甚?超过了
领先的
Adagrad
和
RMSProp
。
②
下降轨迹:
SGD
和三个?适应优化器轨迹?致相同。两个动量优化器初期?了
“
岔路
”
,后期也调整了过来。
2
、?例?
上图在?个存在鞍点的曲?,?较
6
个优化器的性能表现,从图中?致可以看出:
三个?适应学习率优化器没有进?鞍点,其中,
AdaDelta
下降速度最快,
Adagrad
和
RMSprop
则齐头并进。
两个动量优化器
Momentum
和
NAG
以及
SGD
都顺势进?了鞍点。但两个动量优化器在鞍点抖动了?会,就逃离了鞍点并迅速地下降,后来
居上超过了
Adagrad
和
RMSProp
。
很遗憾,
SGD
进?了鞍点,却始终停留在了鞍点,没有再继续下降。
3
、?例三
上图?较了
6
种优化器收敛到?标点(五?星)的运?过程,从图中可以?致看出:
①
在运?速度
两个动量优化器
Momentum
和
NAG
的速度最快,其次是三个?适应学习率优化器
AdaGrad
、
AdaDelta
以及
RMSProp
,最慢的则是
SGD
。
②
在收敛轨迹
两个动量优化器虽然运?速度很快,但是初中期?了很长的
”
岔路
”
。
三个?适应优化器中,
Adagrad
初期?了岔路,但后来迅速地调整了过来,但相?其他两个?的路最长;
AdaDelta
和
RMSprop
的运?轨迹差
不多,但在快接近?标的时候,
RMSProp
会发?很明显的抖动。
SGD