非凸优化与梯度下降

首先抛一个知乎的回答:在数学中一个非凸的最优化问题是什么意思?

作者:王业磊
链接:https://www.zhihu.com/question/20343349/answer/17347657

在深度学习中,我们需要学习一些参数,使我们的模型更加准确。但这些参数一开始是0或随机的,深度学习的过程是将这些参数一次次迭代,从而找到最优解。

w,b:参数 J(w,b):代价函数

从上图可以看到,求导的结果为负的时候,w和b的值会增加,反之亦然,这使得w和b逐渐接近最优解(极值)。这里可能出现的问题是,α的取值要合适,暂时不做探讨;并且不能出现多个局部最优解(多个极值),这就是要求J为凸函数的原因了。

有一点需要指出:偏微分使用符号∂而不是d,但这种使用形式并没有太多的道理,无须在意。