Chapter 1
梯度下降法
我们想要求解的无约束最优化问题如下 \[\min_{x \in \mathbb{R}^n }f(x)\]
如果我们想要通过迭代的方式,将初始点\(x_0\)逐步迭代到最优解所在的\(x^*\),我们会考虑这样的一个搜索点迭代过程:
\[ x_{t+1} = x_t + \gamma d_t\]
其中\(d_t\)是我们根据目标函数在\(x_t\)的情况确定的搜索方向,而\(\gamma_t\)则称为迭代点\(x_t\)沿搜索方向的步长。因此我们需要寻求这样一种算法,在已知函数\(f\)和迭代点\(x_t\)的情况下,能够算出搜索方向\(d_t\),使得\(x_t\)在这个搜索方向下得到点能够使得\(f\)变小,即: \[f(x_{t+1}) < f(x_t)\]
梯度下降法希望得到一个在该点下降最快的方向。如果函数是一阶可导的,那么这个函数在某一点下降最快的方向是该点的梯度方向。
我们可以简单的证明:
设目标函数\(f\)连续可微,将\(f\)在\(x_t\)处Taylor展开: \[ f(x) = f(x_t) + \nabla f(x_t)^T(x - x_t) +
o(\Vert x - x_t \Vert) \] 令$ x = x_{t+ 1}\(,结合\)x_{t+1} = x_t + t d_t\(迭代式可以得到\)$ f(x{t+1}) = f(x_t) +
t f(x_t)^T d_t + o(x{t+1} - x_t ) \[
若我们的迭代过程是切实可行的,那我们有$x_{t_1} - x_t \rightarrow
\infty$,则
\] f(x_{t+1}) = f(x_t) + _t f(x_t)^T d_t $$ 那么 dwdw