Chapter 1

梯度下降法

我们想要求解的无约束最优化问题如下 \[\min_{x \in \mathbb{R}^n }f(x)\] 如果我们想要通过迭代的方式，将初始点$x_0$逐步迭代到最优解所在的$x^*$,我们会考虑这样的一个搜索点迭代过程： \[ x_{t+1} = x_t + \gamma d_t\] 其中$d_t$是我们根据目标函数在$x_t$的情况确定的搜索方向，而$\gamma_t$则称为迭代点$x_t$沿搜索方向的步长。因此我们需要寻求这样一种算法，在已知函数$f$和迭代点$x_t$的情况下，能够算出搜索方向$d_t$，使得$x_t$在这个搜索方向下得到点能够使得$f$变小，即： \[f(x_{t+1}) < f(x_t)\] 梯度下降法希望得到一个在该点下降最快的方向。如果函数是一阶可导的，那么这个函数在某一点下降最快的方向是该点的梯度方向。
我们可以简单的证明：
设目标函数$f$连续可微，将$f$在$x_t$处Taylor展开： \[ f(x) = f(x_t) + \nabla f(x_t)^T(x - x_t) + o(\Vert x - x_t \Vert) \] 令$ x = x_{t+ 1}$,结合$x_{t+1} = x_t + t d_t$迭代式可以得到$$ f(x{t+1}) = f(x_t) + t f(x_t)^T d_t + o(x{t+1} - x_t ) \[ 若我们的迭代过程是切实可行的，那我们有$x_{t_1} - x_t \rightarrow \infty$,则 \] f(x_{t+1}) = f(x_t) + _t f(x_t)^T d_t $$ 那么 dwdw