勾配降下法(Gradient Descent)

Posted Feb 20, 2025 Updated Apr 8, 2025

By Guang-Ze Yang 5 min read

1. 最適化問題の定式化

勾配降下法（Gradient Descent）は，関数$f(x)$の最小値を求めるための最適化アルゴリズムの一つである．ここでは，最小化したい関数$f(x)$を以下のように定義する：

\[\min_{x \in \mathbb{R}^n} f(x)\]

関数$f(x)$は通常，微分可能な連続関数と仮定する．

関数$f(x)$をある点$x_k$の周りで 1 次のテイラー展開をすると，

\[f(x_k + d) \approx f(x_k) + \nabla f(x_k)^T d\]

ここで，$\nabla f(x_k)$は$f(x)$の勾配（Gradient）であり，関数の変化方向を示す．

関数を減少させる方向を考えるため，負の勾配方向 に向かって更新を行う：

\[d_k = -\nabla f(x_k)\]

最小化のために，現在の点$x_k$から負の勾配方向に移動する．このとき，学習率（ステップサイズ）$\alpha_k > 0$を導入すると，次のように更新式を得る：

\[x_{k+1} = x_k - \alpha_k \nabla f(x_k)\]

この式が 勾配降下法（Gradient Descent） の基本的な更新則である．

学習率$\alpha_k$は，最適化の収束速度や安定性に影響を与える．

固定ステップサイズ（Fixed Step Size）
一定の値$\alpha_k = \alpha$を用いる方法．
- 大きすぎると発散する可能性がある
- 小さすぎると収束が非常に遅くなる
アダプティブステップサイズ （直線探索）各ステップごとに$\alpha_k$を調整する．例えば，最急降下法では次のように Armijo条件 や バックトラッキング を用いて$\alpha_k$を調整する：

\[\alpha_k = \arg\min_{\alpha > 0} f(x_k - \alpha \nabla f(x_k))\]

勾配降下法が収束するためには，以下の条件が必要とされる：

$f(x)$が 強凸関数（strongly convex） である場合，適切な$\alpha_k$を選べば，収束が保証される．
$\nabla f(x)$が リプシッツ連続（Lipschitz continuous） であれば，勾配降下法の収束率は次のように評価できる：
- 固定ステップサイズ： $O(1/k)$
- 適切なステップサイズ調整： $O(e^{-k})$（指数的収束）

勾配降下法には以下のようなバリエーションがある．

勾配降下法は，関数$f(x)$の最小値を求めるための最も基本的な最適化手法であり，その理論的背景と実装上のポイントを以下にまとめる：

勾配法は，機械学習・深層学習・制御最適化など多くの分野で応用されている．

This post is licensed under CC BY 4.0 by the author.