Matrix and Vector Calculus

Matrix and vector calculus forms the mathematical foundation for optimal control theory. This document covers the essential differentiation rules and formulas needed for gradient-based optimization methods in control systems.

1. Derivatives of Scalar Functions by Vectors

Single Variable Case

For a scalar function of a single variable: $f(u) = u^2 - 2u - 1$

where $f, u \in \mathbb{R}$ .

The derivative is: $\frac{df(u)}{du} = 2u - 2$

The extremum occurs when: $\frac{df(u)}{du}\bigg|_{u=1} = 0$

Multivariable Case

For a scalar function of two variables:

f(u) = u_1^2 + u_2^2 + 2u_1

To find the extremum:

\begin{aligned} \begin{cases} \frac{\partial f(u_1,u_2)}{\partial u_1} = 0 \\ \frac{\partial f(u_1,u_2)}{\partial u_2} = 0 \end{cases} \end{aligned}

Vector Notation

Define vector $\mathbf{u} = [u_1 \; u_2]^T$ , then:

\frac{\partial f(\mathbf{u})}{\partial \mathbf{u}} = \begin{bmatrix} \frac{\partial f(\mathbf{u})}{\partial u_1} \\ \frac{\partial f(\mathbf{u})}{\partial u_2} \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}

General Vector Case

For a scalar function $f(\mathbf{u}) \in \mathbb{R}$ of vector $\mathbf{u} = [u_1 \; \cdots \; u_n]^T \in \mathbb{R}^n$ :

Denominator Layout

\frac{\partial f(\mathbf{u})}{\partial \mathbf{u}} \triangleq \begin{bmatrix} \frac{\partial f(\mathbf{u})}{\partial u_1} \\ \vdots \\ \frac{\partial f(\mathbf{u})}{\partial u_n} \end{bmatrix}

where $\frac{\partial f(\mathbf{u})}{\partial \mathbf{u}} \in \mathbb{R}^n$ is a column vector.

Numerator Layout

\frac{\partial f(\mathbf{u})}{\partial \mathbf{u}} \triangleq \begin{bmatrix} \frac{\partial f(\mathbf{u})}{\partial u_1} & \cdots & \frac{\partial f(\mathbf{u})}{\partial u_n} \end{bmatrix}

where $\frac{\partial f(\mathbf{u})}{\partial \mathbf{u}} \in \mathbb{R}^{1 \times n}$ is a row vector.

Convention

In this document, we use the denominator layout convention, which is more common in control theory and optimization.

2. Derivatives of Vector Functions by Vectors

Vector Function by Scalar

For vector function $f(u) = [f_1(u) \; \cdots \; f_m(u)]^T \in \mathbb{R}^m$ of scalar $u$ :

\frac{\partial f(u)}{\partial u} \triangleq \begin{bmatrix} \frac{\partial f_1(u)}{\partial u} & \cdots & \frac{\partial f_m(u)}{\partial u} \end{bmatrix}

where $\frac{\partial f(u)}{\partial u} \in \mathbb{R}^{1 \times m}$ .

Vector Function by Vector (Jacobian Matrix)

For vector function $f(u) = [f_1(u) \; \cdots \; f_m(u)]^T \in \mathbb{R}^m$ of vector $u = [u_1 \; \cdots \; u_n]^T \in \mathbb{R}^n$ :

\frac{\partial f(u)}{\partial u} \triangleq \begin{bmatrix} \frac{\partial f_1(u)}{\partial u_1} & \frac{\partial f_2(u)}{\partial u_1} & \cdots & \frac{\partial f_m(u)}{\partial u_1} \\ \frac{\partial f_1(u)}{\partial u_2} & \frac{\partial f_2(u)}{\partial u_2} & \cdots & \frac{\partial f_m(u)}{\partial u_2} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_1(u)}{\partial u_n} & \frac{\partial f_2(u)}{\partial u_n} & \cdots & \frac{\partial f_m(u)}{\partial u_n} \end{bmatrix}

where $\frac{\partial f(u)}{\partial u} \in \mathbb{R}^{n \times m}$ .

This is called the Jacobian matrix.

Jacobian Properties

When using numerator layout: $J_{\text{numerator}} = J_{\text{denominator}}^T$
The Jacobian generalizes the concept of derivative to vector-valued functions
Essential for Newton-Raphson methods and gradient-based optimization

3. Matrix Differentiation Formulas

Formula 1: Linear Form

\frac{\partial (u^T f)}{\partial u} = f

where $u, f \in \mathbb{R}^n$ .

Proof:

u^T f = \begin{bmatrix} u_1 & \cdots & u_n \end{bmatrix} \begin{bmatrix} f_1 \\ \vdots \\ f_n \end{bmatrix} = f_1 u_1 + \cdots + f_n u_n

\frac{\partial (u^T f)}{\partial u} = \begin{bmatrix} \frac{\partial (u^T f)}{\partial u_1} \\ \vdots \\ \frac{\partial (u^T f)}{\partial u_n} \end{bmatrix} = \begin{bmatrix} f_1 \\ \vdots \\ f_n \end{bmatrix} = f

Formula 2: Matrix-Vector Product

\frac{\partial (Au)}{\partial u} = A^T

where $u \in \mathbb{R}^n$ , $A \in \mathbb{R}^{n \times n}$ .

Proof:

Au = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{bmatrix} \begin{bmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{bmatrix}

Let $f = Au$ , then:

\frac{\partial (Au)}{\partial u} = \begin{bmatrix} \frac{\partial f_1}{\partial u_1} & \frac{\partial f_2}{\partial u_1} & \cdots & \frac{\partial f_n}{\partial u_1} \\ \frac{\partial f_1}{\partial u_2} & \frac{\partial f_2}{\partial u_2} & \cdots & \frac{\partial f_n}{\partial u_2} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_1}{\partial u_n} & \frac{\partial f_2}{\partial u_n} & \cdots & \frac{\partial f_n}{\partial u_n} \end{bmatrix} = A^T

Formula 3: Quadratic Form

\frac{\partial (u^T A u)}{\partial u} = Au + A^T u

where $u \in \mathbb{R}^n$ , $A \in \mathbb{R}^{n \times n}$ .

Special case: If $A = A^T$ (symmetric), then:

\frac{\partial (u^T A u)}{\partial u} = 2Au

Proof:

u^T A u = \sum_{i=1}^n \sum_{j=1}^n a_{ij} u_i u_j

Taking the partial derivative with respect to $u_k$ :

\frac{\partial (u^T A u)}{\partial u_k} = \sum_{j=1}^n a_{kj} u_j + \sum_{i=1}^n a_{ik} u_i = (Au)_k + (A^T u)_k

Therefore:

\frac{\partial (u^T A u)}{\partial u} = Au + A^T u

Formula 4: Second Derivative of Quadratic Form

\frac{\partial^2 (u^T A u)}{\partial u^2} = A + A^T

Special case: If $A = A^T$ , then:

\frac{\partial^2 (u^T A u)}{\partial u^2} = 2A

This is the Hessian matrix of the quadratic form.

4. Chain Rule for Matrix Derivatives

General Chain Rule

For scalar function $J = f(y(u)) \in \mathbb{R}$ , where $y(u) \in \mathbb{R}^m$ , $u \in \mathbb{R}^n$ :

\frac{\partial J}{\partial u} = \frac{\partial y}{\partial u} \frac{\partial J}{\partial y} \in \mathbb{R}^n

Note the order: $\frac{\partial y}{\partial u} \in \mathbb{R}^{n \times m}$ and $\frac{\partial J}{\partial y} \in \mathbb{R}^m$ .

Example Application

\frac{\partial J}{\partial u} = 2A^T B y

where:

$u \in \mathbb{R}^n$
$A \in \mathbb{R}^{m \times n}$
$y(u) = Au \in \mathbb{R}^m$
$B \in \mathbb{R}^{m \times m}$
$J = y^T B y \in \mathbb{R}$

Derivation:

\frac{\partial J}{\partial u} = \frac{\partial y}{\partial u} \frac{\partial J}{\partial y} = A^T \cdot 2By = 2A^T B y

5. Derivatives of Scalar Functions by Matrices

For scalar function $f(K)$ of matrix $K \in \mathbb{R}^{m \times n}$ :

\frac{\partial f(K)}{\partial K} \triangleq \begin{bmatrix} \frac{\partial f(K)}{\partial k_{11}} & \frac{\partial f(K)}{\partial k_{12}} & \cdots & \frac{\partial f(K)}{\partial k_{1n}} \\ \frac{\partial f(K)}{\partial k_{21}} & \frac{\partial f(K)}{\partial k_{22}} & \cdots & \frac{\partial f(K)}{\partial k_{2n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f(K)}{\partial k_{m1}} & \frac{\partial f(K)}{\partial k_{m2}} & \cdots & \frac{\partial f(K)}{\partial k_{mn}} \end{bmatrix}

Applications in Optimal Control

Linear Regression and Least Squares

The least squares problem:

\min_{x} \|Ax - b\|^2 = \min_{x} (Ax - b)^T(Ax - b)

Using our formulas:

\frac{\partial}{\partial x}[(Ax - b)^T(Ax - b)] = 2A^T(Ax - b)

Setting to zero gives the normal equations:

A^T A x = A^T b

Gradient Descent

For cost function $J(x) = \frac{1}{2}x^T Q x + c^T x$ :

\nabla J(x) = \frac{\partial J}{\partial x} = Qx + c

Gradient descent update:

x_{k+1} = x_k - \alpha \nabla J(x_k) = x_k - \alpha(Qx_k + c)

LQR Cost Function

For the quadratic cost:

J = x_N^T S x_N + \sum_{k=0}^{N-1} (x_k^T Q x_k + u_k^T R u_k)

The gradients are:

$\frac{\partial J}{\partial x_k} = 2Qx_k$ (for $k < N$ )
$\frac{\partial J}{\partial x_N} = 2Sx_N$
$\frac{\partial J}{\partial u_k} = 2Ru_k$

Key Takeaways

Denominator layout is standard in control theory
Chain rule order matters: $\frac{\partial y}{\partial u} \frac{\partial J}{\partial y}$
Symmetric matrices simplify quadratic form derivatives
These formulas are essential for gradient-based optimization in optimal control

References

Magnus, J. R., & Neudecker, H. (2019). Matrix Differential Calculus with Applications in Statistics and Econometrics. John Wiley & Sons.
Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark.
Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.

1. Derivatives of Scalar Functions by Vectors​

Single Variable Case​

Multivariable Case​

Vector Notation​

General Vector Case​

Denominator Layout​

Numerator Layout​

2. Derivatives of Vector Functions by Vectors​

Vector Function by Scalar​

Vector Function by Vector (Jacobian Matrix)​

3. Matrix Differentiation Formulas​

Formula 1: Linear Form​

Formula 2: Matrix-Vector Product​

Formula 3: Quadratic Form​

Formula 4: Second Derivative of Quadratic Form​

4. Chain Rule for Matrix Derivatives​

General Chain Rule​

Example Application​

5. Derivatives of Scalar Functions by Matrices​

Applications in Optimal Control​

Linear Regression and Least Squares​

Gradient Descent​

LQR Cost Function​

References​

1. Derivatives of Scalar Functions by Vectors

Single Variable Case

Multivariable Case

Vector Notation

General Vector Case

Denominator Layout

Numerator Layout

2. Derivatives of Vector Functions by Vectors

Vector Function by Scalar

Vector Function by Vector (Jacobian Matrix)

3. Matrix Differentiation Formulas

Formula 1: Linear Form

Formula 2: Matrix-Vector Product

Formula 3: Quadratic Form

Formula 4: Second Derivative of Quadratic Form

4. Chain Rule for Matrix Derivatives

General Chain Rule

Example Application

5. Derivatives of Scalar Functions by Matrices

Applications in Optimal Control

Linear Regression and Least Squares

Gradient Descent

LQR Cost Function

References