在数学中， 矩阵微积分是多元微积分的一种特殊表达，尤其是在矩阵空间上进行讨论的时候。它把单个函数对多个变量或者多元函数对单个变量的偏导数写成向量和矩阵的形式，使其可以被当成一个整体被处理。这使得要在多元函数寻找最大或最小值，又或是要为微分方程系统寻解的过程大幅简化。这里我们主要使用统计学和工程学中的惯用记法，而张量下标记法更常用于物理学中。

Types	Scalar	Vector	Matrix
Scalar	$\dfrac{\partial y}{\partial x}$	$\dfrac{\partial\mathbf y}{\partial x}$	$\dfrac{\partial\mathbf Y}{\partial x}$
Vector	$\dfrac{\partial y}{\partial\mathbf x}$	$\dfrac{\partial\mathbf y}{\partial\mathbf x}$
Matrix	$\dfrac{\partial y}{\partial\mathbf X}$

向量求导

scalar-by-vector

标量 $y=f(\mathbf x)$ 相对于向量 $\mathbf x=(x_1,x_2,\cdots,x_n)^T$ 的一阶导数称为梯度

$\nabla f(\mathbf x)=\frac{\partial f}{\partial\mathbf x}=\left(\frac{\partial f}{\partial x_i}\right)_{n\times 1}$

标量 $y=f(\mathbf x)$ 相对于向量 $\mathbf x=(x_1,x_2,\cdots,x_n)^T$ 的二阶导数称为 Hessian 矩阵

$\nabla^2f(\mathbf x)=\left(\frac{\partial^2 f}{\partial x_i\partial x_j}\right)_{n\times n}$

求导法则：

(1) 设 $a$ 为常数，标量函数 $y=f(\mathbf x),z=g(\mathbf x)$

$\dfrac{\partial ay}{\partial\mathbf x}=a\dfrac{\partial y}{\partial\mathbf x}$

$\dfrac{\partial (y+z)}{\partial\mathbf x}=\dfrac{\partial y}{\partial\mathbf x}+\dfrac{\partial z}{\partial\mathbf x}$

$\dfrac{\partial (yz)}{\partial\mathbf x}=y\dfrac{\partial z}{\partial\mathbf x}+z\dfrac{\partial y}{\partial\mathbf x}$

(2) 设 $\mathbf a$ 为常向量， $\mathbf A$ 为常矩阵，向量函数 $\mathbf y=f(\mathbf x),\mathbf z=g(\mathbf x)$

$\dfrac{\partial \mathbf a^T\mathbf y}{\partial\mathbf x}=\dfrac{\partial\mathbf y^T\mathbf a}{\partial\mathbf x}=\dfrac{\partial\mathbf y}{\partial\mathbf x}\mathbf a$

$\dfrac{\partial\mathbf y^T\mathbf z}{\partial\mathbf x}=\dfrac{\partial\mathbf z^T\mathbf y}{\partial\mathbf x}=\dfrac{\partial\mathbf y}{\partial\mathbf x}\mathbf z+\dfrac{\partial\mathbf z}{\partial\mathbf x}\mathbf y$

$\dfrac{\partial \mathbf x^T\mathbf A\mathbf x}{\partial\mathbf x}=(\mathbf A+\mathbf A^T)\mathbf x$

$\dfrac{\partial \mathbf x^T\mathbf x}{\partial\mathbf x}=\dfrac{\partial \|\mathbf x\|^2}{\partial\mathbf x}=2\mathbf x$

$\dfrac{\partial \|\mathbf x-\mathbf a\|}{\partial\mathbf x}=\dfrac{\mathbf x-\mathbf a}{\|\mathbf x-\mathbf a\|}$

vector-by-scalar

向量 $\mathbf y=(y_1,y_2,\cdots,y_n)^T$ 相对于标量 $x$ 的导数为向量

$\frac{\partial\mathbf y}{\partial x}=\left(\frac{\partial y_i}{\partial x}\right)_{1\times n}$

求导法则：

设 $a$ 为常数， $\mathbf A$ 为常矩阵，向量函数 $\mathbf y=f(\mathbf x),\mathbf z=g(\mathbf x)$

$\dfrac{\partial a\mathbf y}{\partial x}=a\dfrac{\partial\mathbf y}{\partial x}$

$\dfrac{\partial \mathbf{Au}}{\partial x}=\dfrac{\partial\mathbf y}{\partial x}\mathbf A^T$

$\dfrac{\partial (\mathbf{y+z})}{\partial x}=\dfrac{\partial\mathbf y}{\partial x}+\dfrac{\partial\mathbf z}{\partial x}$

$\dfrac{\partial (\mathbf y^T\times \mathbf z)}{\partial x}=\dfrac{\partial\mathbf y}{\partial x}\times\mathbf z+\mathbf y^T\times(\dfrac{\partial\mathbf z}{\partial x})^T$

vector-by-vector

向量 $\mathbf y=(y_1,y_2,\cdots,y_n)^T$ 相对于向量 $\mathbf x=(x_1,x_2,\cdots,x_m)^T$ 的导数为 $m\times n$ 矩阵，第 $i$ 行 $j$ 列为

$\left(\frac{\partial\mathbf y}{\partial\mathbf x}\right)_{ij}=\frac{\partial y_j}{\partial x_i}$

求导法则：

(1) 设 $a$ 为常数， $\mathbf A$ 为常矩阵，向量函数 $\mathbf y=f(\mathbf x),\mathbf z=g(\mathbf x)$ ，

$\dfrac{\partial \mathbf x}{\partial\mathbf x}=\mathbf I$

$\dfrac{\partial a\mathbf y}{\partial\mathbf x}=a\dfrac{\partial\mathbf y}{\partial\mathbf x}$

$\dfrac{\partial \mathbf{Ax}}{\partial\mathbf x}=\mathbf A^T$

$\dfrac{\partial \mathbf x^T\mathbf{A}}{\partial\mathbf x}=\mathbf A$

$\dfrac{\partial \mathbf{Ay}}{\partial\mathbf x}=\dfrac{\partial\mathbf y}{\partial\mathbf x}\mathbf A^T$

$\dfrac{\partial (\mathbf{y+z})}{\partial\mathbf x}=\dfrac{\partial\mathbf y}{\partial\mathbf x}+\dfrac{\partial\mathbf z}{\partial\mathbf x}$

$\dfrac{\partial\mathbf y^T\mathbf{Av}}{\partial\mathbf x}=\dfrac{\partial\mathbf y}{\partial\mathbf x}\mathbf{Av}+\dfrac{\partial\mathbf z}{\partial\mathbf x}\mathbf A^T\mathbf y$

(2) 向量函数 $\mathbf y=f(\mathbf x)$ ，标量函数 $z=g(\mathbf x)$

$\dfrac{\partial z\mathbf y}{\partial\mathbf x}=z\dfrac{\partial\mathbf y}{\partial\mathbf x}+\dfrac{\partial z}{\partial\mathbf x}\mathbf y^T$

(3) 向量函数 $\mathbf y=f(\mathbf x)$ 按位计算，即 $y_i=f(x_i)$ 。其导数为一个对角矩阵

$\dfrac{\partial f(\mathbf x)}{\partial\mathbf x}=\text{diag}(f'(x_1),f'(x_2), \cdots))$

矩阵求导

scalar-by-matrix

定义矩阵 $\mathbf X_{m\times n}$ 上的标量函数 $y$ 对矩阵的导数为矩阵

$\frac{\partial y}{\partial \mathbf X}=\left(\cfrac{\partial y}{\partial x_{ij}}\right)_{m\times n}$

定义矩阵上的重要的标量函数包括矩阵的迹和行列式。

求导法则：

(1) 设 $a$ 为常数，标量函数 $y=f(\mathbf X),z=g(\mathbf X)$

$\dfrac{\partial ay}{\partial\mathbf X}=a\dfrac{\partial y}{\partial\mathbf X}$

$\dfrac{\partial (y+z)}{\partial\mathbf X}=\dfrac{\partial y}{\partial\mathbf X}+\dfrac{\partial z}{\partial\mathbf X}$

$\dfrac{\partial (yz)}{\partial\mathbf X}=y\dfrac{\partial z}{\partial\mathbf X}+z\dfrac{\partial y}{\partial\mathbf X}$

(2) 设 $\mathbf{a,b}$ 为常向量， $\mathbf A$ 为常矩阵

$\dfrac{\partial\mathbf a^T\mathbf{Xb}}{\partial\mathbf X}=\mathbf{ab}^T$

(3) 设 $\mathbf{A,B}$ 为常矩阵

$\dfrac{\partial\text{tr}(\mathbf X)}{\partial\mathbf X}=\mathbf I$

$\dfrac{\partial\text{tr}(\mathbf{AX)}}{\partial\mathbf X}=\dfrac{\partial\text{tr}(\mathbf{XA)}}{\partial\mathbf X}=\mathbf A^T$

$\dfrac{\partial\text{tr}(\mathbf X^T\mathbf A)}{\partial\mathbf X}=\dfrac{\partial\text{tr}(\mathbf{AX}^T)}{\partial\mathbf X}=\mathbf A$

$\dfrac{\partial\text{tr}(\mathbf{XAX}^T)}{\partial\mathbf X}=\mathbf{X(A+A}^T)$

$\dfrac{\partial\text{tr}(\mathbf X^T \mathbf{AX})}{\partial\mathbf X}=(\mathbf A+\mathbf A^T)\mathbf X$

$\dfrac{\partial\text{tr}(\mathbf{XAX}^T\mathbf B)}{\partial\mathbf X}=\mathbf{BXA}+\mathbf B^T\mathbf{XA}^T$

matrix-by-scalar

矩阵 $\mathbf Y=(y_{ij})_{m\times n}$ 对相对于标量 $x$ 的导数为矩阵 (仅分子布局)

$\frac{\partial\mathbf Y}{\partial x}= \left(\cfrac{\partial y_{ij}}{\partial x}\right)_{m\times n}$