求导

对与矩阵 $X$, $A$, $U$, $V$

对于一个 n 维的方程组 $f(x_1,x_2,,x_n)$,求解它的最小值需要

所以可以定义一个矩阵方程,并且 $y\in R^{n\times1}$

则求导为

最终的结果的行数与分母一致,所以这种布局表达形式被称作 分母布局(Denominator Layout)

最终的结果的行数与分子一致,所以这种布局表达形式被称作 分子布局(Numerator Layout)

上述所说的求导是函数是一个 $1\times1$ 的形式的,对于 $m\times 1$ 的函数来说,求导的结果为

最终的结果是一个 $n\times m$ 的矩阵,行数与分母一致,所以这种布局表达形式被称作 分母布局(Denominator Layout)

最终的结果是一个 $m\times n$ 的矩阵,行数与分子一致,所以这种布局表达形式被称作 分子布局(Numerator Layout)

不同的布局形式导致结果互为转置,计算中应当保持一种矩阵运算的形式

对于上述中求解最小/大值需要求导为 0,但是有些情况不能够实现,所以使用梯度下降法

定义梯度

定义一个初始的 $y=y^*$,不断迭代,直到最终值满意

其中 $\alpha$ 是学习率,也就是不断接近目标值的步长,而且可以是矩阵,对于不同的数据可以有不同的步长

矩阵的链式求导

迹运算

矩阵迹运算

矩阵的迹对矩阵求偏导