矩阵求导和迹运算
求导
对与矩阵 $X$, $A$, $U$, $V$
对于一个 n 维的方程组 $f(x_1,x_2,,x_n)$,求解它的最小值需要
所以可以定义一个矩阵方程,并且 $y\in R^{n\times1}$
则求导为
最终的结果的行数与分母一致,所以这种布局表达形式被称作 分母布局(Denominator Layout)
最终的结果的行数与分子一致,所以这种布局表达形式被称作 分子布局(Numerator Layout)
上述所说的求导是函数是一个 $1\times1$ 的形式的,对于 $m\times 1$ 的函数来说,求导的结果为
最终的结果是一个 $n\times m$ 的矩阵,行数与分母一致,所以这种布局表达形式被称作 分母布局(Denominator Layout)
最终的结果是一个 $m\times n$ 的矩阵,行数与分子一致,所以这种布局表达形式被称作 分子布局(Numerator Layout)
不同的布局形式导致结果互为转置,计算中应当保持一种矩阵运算的形式
对于上述中求解最小/大值需要求导为 0,但是有些情况不能够实现,所以使用梯度下降法
定义梯度
定义一个初始的 $y=y^*$,不断迭代,直到最终值满意
其中 $\alpha$ 是学习率,也就是不断接近目标值的步长,而且可以是矩阵,对于不同的数据可以有不同的步长
矩阵的链式求导
迹运算
矩阵迹运算
矩阵的迹对矩阵求偏导
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LuosBlog!