矩阵求导笔记

2024-03-15 12:38:05
开发
14

文章目录

1. ML中为什么需要矩阵求导
2. 向量函数与矩阵求导初印象
3. YX 拉伸术
4. 常见矩阵求导公式
- 4.1 $Y=A^TX$
- 4.2 $Y=X^TAX$
5. 两种布局
- 5.1 概括
- 5.2 举例
6. 最小二乘法-分母布局

1. ML中为什么需要矩阵求导

简洁
用方程式表示如下：
$y_1=w_1X_{11}+w_2X_{12}\tag{1}$
$y_2=w_1X_{21}+w_2X_{22}\tag{2}$
转换成矩阵表示如下：
$Y=XW\tag{3}$
$Y=\begin{bmatrix}y_1\\\\y_2\end{bmatrix},X=\begin{bmatrix}x_{11}&&x_{12}\\\\x_{21}&&x_{22}\end{bmatrix},W=\begin{bmatrix}w_{1}\\\\w_{2}\end{bmatrix}\tag{4}$
快速
当使用python 中的numpy 库时候，在相对于 for 循环，Numpy 本身的计算提速相当快
源代码

import time
import numpy as np

if __name__ == "__main__":
    N = 1000000
    a = np.random.rand(N)
    b = np.random.rand(N)
    start = time.time()
    c = np.dot(a,b)
    stop = time.time()
    print(f"c={c}")
    print("vectorized version: " + str(1000*(stop-start))+"ms")

    c = 0
    start1 = time.time()
    for i in range(N):
        c += a[i]*b[i]
    stop1 = time.time()

    print(f"c={c}")
    print("for loop: " + str(1000*(stop1-start1))+"ms")
    times1 = (stop1-start1)/(stop-start)
    print(f"times1={times1}")

结果

c=250071.8870070607
vectorized version: 6.549358367919922ms
c=250071.88700706122
for loop: 265.43641090393066ms
times1=40.52861303239898# 向量化居然比单独的for循环快40倍

2. 向量函数与矩阵求导初印象

标量函数:输出为标量的函数
$f(x)=x^2\Rightarrow x\in R\rightarrow x^2 \in R$
$f(x)=x_1^2+x_2^2\Rightarrow \begin{bmatrix}x_1\\\\x_2\end{bmatrix}\in R^2\rightarrow x_1^2+x_2^2 \in R$
向量函数:输出为向量或矩阵的函数
<1> 输入标量，输出向量
$f(x)=\begin{bmatrix}f_1(x)=x\\\\f_2(x)=x^2\end{bmatrix}\Rightarrow x\in R,\begin{bmatrix}x\\\\x^2\end{bmatrix} \in R^2$
<2> 输入标量，输出矩阵
$f(x)=\begin{bmatrix}f_{11}(x)=x&&f_{12}(x)=x^2\\\\f_{21}(x)=x^3&&f_{22}(x)=x^4\end{bmatrix}\Rightarrow x\in R,\begin{bmatrix}x&&x^2\\\\x^3&&x^4\end{bmatrix} \in R^{2\times2}$
<3> 输入向量，输出矩阵
$f(x)=\begin{bmatrix}f_{11}(x)=x_1+x_2&&f_{12}(x)=x_1^2+x_2^2\\\\f_{21}(x)=x_1^3+x_2^3&&f_{22}(x)=x_1^4+x_2^4\end{bmatrix}\Rightarrow \begin{bmatrix}x_1\\\\x_2\end{bmatrix} \in R^2,\begin{bmatrix}x_1+x_2&&x_1^2+x_2^2\\\\x_1^3+x_2^3&&x_1^4+x_2^4\end{bmatrix} \in R^{2\times2}$
总结
矩阵求导的本质
$\frac{\mathrm{d}A}{\mathrm{d}B}=矩阵A中的每个元素对矩阵B中的每个元素求导$

3. YX 拉伸术

3.1 f(x)为标量，X为列向量

标量不变，向量拉伸
YX中，Y前面横向拉，X后面纵向拉
$\frac{\mathrm{d}f(x)}{\mathrm{d}x},Y=f(x)为标量，X=\begin{bmatrix}x_1\\\\x_2\\\\\vdots\\\\x_n\end{bmatrix}为列向量$
$f(x)=f(x_1,x_2,....,x_n)为标量$
标量 $f (x)$ 不变，向量X 因为在YX拉伸术中在Y后面，所以向量X纵向拉伸，实际上就是将多元函数的偏导写在一个列向量中
$\frac{\mathrm{d}f(x)}{\mathrm{d}x}=\begin{bmatrix}\frac{\partial f(x)}{\partial x_1}\\\\\frac{\partial f(x)}{\partial x_2}\\\\\vdots\\\\\frac{\partial f(x)}{\partial x_n}\end{bmatrix}$

3.2 f(x)为列向量，X 为标量

$f(x)=\begin{bmatrix}f_1(x)\\\\f_2(x)\\\\\vdots\\\\f_n(x)\end{bmatrix};X 为标量$

标量不变，向量拉伸
YX中，Y前面横向拉，X后面纵向拉
$\frac{\mathrm{d}f(x)}{\mathrm{d}x}=\begin{bmatrix}\frac{\partial f_1(x)}{\partial x}&&\frac{\partial f_2(x)}{\partial x}&&\dots&&\frac{\partial f_n(x)}{\partial x}\end{bmatrix}$

3.3 f(x)为列向量，X 为列向量

$f(x)=\begin{bmatrix}f_1(x)\\\\f_2(x)\\\\\vdots\\\\f_n(x)\end{bmatrix};X=\begin{bmatrix}x_1\\\\x_2\\\\\vdots\\\\x_n\end{bmatrix}为列向量$

第一步先固定Y ，将 X 纵向拉
$\frac{\mathrm{d}f(x)}{\mathrm{d}x}=\begin{bmatrix}\frac{\partial f(x)}{\partial x_1}\\\\\frac{\partial f(x)}{\partial x_2}\\\\\vdots\\\\\frac{\partial f(x)}{\partial x_n}\end{bmatrix}$
第二步，看每一个项 $\frac{\partial f(x)}{\partial x_1}$ ,其中f(x)为列向量， $x_1$ 为标量，那么可以看出要进行 Y 横向拉
$\frac{\partial f(x)}{\partial x_1}=\begin{bmatrix}\frac{\partial f_1(x)}{\partial x_1}&&\frac{\partial f_2(x)}{\partial x_1}&&\dots&&\frac{\partial f_n(x)}{\partial x_1}\end{bmatrix}$
第三步，将每项整合如下
$\frac{\mathrm{d}f(x)}{\mathrm{d}x}=\begin{bmatrix}\frac{\partial f_1(x)}{\partial x_1}&&\frac{\partial f_2(x)}{\partial x_1}&&\dots&&\frac{\partial f_n(x)}{\partial x_1}\\\\\frac{\partial f_1(x)}{\partial x_2}&&\frac{\partial f_2(x)}{\partial x_2}&&\dots&&\frac{\partial f_n(x)}{\partial x_2}\\\\\vdots&&\vdots&&\dots&&\vdots\\\\\frac{\partial f_1(x)}{\partial x_n}&&\frac{\partial f_2(x)}{\partial x_n}&&\dots&&\frac{\partial f_n(x)}{\partial x_n}\end{bmatrix}$

4. 常见矩阵求导公式

4.1 $Y=A^TX$

$f(x)=A^TX;\quad A=[a_1,a_2,\dots,a_n]^T;\quad X=[x_1,x_2,\dots,x_n]^T,求\frac{\mathrm{d}f(x)}{\mathrm{d}X}$

由于 $A^T=1\times n,X=n\times1,那么f(x)为标量，即表示数值$ ，
标量不变，向量拉伸
YX中，Y前面横向拉，X后面纵向拉
$f(x)=\sum_{i=1}^Na_ix_i$
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=\begin{bmatrix}\frac{\partial f(x)}{\partial x_1}\\\\\frac{\partial f(x)}{\partial x_2}\\\\\vdots\\\\\frac{\partial f(x)}{\partial x_n}\end{bmatrix}$
可以计算 $\frac{\partial f(x)}{\partial x_i}$
$\frac{\partial f(x)}{\partial x_i}=a_i$
可得如下：
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=\begin{bmatrix}a_1\\\\a_2\\\\\vdots\\\\a_n\end{bmatrix}=A$
结论：
$当f(x)=A^TX$
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=A$

4.2 $Y=X^TAX$

$f(x)=X^TAX;\quad A=\begin{bmatrix}a_{11}&&a_{12}&&\dots&&a_{1n}\\\\a_{21}&&a_{22}&&\dots&&a_{2n}\\\\\vdots&&\vdots&&\dots&&\vdots\\\\a_{n1}&&a_{n2}&&\dots&&a_{nn}\end{bmatrix};\quad X=[x_1,x_2,\dots,x_n]^T,求\frac{\mathrm{d}f(x)}{\mathrm{d}X}$
$f(x)=\sum_{i=1}^N\sum_{j=1}^Na_{ij}x_ix_j$

标量不变，YX拉伸术，X纵向拉伸
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=\begin{bmatrix}\frac{\partial f(x)}{\partial x_1}\\\\\frac{\partial f(x)}{\partial x_2}\\\\\vdots\\\\\frac{\partial f(x)}{\partial x_n}\end{bmatrix}$
$\frac{\partial f(x)}{\partial x_i}=\begin{bmatrix}a_{i1}&a_{i2}&\dots&a_{in}\end{bmatrix}\begin{bmatrix}x_1\\\\x_2\\\\\vdots\\\\x_n\end{bmatrix}+\begin{bmatrix}a_{1i}&a_{2i}&\dots&a_{ni}\end{bmatrix}\begin{bmatrix}x_1\\\\x_2\\\\\vdots\\\\x_n\end{bmatrix}$
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=\begin{bmatrix}a_{11}&a_{12}&\dots&a_{1n}\\\\a_{21}&a_{22}&\dots&a_{2n}\\\\\vdots&\vdots&\dots&\vdots\\\\a_{n1}&a_{n2}&\dots&a_{nn}\end{bmatrix}\begin{bmatrix}x_1\\\\x_2\\\\\vdots\\\\x_n\end{bmatrix}+\begin{bmatrix}a_{11}&a_{21}&\dots&a_{n1}\\\\a_{12}&a_{22}&\dots&a_{n2}\\\\\vdots&\vdots&\dots&\vdots\\\\a_{1n}&a_{2n}&\dots&a_{nn}\end{bmatrix}\begin{bmatrix}x_1\\\\x_2\\\\\vdots\\\\x_n\end{bmatrix}$
已知 $A,A^T$ 表示如下：
$A=\begin{bmatrix}a_{11}&a_{12}&\dots&a_{1n}\\\\a_{21}&a_{22}&\dots&a_{2n}\\\\\vdots&\vdots&\dots&\vdots\\\\a_{n1}&a_{n2}&\dots&a_{nn}\end{bmatrix}\quad;A^T=\begin{bmatrix}a_{11}&a_{21}&\dots&a_{n1}\\\\a_{12}&a_{22}&\dots&a_{n2}\\\\\vdots&\vdots&\dots&\vdots\\\\a_{1n}&a_{2n}&\dots&a_{nn}\end{bmatrix}$
综上所述如下：
当 $f(x)=X^TAX$ 时
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=AX+A^TX=(A+A^T)X$

5. 两种布局

5.1 概括

两种布局矩阵求导的本质是向量求导拉伸方向的区别，求导后元素排列不同

口诀：前面横向拉，后面纵向拉
分子布局 XY拉伸术 $\frac{X}{Y}$ ，X横向拉，Y纵向拉
分母布局 YX拉伸术 $\frac{Y}{X}$ ，Y横向拉，X纵向拉

5.2 举例

$f(x)=X^TX,X=\begin{bmatrix}x_1&x_2&\dots&x_n\end{bmatrix}^T$

分子布局，XY拉伸术，X横向拉，Y纵向拉,f(x)为标量，标量不变，X向量横向拉伸
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=\begin{bmatrix}\frac{\partial f(x)}{\partial x_1}&\frac{\partial f(x)}{\partial x_2}&\dots&\frac{\partial f(x)}{\partial x_n}\end{bmatrix}=\begin{bmatrix}2x_1&2x_2&\dots&2x_n\end{bmatrix}=2\begin{bmatrix}x_1&x_2&\dots&x_n\end{bmatrix}=2X^T$
分母布局，YX拉伸术，Y横向拉，X纵向拉,f(x)为标量，标量不变，X向量纵向拉伸
$\frac{\mathrm{d}f(x)}{\mathrm{d}X}=\begin{bmatrix}\frac{\partial f(x)}{\partial x_1}\\\\\frac{\partial f(x)}{\partial x_2}\\\\\vdots\\\\\frac{\partial f(x)}{\partial x_n}\end{bmatrix}=\begin{bmatrix}2x_1\\\\2x_2\\\\\vdots\\\\2x_n\end{bmatrix}=2\begin{bmatrix}x_1\\\\x_2\\\\\vdots\\\\x_n\end{bmatrix}=2X$
综上所述： $分子布局=(分母布局)^T$

6. 最小二乘法-分母布局

需要拟合一个线，使得线距离每个点的距离和最短。

$L(b)=\sum_{i=1}(y_i-x_ib_i)^2$
为了方便计算，需将以上求和公式改为矩阵形式如下
$Y=\begin{bmatrix}y_1&y_2&\dots&y_n\end{bmatrix}^T;\quad X=\begin{bmatrix}x_1^T&x_2^T&\dots&x_n^T\end{bmatrix}^T;\quad x_i^T=\begin{bmatrix}x_{i1}&x_{i2}&\dots&x_{in}\end{bmatrix}$
$L(b) = (Y-Xb)^T(Y-Xb)$
$\quad=(Y^T-b^TX^T)(Y-Xb)=Y^TY-Y^TXb-b^TX^TY+b^TX^TXb$
因为 $Y^TXb$ 为标量，所以 $Y^TXb=b^TX^TY$
$L(b) =Y^TY-2Y^TXb+b^TX^TXb$
求 $L (b)$ 对b求导可得如下：
$\frac{\mathrm{d}Y^TY}{\mathrm{d}(b)}=\begin{bmatrix}0\\\\0\\\\\vdots\\\\0\end{bmatrix}_{n\times1}$
因为 $\frac{\mathrm{d}A^TX}{\mathrm{d}(X)}=A$ 可得如下：
$\frac{\mathrm{d}2Y^TXb}{\mathrm{d}(b)}=(2Y^TX)^T=2X^TY$
因为 $\frac{\mathrm{d}X^TAX}{\mathrm{d}(X)}=(A+A^T)X,可得如下：$
$\frac{\mathrm{d}b^TX^TXb}{\mathrm{d}(b)}=(X^TX+(X^TX)^T)b=2X^TXb$
综上所述可得如下：
$\frac{\mathrm{d}L(b)}{\mathrm{d}(b)}=-2X^TY+2X^TXb=0$
$\hat{b}=(X^TX)^{-1}X^TY$

原文地址:https://blog.csdn.net/scar2016/article/details/136595580 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1768496866221232128.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部