2025-02-24
协方差
对于变量 \(x,y\),定义协方差 \(cov(x,y)=E_{x,y}((x-E(x))(y-E(y)))\),化简得到 \(E_{x,y}(xy)-E(x)E(y)\).
于是对于两个向量变量 \(\mathbb{x}\) 和 \(\mathbb y\),可定义协方差矩阵 \(D=E(\mathbb{x}^{T}\mathbb{y})-E(\mathbb x)^{T}E(\mathbb{y})\).
最大似然估计(Maximum Likelihood Estimation)
对于模型 \(\theta\)(例如高斯分布中,\(\theta=(\mu,\delta^2)\)),\(p(x\mid \theta)\) 为 \(x\) 出现的频率,令独立同分布 (i.i.d) 的数据样本为 \(X\),则似然为 \(p(X \mid \theta)=\prod p(x \mid \theta)\).
但是乘法的话由于 \(p\) 太小所以太掉精度了,所以我们整体取 $$ 后也就变成了相加.
于是我们希望求得的 \(\theta_{MLE}\) 就是 \(\arg \max_{\theta} \sum_{i=1}^{n} \log p(x_i\mid \theta)\).
对于高斯分布的话求个偏导就好了。最终推导出来就是我们所熟知的均值和方差.
高斯分布 \(N(\mu,\sigma^2)\) 的概率密度函数为 \(f(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})\).
最大后验概率(Maximum A Posterior)
将参数 \(\theta\) 视为随机变量,从先验分布 \(p(\theta)\) 中采样而来。
我们希望最大化后验概率 \(p(\theta \mid X)\),即 \(\arg\max_\theta p(\theta \mid X)=\arg\max_\theta p(\theta \mid x)p(\theta)\).
信息论(Information Theory)
对于事件 \(x\),定义事件 \(x\) 的自信息 \(I(x)=-\log p(x)\). 其中 \(p(x)\) 为 \(x\) 发生的概率.
对于概率分布 \(P\),定义香农熵 \(H(x)=E_{x\sim P}[I(x)]=-E_{x\sim P}[\log P(x)]\).
KL 散度:对于两个分布 \(P,Q\),定义 KL 散度 \(D(P||Q)=E_{x\sim P}[\log P(x)/Q(x)]\). 在信息论,中可以看出该式子的意义是,如果我们使用拟合分布 \(Q\) 比真实分布 \(P\) 少了多少信息. 采用 \(D(P||Q)\) 保证了 \(P\) 中低概率的部分拟合的更好,\(D(Q||P)\) 保证了高概率的部分拟合的更好.
交叉熵:\(H(P,Q)=H(P)+D(P||Q)\). 通常来说,由于 \(H(P)\) 是常量,故本质上还是交叉熵.
线性回归(Linear Regression)
令样本 \((\mathbb x_i,y_i)\),模型为 \(f(\mathbb x_i)=\mathbb w\mathbb x_i+b\). 令 \(A_i=(\mathbb x_i | 1)\),\(\beta=(\mathbb w^{T}|b)^{T}\),那么损失 函数即为 \(\frac{1}{2}\sum (A_i\beta-y_i)^2=\frac{1}{2}(A\beta-Y)^{T}(A\beta -Y)\).
求导后可以发现最优解中 \(A^{T}A\beta=A^{T}Y\). 但是 \(A^TA\) 不一定可逆.
但是由于这玩意儿是凸的所以梯度下降可以得到最优解.