# 附录

## 附录

* Page399: 行列式（determinant）

  n 阶方阵 A 的行列式（determinant）定义为：\
  $$det(A) = \sum\_{\sigma \in S\_n} par(\sigma) A\_{1\sigma\_1}A\_{2\sigma\_2}...A\_{n\sigma\_n}$$\
  其中，Sn 为所有 n 阶排列（permutation）的集合，par(σ) 的值为 -1 或 +1 取决于 σ = (σ1,σ2,...σn) 为奇排列或偶排列，即其中出现降序的次数为奇数或偶数，例如 (1,3,2) 中降序次数为 1，(3,1,2) 中降序次数为 2。对于单位阵，有 det(I) = 1。

  直观理解：

  * 是什么：以二维为例，表示一个区域的面积，负数则是将区域翻转，或者说定向改变。如果矩阵所代表的变换将空间压缩到更小的维度（不满秩），则行列式为 0（比如二维到一维，面积就变成了零）。列代表基向量，行代表坐标，一个 m×n 的矩阵表示 n 个基向量表示的空间映射在 m 维的坐标上。行列式是面积（二维）或体积（三维）缩放的比例。&#x20;
  * 怎么算：以二维为例，主对角线元素代表两个维度缩放的比例，其余两个元素代表两个维度的坐标区域对角线的缩放。 &#x20;
* Page399: 迹（trace）

  对于 n 阶方阵 A，它的迹（trace）是主对角线上的元素之和，即：\
  $$tr(A) = \sum\_{i=1}^n A\_ii$$
* Page400: Frobenius 范数

  矩阵 A(m×n) 的 Frobenius 范数定义为：\
  $$\Arrowvert A \Arrowvert\_F = (tr(A^TA))^{1/2} = \lgroup \sum\_{i=1}^m \sum\_{j=1}^n A\_{ij}^2 \rgroup ^{1/2}$$\
  矩阵的 Frobenius 范数就是将矩阵张成向量后的 L2 范数，其实就是所有元素的平方和再开方。
* Page402: 低秩矩阵近似问题

  给定一个秩为 r 的矩阵 A，欲求其最优 k 秩近似矩阵 A'（k ≤ r），这样的问题称为低秩矩阵近似问题。\
  该问题可以形式化为：\
  $$min\_{A' \in R^{m\*n}} \ \ \Arrowvert A - A' \Arrowvert\_F, \ \ \ s.t. rank(A') = k$$\
  该问题可以使用奇异值分解：对矩阵 A 进行奇异值分解后，将 Σ 矩阵（见奇异值分解）的 r-k 个最小的奇异值置零获得矩阵 Σ\_k，A\_k = U\_k Σ\_k V\_k^T 就是最优解，其中 U\_k 和 V\_k 分别是 U 和 V 前 k 列组成的矩阵。这个结果也称为 Eckart-Young-Mirsky 定理。
* Page402: 奇异值分解（Singular Value Decomposition，简称 SVD）

  对任意矩阵 $$A \in \mathbb{R}^{m\times n}$$ 都可分解为：$$A = U\sum V^T$$，其中，$$U \in \mathbb{R}^{m\times m}$$ 是满足 $$U^TU=I$$ 的 m 阶酉矩阵（unitary matrix）；$$V \in \mathbb{R}^{n \times n}$$ 是满足 $$V^TV=I$$ 的 n 阶酉矩阵；$$\sum \in \mathbb{R}^{m \times n}$$ 是 m×n 的矩阵，其中 $$(\sum)\_{ii} = \sigma\_i$$ 且其他位置的元素均为 0，$$\sigma\_i$$ 为非负实数且满足 $$\sigma\_1 \ge \sigma\_2 \ge ... \ge 0$$。
* Page403: 拉格朗日乘子法（Lagrange multipliers）

  拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子，可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d+k 个变量的无约束优化问题求解。有等式约束和不等式约束两种。\
  以等式约束的优化问题为例。假定 x 为 d 维向量，要求 x 的某个取值 x\* 使目标函数 f(x) 最小且同时满足 g(x)=0 的约束。从几何角度看该问题的目标是在由方程 g(x)=0 确定的 d-1 维曲面上寻找能使目标函数 f(x) 最小化的点。此时很容易得出在最优点目标函数与约束函数相切（即目标函数在该点的梯度正交于约束曲面）。由此可知，在最优点，梯度 $$\nabla g(x), \nabla f(x)$$ 方向相同或相反：，即存在 λ ≠ 0 使得 $$\nabla f(x^*) + \lambda \nabla g(x^*) = 0$$，λ 称为拉格朗日乘子，定义拉格朗日函数为：$$L(x, \lambda) = f(x) + \lambda g(x)$$。
* Page405: 对偶函数（dual function）

  将优化问题的约束推广到多个：具有 m 个等式约束和 n 个不等式约束，且可行域 $$\mathbb{D} \subset \mathbb{R}^d$$ 非空的优化问题：\
  $$min\_x f(x) \ \ s.t.\ \ h\_i(x) = 0\ (i=1,...m);\ g\_j(x) \le 0\ (j=1,...n)$$\
  该问题为优化问题的主问题（primal problem），相应的拉格朗日函数为：\
  $$L(x,\lambda,\mu) = f(x) + \sum\_{i=1}^m \lambda\_i h\_i(x) + \sum\_{j=1}^n \mu\_j g\_j(x)$$，\
  其对偶函数定义为：\
  $$\Gamma(\lambda, \mu) = \inf\_{x\in D} L (x, \lambda, \mu) = \inf\_{x\in D} \lgroup f(x) + \sum\_{i=1}^m \lambda\_i h\_i(x) + \sum\_{j=1}^n \mu\_j g\_j(x)\rgroup$$。\
  对偶函数给出了主问题的最优值下界，因为若 x\* 为主问题可行域的点，对任意 $$\mu \succeq 0, \lambda$$，都有 $$\sum\_{i=1}^m \lambda\_i h\_i(x) + \sum\_{j=1}^n \mu\_j g\_j(x) \le 0$$，进而有 $$\Gamma(\lambda,\mu) \le L(x^*, \lambda, \mu) \le f(x^*)$$。
* Page406: 二次规划（Quadratic Programming，简称 QP）

  一类典型的优化问题，包括凸二次优化和非凸二次优化。目标函数是变量的二次函数，约束条件是变量的线性不等式。假定变量个数为 d，约束条件个数为 m，标准的二次规划问题形如：\
  $$\min\_x \ \ \frac{1}{2} x^TQx + c^Tx, \ \ s.t. Ax \le b$$\
  其中，x 为 d 维向量， Q ∈ R 为实对称矩阵，A ∈ R 为实矩阵，b ∈ R 和 c ∈ R 为实向量，Ax ≤ b 的每一行对应一个约束。
* Page407: 半正定规划（Seme-Definite Programming，简称 SDP）

  是一类凸优化问题，其中的变量可组织成半正定对称矩阵形式，且优化问题的目标函数和约束都是这些变量的线性函数。\
  给定 d×d 的对称矩阵 **X, C**，$$C·X = \sum\_{i=1}^d\sum\_{j=1}^dC\_{ij}X\_{ij}$$，\
  若 Ai(i=1,...,m) 也是 d×d 的对称矩阵，bi(i=1,2,...,m) 为 m 个实数，则半正定规划问题形如：\
  $$min\_X C · X; \ \ s.t. \ A\_i \cdot X = b\_i; \ \ i = 1,2,...,m, X \succeq 0$$
* Page409: 伯努利分布（Bernoulli distribution）

  关于布尔变量 x ∈ {0,1} 的概率分布，其连续参数 μ ∈ \[0,1] 表示变量 x=1 的概率。\
  $$P(x|\mu) = Bern(x|\mu) = \mu^x(1-\mu)^{(1-x)}$$\
  $$\mathbb{E}\[x] = \mu; var\[x] = \mu(1-\mu)$$
* Page409: 均匀分布（uniform distribution）

  关于定义在区间 `[a,b](a<b)` 上连续变量的简单概率分布。\
  $$p(x|a,b) = U(x|a,b) = \frac{1}{b-a}$$\
  $$\mathbb{E}\[x] = \frac{a+b}{2}; var\[x] = \frac{(b-a)^2}{12}$$
* Page410: 多项分布（multinominal distribution）

  将伯努利分布由单变量扩展为 d 维，并在此基础上扩展二项分布就得到多项分布，它描述了在 N 次独立实验中有 mi 次 xi=1 的概率。\
  $$P(m\_1,m\_2,...,m\_d|N,\mu) = Mult(m\_1,m\_2,...,m\_d|N,\mu) = \frac{N!}{m\_1!m\_2!...m\_d!} \prod\_{i=1}^d \mu\_i^{m\_i}$$\
  $$\mathbb{E}\[m\_i] = N\mu\_i; \ var\[m\_i] = N\mu\_i(1-\mu\_i); \ cov\[m\_j,m\_i] = -N\mu\_j\mu\_i$$
* Page410: 二项分布（binomial distribution）

  描述 N 次是独立的伯努利实验中有 m 次成功（x=1）的概率。\
  $$P(m|N,\mu) = Bin(m|N,\mu) = {N \choose m} \mu^m (1-\mu)^{N-m}$$
* Page411: 贝塔分布（Beta distribution）

  关于连续变量 μ ∈ \[0,1] 的概率分布，由两个参数 a>0, b>0 确定：\
  $$p(\mu|a,b) = Beta(\mu|a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} = \frac{1}{B(a,b)} \mu^{a-1}(1-\mu)^{b-1}$$\
  $$\mathbb{E}\[\mu] = \frac{a}{a+b}; \ var\[\mu] = \frac{ab}{(a+b)^2(a+b+a)}; \ \Gamma(a) = \int\_{0}^{+\infty}t^{a-1}e^{-t}dt$$\
  当 a=b=1 时，贝塔分布退化为均匀分布。
* Page412: 狄利克雷分布（Dirichlet distribution）

  关于一组 d 个连续变量 μi ∈ \[0,1] 的概率分布，$$\sum\_{i=1}^d \mu\_i = 1$$。令 $$\mu = (\mu\_1,...,\mu\_d)$$，参数 $$\alpha = (\alpha\_1,...,\alpha\_d), \ \alpha\_i>0, \hat{\alpha} = \sum\_{i=1}^d \alpha\_i$$\
  $$p(\mu|\alpha) = Dir(\mu|\alpha) = \frac{\Gamma(\hat{\alpha})}{\Gamma(\alpha\_1)...\Gamma(\alpha\_i）} \prod\_{i=1}^d \mu\_i^{(\alpha\_i-1)}$$\
  $$\mathbb{E}\[\mu\_i] = \frac{\alpha\_i}{\hat{\alpha}}, \ var\[\mu\_i] = \frac{\alpha\_i(\hat{\alpha}-\alpha\_i)}{\hat{\alpha}^2(\hat{\alpha}+1)}, \ cov\[\mu\_j,\mu\_i] = \frac{\alpha\_j\alpha\_i}{\hat{\alpha}^2(\hat{\alpha}+1)}$$\
  当 d=2 时，狄利克雷分布退化为贝塔分布。
* Page412: 高斯分布（Gaussian distribution）

  亦称正态分布（normal distribution），是应用最广泛的连续概率分布。\
  对于单变量 x ∈ (-∞, +∞)，高斯分布的参数为均值 μ ∈ (-∞, +∞) 和 方差 σ^2 > 0。\
  $$p(x|\mu,\sigma^2) = \mathcal{N}(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp { -\frac{(x-\mu)^2}{2\sigma^2} }$$\
  $$\mathbb{E}=\mu, \ var\[x]=\sigma^2$$\
  对于 d 维向量 **x**，多元高斯分布的参数为 d 维均值向量 **μ** 和 d×d 的对称正定协方差矩阵 **Σ**。\
  $$p(x|\mu,\sum) = \mathcal{N}(x|\mu,\sum) = \frac{1}{\sqrt{2\pi^d \det(\sum)}} \exp { -\frac{1}{2}(x-\mu)^T {\sum}^{-1}(x-\mu) }$$\
  $$\mathbb{E}=\mu, \ var\[x]=\sum$$
* Page412: 正态分布（normal distribution）

  同高斯分布。
* Page413: 共轭分布（conjugate distribution）

  假设变量 x 服从分布 P(x|Θ)，其中 Θ 为参数，X={x1,x2,...,xm} 为变量 x 的观测样本，假设参数 Θ 服从先验分布 ∏(Θ)。\
  若由先验分布 ∏(Θ) 和抽样分布 P(X|Θ) 决定的后验分布 F(Θ|X) 与 ∏(Θ) 是同种类型的分布，则称先验分布 ∏(Θ) 为分布 P(X|Θ) 或 P(x|Θ) 的共轭分布。
* Page414: 相对熵（relative entropy）

  亦称 KL 散度或信息散度，可用于度量两个概率分布之间的差异。给定两个概率分布 P 和 Q，二者之间的相对熵定义为：\
  $$KL(P||Q) = \int\_{-\infty}^{+\infty} p(x)\log\frac{p(x)}{q(x)}dx$$\
  其中 p(x) 和 q(x) 分别为 P 和 Q 的概率密度函数。\
  通俗地说，用分布 Q 的最佳信息传递方式来传达分布 P，比用分布 P 自己的最佳信息方式传达平均多耗费的信息长度为 KL 散度。
* Page414: 信息散度（information divergence）

  同相对熵。
* Page415: 交叉熵（cross entropy）

  KL 散度展开可得：\
  $$KL(P||Q) = \int\_{-\infty}^{+\infty} p(x)\log p(x)dx - \int\_{-\infty}^{+\infty} p(x)\log q(x)dx = -H(P) + H(P,Q)$$\
  其中 H(P) 为熵，H(P,Q) 为 P 和 Q 的交叉熵。 通俗地说，用分布 Q 的最佳信息传递方式传达分布 P 中随机抽选的一个事件，所需的平均信息长度为交叉熵。
* Page415: 熵（entropy）

  熵是对整个事件信息量的量化，传达信息所需的最优平均信息长度为香农熵。\
  $$H(P) = \sum\_xP(x)\log\frac{1}{P(x)}$$

附：一些不错的学习资料

* 奇异值分解
  * [奇异值分解 SVD 的数学解释 - CSDN 博客](https://blog.csdn.net/u010099080/article/details/68060274)
  * [(3 条消息) 奇异值的物理意义是什么？ - 知乎](https://www.zhihu.com/question/22237507)
  * [机器学习中的数学 (5)- 强大的矩阵奇异值分解 (SVD) 及其应用 - LeftNotEasy - 博客园](http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/1939687.html)
  * [奇异值分解 (SVD) 原理详解及推导 - CSDN 博客](https://blog.csdn.net/zhongkejingwang/article/details/43053513)
* 拉格朗日乘子法
  * [(3 条消息) 拉格朗日乘子法如何理解？ - 知乎](https://www.zhihu.com/question/38586401)
  * [【整理】深入理解拉格朗日乘子法（Lagrange Multiplier) 和 KKT 条件 - mo\_wang - 博客园](http://www.cnblogs.com/mo-wang/p/4775548.html)
  * [An Introduction to Lagrange Multipliers](http://www.slimy.com/~steuard/teaching/tutorials/Lagrange.html)
* 梯度
  * [文章](https://www.matongxue.com/madocs/222.html#/madoc)
  * [为什么梯度反方向是函数值局部下降最快的方向？](https://zhuanlan.zhihu.com/p/24913912)
  * [梯度 - YouTube](https://www.youtube.com/watch?v=npkl19rcpdY)
* 正定矩阵和半正定矩阵
  * [正定矩阵与半正定矩阵定义性质与理解 - CSDN 博客](https://blog.csdn.net/asd136912/article/details/79146151)
* 贝塔分布
  * [带你理解 beta 分布 - CSDN 博客](https://blog.csdn.net/a358463121/article/details/52562940)
* 狄利克雷分布
  * [(2 条消息) 什么是狄利克雷分布？狄利克雷过程又是什么？ - 知乎](https://www.zhihu.com/question/26751755)
  * [机器学习的数学基础（1）--Dirichlet 分布 - CSDN 博客](https://blog.csdn.net/jwh_bupt/article/details/8841644)
  * [科学网—再谈分布之分布（dirichlet 分布）- 贝叶斯分析之 2 - 张天蓉的博文](http://blog.sciencenet.cn/blog-677221-1051014.html)
  * [通俗理解 Dirichlet 分布及其实践 | A Notebook](https://xijunlee.github.io/2017/09/09/Dirichlet分布与Beta分布/)
  * [Dirichlet Distribution（狄利克雷分布）与 Dirichlet Process（狄利克雷过程） | 数据学习者官方网站 (Datalearner)](https://www.datalearner.com/blog/1051459673766843)
  * [LDA数学八卦](http://emma.memect.com/t/9756da9a47744de993d8df13a26e04e38286c9bc1c5a0d2b259c4564c6613298/LDA)
* 熵、相对熵、交叉熵
  * [Shannon entropy in the context of machine learning and AI](https://medium.com/swlh/shannon-entropy-in-the-context-of-machine-learning-and-ai-24aee2709e32)
  * [如何理解KL散度的不对称性 | 机器之心](https://www.jiqizhixin.com/articles/0224)
  * [【 深度学习 】熵，交叉熵，KL 散度 Entropy, Cross-Entropy and KL-Divergence](https://www.bilibili.com/video/av19193502?from=search\&seid=9145887951572377038)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://blog.cweihang.io/ml/zzh_ml_notes/melon/ch17.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
