附录

附录

  • Page399: 行列式(determinant)

    n 阶方阵 A 的行列式(determinant)定义为: det(A)=σSnpar(σ)A1σ1A2σ2...Anσndet(A) = \sum_{\sigma \in S_n} par(\sigma) A_{1\sigma_1}A_{2\sigma_2}...A_{n\sigma_n} 其中,Sn 为所有 n 阶排列(permutation)的集合,par(σ) 的值为 -1 或 +1 取决于 σ = (σ1,σ2,...σn) 为奇排列或偶排列,即其中出现降序的次数为奇数或偶数,例如 (1,3,2) 中降序次数为 1,(3,1,2) 中降序次数为 2。对于单位阵,有 det(I) = 1。

    直观理解:

    • 是什么:以二维为例,表示一个区域的面积,负数则是将区域翻转,或者说定向改变。如果矩阵所代表的变换将空间压缩到更小的维度(不满秩),则行列式为 0(比如二维到一维,面积就变成了零)。列代表基向量,行代表坐标,一个 m×n 的矩阵表示 n 个基向量表示的空间映射在 m 维的坐标上。行列式是面积(二维)或体积(三维)缩放的比例。

    • 怎么算:以二维为例,主对角线元素代表两个维度缩放的比例,其余两个元素代表两个维度的坐标区域对角线的缩放。

  • Page399: 迹(trace)

    对于 n 阶方阵 A,它的迹(trace)是主对角线上的元素之和,即: tr(A)=i=1nAiitr(A) = \sum_{i=1}^n A_ii

  • Page400: Frobenius 范数

    矩阵 A(m×n) 的 Frobenius 范数定义为: \Arrowvert A \Arrowvert_F = (tr(A^TA))^{1/2} = \lgroup \sum_{i=1}^m \sum_{j=1}^n A_{ij}^2 \rgroup ^{1/2} 矩阵的 Frobenius 范数就是将矩阵张成向量后的 L2 范数,其实就是所有元素的平方和再开方。

  • Page402: 低秩矩阵近似问题

    给定一个秩为 r 的矩阵 A,欲求其最优 k 秩近似矩阵 A'(k ≤ r),这样的问题称为低秩矩阵近似问题。 该问题可以形式化为: min_{A' \in R^{m*n}} \ \ \Arrowvert A - A' \Arrowvert_F, \ \ \ s.t. rank(A') = k 该问题可以使用奇异值分解:对矩阵 A 进行奇异值分解后,将 Σ 矩阵(见奇异值分解)的 r-k 个最小的奇异值置零获得矩阵 Σ_k,A_k = U_k Σ_k V_k^T 就是最优解,其中 U_k 和 V_k 分别是 U 和 V 前 k 列组成的矩阵。这个结果也称为 Eckart-Young-Mirsky 定理。

  • Page402: 奇异值分解(Singular Value Decomposition,简称 SVD)

    对任意矩阵 ARm×nA \in \mathbb{R}^{m\times n} 都可分解为:A=UVTA = U\sum V^T,其中,URm×mU \in \mathbb{R}^{m\times m} 是满足 UTU=IU^TU=I 的 m 阶酉矩阵(unitary matrix);VRn×nV \in \mathbb{R}^{n \times n} 是满足 VTV=IV^TV=I 的 n 阶酉矩阵;Rm×n\sum \in \mathbb{R}^{m \times n} 是 m×n 的矩阵,其中 ()ii=σi(\sum)_{ii} = \sigma_i 且其他位置的元素均为 0,σi\sigma_i 为非负实数且满足 σ1σ2...0\sigma_1 \ge \sigma_2 \ge ... \ge 0

  • Page403: 拉格朗日乘子法(Lagrange multipliers)

    拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d+k 个变量的无约束优化问题求解。有等式约束和不等式约束两种。 以等式约束的优化问题为例。假定 x 为 d 维向量,要求 x 的某个取值 x* 使目标函数 f(x) 最小且同时满足 g(x)=0 的约束。从几何角度看该问题的目标是在由方程 g(x)=0 确定的 d-1 维曲面上寻找能使目标函数 f(x) 最小化的点。此时很容易得出在最优点目标函数与约束函数相切(即目标函数在该点的梯度正交于约束曲面)。由此可知,在最优点,梯度 g(x),f(x)\nabla g(x), \nabla f(x) 方向相同或相反:,即存在 λ ≠ 0 使得 f(x)+λg(x)=0\nabla f(x^*) + \lambda \nabla g(x^*) = 0,λ 称为拉格朗日乘子,定义拉格朗日函数为:L(x,λ)=f(x)+λg(x)L(x, \lambda) = f(x) + \lambda g(x)

  • Page405: 对偶函数(dual function)

    将优化问题的约束推广到多个:具有 m 个等式约束和 n 个不等式约束,且可行域 DRd\mathbb{D} \subset \mathbb{R}^d 非空的优化问题: minxf(x)  s.t.  hi(x)=0 (i=1,...m); gj(x)0 (j=1,...n)min_x f(x) \ \ s.t.\ \ h_i(x) = 0\ (i=1,...m);\ g_j(x) \le 0\ (j=1,...n) 该问题为优化问题的主问题(primal problem),相应的拉格朗日函数为: L(x,λ,μ)=f(x)+i=1mλihi(x)+j=1nμjgj(x)L(x,\lambda,\mu) = f(x) + \sum_{i=1}^m \lambda_i h_i(x) + \sum_{j=1}^n \mu_j g_j(x), 其对偶函数定义为: Γ(λ,μ)=infxDL(x,λ,μ)=infxDf(x)+i=1mλihi(x)+j=1nμjgj(x)\Gamma(\lambda, \mu) = \inf_{x\in D} L (x, \lambda, \mu) = \inf_{x\in D} \lgroup f(x) + \sum_{i=1}^m \lambda_i h_i(x) + \sum_{j=1}^n \mu_j g_j(x)\rgroup。 对偶函数给出了主问题的最优值下界,因为若 x* 为主问题可行域的点,对任意 μ0,λ\mu \succeq 0, \lambda,都有 i=1mλihi(x)+j=1nμjgj(x)0\sum_{i=1}^m \lambda_i h_i(x) + \sum_{j=1}^n \mu_j g_j(x) \le 0,进而有 Γ(λ,μ)L(x,λ,μ)f(x)\Gamma(\lambda,\mu) \le L(x^*, \lambda, \mu) \le f(x^*)

  • Page406: 二次规划(Quadratic Programming,简称 QP)

    一类典型的优化问题,包括凸二次优化和非凸二次优化。目标函数是变量的二次函数,约束条件是变量的线性不等式。假定变量个数为 d,约束条件个数为 m,标准的二次规划问题形如: minx  12xTQx+cTx,  s.t.Axb\min_x \ \ \frac{1}{2} x^TQx + c^Tx, \ \ s.t. Ax \le b 其中,x 为 d 维向量, Q ∈ R 为实对称矩阵,A ∈ R 为实矩阵,b ∈ R 和 c ∈ R 为实向量,Ax ≤ b 的每一行对应一个约束。

  • Page407: 半正定规划(Seme-Definite Programming,简称 SDP)

    是一类凸优化问题,其中的变量可组织成半正定对称矩阵形式,且优化问题的目标函数和约束都是这些变量的线性函数。 给定 d×d 的对称矩阵 X, CCX=i=1dj=1dCijXijC·X = \sum_{i=1}^d\sum_{j=1}^dC_{ij}X_{ij}, 若 Ai(i=1,...,m) 也是 d×d 的对称矩阵,bi(i=1,2,...,m) 为 m 个实数,则半正定规划问题形如: minXCX;  s.t. AiX=bi;  i=1,2,...,m,X0min_X C · X; \ \ s.t. \ A_i \cdot X = b_i; \ \ i = 1,2,...,m, X \succeq 0

  • Page409: 伯努利分布(Bernoulli distribution)

    关于布尔变量 x ∈ {0,1} 的概率分布,其连续参数 μ ∈ [0,1] 表示变量 x=1 的概率。 P(xμ)=Bern(xμ)=μx(1μ)(1x)P(x|\mu) = Bern(x|\mu) = \mu^x(1-\mu)^{(1-x)} E[x]=μ;var[x]=μ(1μ)\mathbb{E}[x] = \mu; var[x] = \mu(1-\mu)

  • Page409: 均匀分布(uniform distribution)

    关于定义在区间 [a,b](a<b) 上连续变量的简单概率分布。 p(xa,b)=U(xa,b)=1bap(x|a,b) = U(x|a,b) = \frac{1}{b-a} E[x]=a+b2;var[x]=(ba)212\mathbb{E}[x] = \frac{a+b}{2}; var[x] = \frac{(b-a)^2}{12}

  • Page410: 多项分布(multinominal distribution)

    将伯努利分布由单变量扩展为 d 维,并在此基础上扩展二项分布就得到多项分布,它描述了在 N 次独立实验中有 mi 次 xi=1 的概率。 P(m1,m2,...,mdN,μ)=Mult(m1,m2,...,mdN,μ)=N!m1!m2!...md!i=1dμimiP(m_1,m_2,...,m_d|N,\mu) = Mult(m_1,m_2,...,m_d|N,\mu) = \frac{N!}{m_1!m_2!...m_d!} \prod_{i=1}^d \mu_i^{m_i} E[mi]=Nμi; var[mi]=Nμi(1μi); cov[mj,mi]=Nμjμi\mathbb{E}[m_i] = N\mu_i; \ var[m_i] = N\mu_i(1-\mu_i); \ cov[m_j,m_i] = -N\mu_j\mu_i

  • Page410: 二项分布(binomial distribution)

    描述 N 次是独立的伯努利实验中有 m 次成功(x=1)的概率。 P(mN,μ)=Bin(mN,μ)=(Nm)μm(1μ)NmP(m|N,\mu) = Bin(m|N,\mu) = {N \choose m} \mu^m (1-\mu)^{N-m}

  • Page411: 贝塔分布(Beta distribution)

    关于连续变量 μ ∈ [0,1] 的概率分布,由两个参数 a>0, b>0 确定: p(μa,b)=Beta(μa,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1=1B(a,b)μa1(1μ)b1p(\mu|a,b) = Beta(\mu|a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} = \frac{1}{B(a,b)} \mu^{a-1}(1-\mu)^{b-1} E[μ]=aa+b; var[μ]=ab(a+b)2(a+b+a); Γ(a)=0+ta1etdt\mathbb{E}[\mu] = \frac{a}{a+b}; \ var[\mu] = \frac{ab}{(a+b)^2(a+b+a)}; \ \Gamma(a) = \int_{0}^{+\infty}t^{a-1}e^{-t}dt 当 a=b=1 时,贝塔分布退化为均匀分布。

  • Page412: 狄利克雷分布(Dirichlet distribution)

    关于一组 d 个连续变量 μi ∈ [0,1] 的概率分布,i=1dμi=1\sum_{i=1}^d \mu_i = 1。令 μ=(μ1,...,μd)\mu = (\mu_1,...,\mu_d),参数 α=(α1,...,αd), αi>0,α^=i=1dαi\alpha = (\alpha_1,...,\alpha_d), \ \alpha_i>0, \hat{\alpha} = \sum_{i=1}^d \alpha_i p(μα)=Dir(μα)=Γ(α^)Γ(α1)...Γ(αii=1dμi(αi1)p(\mu|\alpha) = Dir(\mu|\alpha) = \frac{\Gamma(\hat{\alpha})}{\Gamma(\alpha_1)...\Gamma(\alpha_i)} \prod_{i=1}^d \mu_i^{(\alpha_i-1)} E[μi]=αiα^, var[μi]=αi(α^αi)α^2(α^+1), cov[μj,μi]=αjαiα^2(α^+1)\mathbb{E}[\mu_i] = \frac{\alpha_i}{\hat{\alpha}}, \ var[\mu_i] = \frac{\alpha_i(\hat{\alpha}-\alpha_i)}{\hat{\alpha}^2(\hat{\alpha}+1)}, \ cov[\mu_j,\mu_i] = \frac{\alpha_j\alpha_i}{\hat{\alpha}^2(\hat{\alpha}+1)} 当 d=2 时,狄利克雷分布退化为贝塔分布。

  • Page412: 高斯分布(Gaussian distribution)

    亦称正态分布(normal distribution),是应用最广泛的连续概率分布。 对于单变量 x ∈ (-∞, +∞),高斯分布的参数为均值 μ ∈ (-∞, +∞) 和 方差 σ^2 > 0。 p(xμ,σ2)=N(xμ,σ2)=12πσ2exp{(xμ)22σ2}p(x|\mu,\sigma^2) = \mathcal{N}(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \{ -\frac{(x-\mu)^2}{2\sigma^2} \} E=μ, var[x]=σ2\mathbb{E}=\mu, \ var[x]=\sigma^2 对于 d 维向量 x,多元高斯分布的参数为 d 维均值向量 μ 和 d×d 的对称正定协方差矩阵 Σp(xμ,)=N(xμ,)=12πddet()exp{12(xμ)T1(xμ)}p(x|\mu,\sum) = \mathcal{N}(x|\mu,\sum) = \frac{1}{\sqrt{2\pi^d \det(\sum)}} \exp \{ -\frac{1}{2}(x-\mu)^T {\sum}^{-1}(x-\mu) \} E=μ, var[x]=\mathbb{E}=\mu, \ var[x]=\sum

  • Page412: 正态分布(normal distribution)

    同高斯分布。

  • Page413: 共轭分布(conjugate distribution)

    假设变量 x 服从分布 P(x|Θ),其中 Θ 为参数,X={x1,x2,...,xm} 为变量 x 的观测样本,假设参数 Θ 服从先验分布 ∏(Θ)。 若由先验分布 ∏(Θ) 和抽样分布 P(X|Θ) 决定的后验分布 F(Θ|X) 与 ∏(Θ) 是同种类型的分布,则称先验分布 ∏(Θ) 为分布 P(X|Θ) 或 P(x|Θ) 的共轭分布。

  • Page414: 相对熵(relative entropy)

    亦称 KL 散度或信息散度,可用于度量两个概率分布之间的差异。给定两个概率分布 P 和 Q,二者之间的相对熵定义为: KL(PQ)=+p(x)logp(x)q(x)dxKL(P||Q) = \int_{-\infty}^{+\infty} p(x)\log\frac{p(x)}{q(x)}dx 其中 p(x) 和 q(x) 分别为 P 和 Q 的概率密度函数。 通俗地说,用分布 Q 的最佳信息传递方式来传达分布 P,比用分布 P 自己的最佳信息方式传达平均多耗费的信息长度为 KL 散度。

  • Page414: 信息散度(information divergence)

    同相对熵。

  • Page415: 交叉熵(cross entropy)

    KL 散度展开可得: KL(PQ)=+p(x)logp(x)dx+p(x)logq(x)dx=H(P)+H(P,Q)KL(P||Q) = \int_{-\infty}^{+\infty} p(x)\log p(x)dx - \int_{-\infty}^{+\infty} p(x)\log q(x)dx = -H(P) + H(P,Q) 其中 H(P) 为熵,H(P,Q) 为 P 和 Q 的交叉熵。 通俗地说,用分布 Q 的最佳信息传递方式传达分布 P 中随机抽选的一个事件,所需的平均信息长度为交叉熵。

  • Page415: 熵(entropy)

    熵是对整个事件信息量的量化,传达信息所需的最优平均信息长度为香农熵。 H(P)=xP(x)log1P(x)H(P) = \sum_xP(x)\log\frac{1}{P(x)}

附:一些不错的学习资料

最后更新于