附录
附录
Page399: 行列式(determinant)
n 阶方阵 A 的行列式(determinant)定义为: det(A)=∑σ∈Snpar(σ)A1σ1A2σ2...Anσn 其中,Sn 为所有 n 阶排列(permutation)的集合,par(σ) 的值为 -1 或 +1 取决于 σ = (σ1,σ2,...σn) 为奇排列或偶排列,即其中出现降序的次数为奇数或偶数,例如 (1,3,2) 中降序次数为 1,(3,1,2) 中降序次数为 2。对于单位阵,有 det(I) = 1。
直观理解:
是什么:以二维为例,表示一个区域的面积,负数则是将区域翻转,或者说定向改变。如果矩阵所代表的变换将空间压缩到更小的维度(不满秩),则行列式为 0(比如二维到一维,面积就变成了零)。列代表基向量,行代表坐标,一个 m×n 的矩阵表示 n 个基向量表示的空间映射在 m 维的坐标上。行列式是面积(二维)或体积(三维)缩放的比例。
怎么算:以二维为例,主对角线元素代表两个维度缩放的比例,其余两个元素代表两个维度的坐标区域对角线的缩放。
Page399: 迹(trace)
对于 n 阶方阵 A,它的迹(trace)是主对角线上的元素之和,即: tr(A)=∑i=1nAii
Page400: Frobenius 范数
矩阵 A(m×n) 的 Frobenius 范数定义为: 矩阵的 Frobenius 范数就是将矩阵张成向量后的 L2 范数,其实就是所有元素的平方和再开方。
Page402: 低秩矩阵近似问题
给定一个秩为 r 的矩阵 A,欲求其最优 k 秩近似矩阵 A'(k ≤ r),这样的问题称为低秩矩阵近似问题。 该问题可以形式化为: 该问题可以使用奇异值分解:对矩阵 A 进行奇异值分解后,将 Σ 矩阵(见奇异值分解)的 r-k 个最小的奇异值置零获得矩阵 Σ_k,A_k = U_k Σ_k V_k^T 就是最优解,其中 U_k 和 V_k 分别是 U 和 V 前 k 列组成的矩阵。这个结果也称为 Eckart-Young-Mirsky 定理。
Page402: 奇异值分解(Singular Value Decomposition,简称 SVD)
对任意矩阵 A∈Rm×n 都可分解为:A=U∑VT,其中,U∈Rm×m 是满足 UTU=I 的 m 阶酉矩阵(unitary matrix);V∈Rn×n 是满足 VTV=I 的 n 阶酉矩阵;∑∈Rm×n 是 m×n 的矩阵,其中 (∑)ii=σi 且其他位置的元素均为 0,σi 为非负实数且满足 σ1≥σ2≥...≥0。
Page403: 拉格朗日乘子法(Lagrange multipliers)
拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d+k 个变量的无约束优化问题求解。有等式约束和不等式约束两种。 以等式约束的优化问题为例。假定 x 为 d 维向量,要求 x 的某个取值 x* 使目标函数 f(x) 最小且同时满足 g(x)=0 的约束。从几何角度看该问题的目标是在由方程 g(x)=0 确定的 d-1 维曲面上寻找能使目标函数 f(x) 最小化的点。此时很容易得出在最优点目标函数与约束函数相切(即目标函数在该点的梯度正交于约束曲面)。由此可知,在最优点,梯度 ∇g(x),∇f(x) 方向相同或相反:,即存在 λ ≠ 0 使得 ∇f(x∗)+λ∇g(x∗)=0,λ 称为拉格朗日乘子,定义拉格朗日函数为:L(x,λ)=f(x)+λg(x)。
Page405: 对偶函数(dual function)
将优化问题的约束推广到多个:具有 m 个等式约束和 n 个不等式约束,且可行域 D⊂Rd 非空的优化问题: minxf(x) s.t. hi(x)=0 (i=1,...m); gj(x)≤0 (j=1,...n) 该问题为优化问题的主问题(primal problem),相应的拉格朗日函数为: L(x,λ,μ)=f(x)+∑i=1mλihi(x)+∑j=1nμjgj(x), 其对偶函数定义为: Γ(λ,μ)=infx∈DL(x,λ,μ)=infx∈D⟮f(x)+∑i=1mλihi(x)+∑j=1nμjgj(x)⟯。 对偶函数给出了主问题的最优值下界,因为若 x* 为主问题可行域的点,对任意 μ⪰0,λ,都有 ∑i=1mλihi(x)+∑j=1nμjgj(x)≤0,进而有 Γ(λ,μ)≤L(x∗,λ,μ)≤f(x∗)。
Page406: 二次规划(Quadratic Programming,简称 QP)
一类典型的优化问题,包括凸二次优化和非凸二次优化。目标函数是变量的二次函数,约束条件是变量的线性不等式。假定变量个数为 d,约束条件个数为 m,标准的二次规划问题形如: minx 21xTQx+cTx, s.t.Ax≤b 其中,x 为 d 维向量, Q ∈ R 为实对称矩阵,A ∈ R 为实矩阵,b ∈ R 和 c ∈ R 为实向量,Ax ≤ b 的每一行对应一个约束。
Page407: 半正定规划(Seme-Definite Programming,简称 SDP)
是一类凸优化问题,其中的变量可组织成半正定对称矩阵形式,且优化问题的目标函数和约束都是这些变量的线性函数。 给定 d×d 的对称矩阵 X, C,C⋅X=∑i=1d∑j=1dCijXij, 若 Ai(i=1,...,m) 也是 d×d 的对称矩阵,bi(i=1,2,...,m) 为 m 个实数,则半正定规划问题形如: minXC⋅X; s.t. Ai⋅X=bi; i=1,2,...,m,X⪰0
Page409: 伯努利分布(Bernoulli distribution)
关于布尔变量 x ∈ {0,1} 的概率分布,其连续参数 μ ∈ [0,1] 表示变量 x=1 的概率。 P(x∣μ)=Bern(x∣μ)=μx(1−μ)(1−x) E[x]=μ;var[x]=μ(1−μ)
Page409: 均匀分布(uniform distribution)
关于定义在区间
[a,b](a<b)上连续变量的简单概率分布。 p(x∣a,b)=U(x∣a,b)=b−a1 E[x]=2a+b;var[x]=12(b−a)2Page410: 多项分布(multinominal distribution)
将伯努利分布由单变量扩展为 d 维,并在此基础上扩展二项分布就得到多项分布,它描述了在 N 次独立实验中有 mi 次 xi=1 的概率。 P(m1,m2,...,md∣N,μ)=Mult(m1,m2,...,md∣N,μ)=m1!m2!...md!N!∏i=1dμimi E[mi]=Nμi; var[mi]=Nμi(1−μi); cov[mj,mi]=−Nμjμi
Page410: 二项分布(binomial distribution)
描述 N 次是独立的伯努利实验中有 m 次成功(x=1)的概率。 P(m∣N,μ)=Bin(m∣N,μ)=(mN)μm(1−μ)N−m
Page411: 贝塔分布(Beta distribution)
关于连续变量 μ ∈ [0,1] 的概率分布,由两个参数 a>0, b>0 确定: p(μ∣a,b)=Beta(μ∣a,b)=Γ(a)Γ(b)Γ(a+b)μa−1(1−μ)b−1=B(a,b)1μa−1(1−μ)b−1 E[μ]=a+ba; var[μ]=(a+b)2(a+b+a)ab; Γ(a)=∫0+∞ta−1e−tdt 当 a=b=1 时,贝塔分布退化为均匀分布。
Page412: 狄利克雷分布(Dirichlet distribution)
关于一组 d 个连续变量 μi ∈ [0,1] 的概率分布,∑i=1dμi=1。令 μ=(μ1,...,μd),参数 α=(α1,...,αd), αi>0,α^=∑i=1dαi p(μ∣α)=Dir(μ∣α)=Γ(α1)...Γ(αi)Γ(α^)∏i=1dμi(αi−1) E[μi]=α^αi, var[μi]=α^2(α^+1)αi(α^−αi), cov[μj,μi]=α^2(α^+1)αjαi 当 d=2 时,狄利克雷分布退化为贝塔分布。
Page412: 高斯分布(Gaussian distribution)
亦称正态分布(normal distribution),是应用最广泛的连续概率分布。 对于单变量 x ∈ (-∞, +∞),高斯分布的参数为均值 μ ∈ (-∞, +∞) 和 方差 σ^2 > 0。 p(x∣μ,σ2)=N(x∣μ,σ2)=2πσ21exp{−2σ2(x−μ)2} E=μ, var[x]=σ2 对于 d 维向量 x,多元高斯分布的参数为 d 维均值向量 μ 和 d×d 的对称正定协方差矩阵 Σ。 p(x∣μ,∑)=N(x∣μ,∑)=2πddet(∑)1exp{−21(x−μ)T∑−1(x−μ)} E=μ, var[x]=∑
Page412: 正态分布(normal distribution)
同高斯分布。
Page413: 共轭分布(conjugate distribution)
假设变量 x 服从分布 P(x|Θ),其中 Θ 为参数,X={x1,x2,...,xm} 为变量 x 的观测样本,假设参数 Θ 服从先验分布 ∏(Θ)。 若由先验分布 ∏(Θ) 和抽样分布 P(X|Θ) 决定的后验分布 F(Θ|X) 与 ∏(Θ) 是同种类型的分布,则称先验分布 ∏(Θ) 为分布 P(X|Θ) 或 P(x|Θ) 的共轭分布。
Page414: 相对熵(relative entropy)
亦称 KL 散度或信息散度,可用于度量两个概率分布之间的差异。给定两个概率分布 P 和 Q,二者之间的相对熵定义为: KL(P∣∣Q)=∫−∞+∞p(x)logq(x)p(x)dx 其中 p(x) 和 q(x) 分别为 P 和 Q 的概率密度函数。 通俗地说,用分布 Q 的最佳信息传递方式来传达分布 P,比用分布 P 自己的最佳信息方式传达平均多耗费的信息长度为 KL 散度。
Page414: 信息散度(information divergence)
同相对熵。
Page415: 交叉熵(cross entropy)
KL 散度展开可得: KL(P∣∣Q)=∫−∞+∞p(x)logp(x)dx−∫−∞+∞p(x)logq(x)dx=−H(P)+H(P,Q) 其中 H(P) 为熵,H(P,Q) 为 P 和 Q 的交叉熵。 通俗地说,用分布 Q 的最佳信息传递方式传达分布 P 中随机抽选的一个事件,所需的平均信息长度为交叉熵。
Page415: 熵(entropy)
熵是对整个事件信息量的量化,传达信息所需的最优平均信息长度为香农熵。 H(P)=∑xP(x)logP(x)1
附:一些不错的学习资料
正定矩阵和半正定矩阵
最后更新于