梦里风林
  • Introduction
  • Android
    • activity
      • Activity四种启动模式
      • Intent Flag
      • 多task的应用
      • Task和回退栈
    • sqlite
      • 【源码】CursorWindow读DB
      • Sqlite在Android上的一个Bug
    • Chromium
    • ListView读取DB数据最佳实践
    • Android Project结构
    • 一个由Proguard与FastJson引起的血案
    • 琐碎的一些tips
  • Computer Vision
    • 特征提取
    • 三维视觉
    • 计算机视觉常用工具
    • 浅谈深度学习数据集设计
    • 随笔
  • Machine Learning
    • 技巧
      • FaceBook: 1 hour training ImageNet
      • L2 Norm与L2 normalize
    • 实践
      • Pytorch实验代码的亿些小细节
    • 工具
      • Tensorflow学习笔记
      • MXNet踩坑手记
      • PyTorch踩坑手记
      • PyTorch模型剪枝
      • Keras踩坑手记
      • mscnn
      • Matlab
        • Matlab Remote IPC自动化数据处理
    • Papers
      • Classification
      • Re-identification
        • CVPR2018:TFusion完全解读
        • ECCV2018:TAUDL
        • CVPR2018:Graph+reid
        • Person Re-identification
        • CVPR2016 Re-id
        • Camera topology and Person Re-id
        • Deep transfer learning Person Re-id
        • Evaluate
      • Object Detection
        • 读论文系列·干货满满的RCNN
        • 读论文系列·SPP-net
        • 读论文系列·Fast RCNN
        • 读论文系列·Faster RCNN
        • 读论文系列·YOLO
        • 读论文系列·SSD
        • 读论文系列·YOLOv2 & YOLOv3
        • 读论文系列·detection其他文章推荐
      • Depth
      • 3D vision
        • 数据集相关
        • 光流相关
      • Hashing
        • CVPR2018: SSAH
      • 大杂烩
        • CNCC2017 琐记
        • ECCV 2016 Hydra CCNN
        • CNCC2017深度学习与跨媒体智能
        • MLA2016笔记
    • 《机器学习》(周志华)读书笔记
      • 西瓜书概念整理
        • 绪论
        • 模型评估与选择
        • 线性模型
        • 决策树
        • 神经网络
        • 支持向量机
        • 贝叶斯分类器
        • 集成学习
        • 聚类
        • 降维与度量学习
        • 特征选择与稀疏学习
        • 计算学习理论
        • 半监督学习
        • 概率图模型
        • 规则学习
        • 强化学习
        • 附录
  • Java
    • java web
      • Servlet部署
      • 琐碎的tips
    • JNI
    • Note
    • Effective Java笔记
  • 后端开发
    • 架构设计
    • 数据库
    • java web
      • Servlet部署
      • 琐碎的tips
    • Spring boot
    • django
    • 分布式
  • Linux && Hardware
    • Ubuntu安装与初始配置
    • 树莓派相关
      • 树莓派3B+无线网卡监听模式
      • TP-LINK TL-WR703N v1.7 openwrt flashing
  • Python
    • django
    • 原生模块
    • 设计模式
    • 可视化
    • 常用库踩坑指南
  • web前端
    • header div固定,content div填充父容器
    • json接口资源
  • UI
  • kit
    • vim
    • git/github
      • 刷爆github小绿点
    • Markdown/gitbook
      • 琐碎知识点
      • gitbook添加disqus作为评论
      • 导出chrome书签为Markdown
      • Markdown here && 微信公众号
    • LaTex
      • LaTex琐记
    • 科学上网
    • 虚拟机
  • thinking-in-program
    • 怎样打日志
  • 我的收藏
  • 琐记
    • 论文心得
    • 深圳买房攻略
  • 赞赏支持
由 GitBook 提供支持
在本页

这有帮助吗?

  1. Machine Learning
  2. 《机器学习》(周志华)读书笔记
  3. 西瓜书概念整理

附录

附录

  • Page399: 行列式(determinant)

    n 阶方阵 A 的行列式(determinant)定义为: det(A)=∑σ∈Snpar(σ)A1σ1A2σ2...Anσndet(A) = \sum_{\sigma \in S_n} par(\sigma) A_{1\sigma_1}A_{2\sigma_2}...A_{n\sigma_n}det(A)=∑σ∈Sn​​par(σ)A1σ1​​A2σ2​​...Anσn​​ 其中,Sn 为所有 n 阶排列(permutation)的集合,par(σ) 的值为 -1 或 +1 取决于 σ = (σ1,σ2,...σn) 为奇排列或偶排列,即其中出现降序的次数为奇数或偶数,例如 (1,3,2) 中降序次数为 1,(3,1,2) 中降序次数为 2。对于单位阵,有 det(I) = 1。

    直观理解:

    • 是什么:以二维为例,表示一个区域的面积,负数则是将区域翻转,或者说定向改变。如果矩阵所代表的变换将空间压缩到更小的维度(不满秩),则行列式为 0(比如二维到一维,面积就变成了零)。列代表基向量,行代表坐标,一个 m×n 的矩阵表示 n 个基向量表示的空间映射在 m 维的坐标上。行列式是面积(二维)或体积(三维)缩放的比例。

    • 怎么算:以二维为例,主对角线元素代表两个维度缩放的比例,其余两个元素代表两个维度的坐标区域对角线的缩放。

  • Page399: 迹(trace)

    对于 n 阶方阵 A,它的迹(trace)是主对角线上的元素之和,即: tr(A)=∑i=1nAiitr(A) = \sum_{i=1}^n A_iitr(A)=∑i=1n​Ai​i

  • Page400: Frobenius 范数

    矩阵 A(m×n) 的 Frobenius 范数定义为: \Arrowvert A \Arrowvert_F = (tr(A^TA))^{1/2} = \lgroup \sum_{i=1}^m \sum_{j=1}^n A_{ij}^2 \rgroup ^{1/2} 矩阵的 Frobenius 范数就是将矩阵张成向量后的 L2 范数,其实就是所有元素的平方和再开方。

  • Page402: 低秩矩阵近似问题

    给定一个秩为 r 的矩阵 A,欲求其最优 k 秩近似矩阵 A'(k ≤ r),这样的问题称为低秩矩阵近似问题。 该问题可以形式化为: min_{A' \in R^{m*n}} \ \ \Arrowvert A - A' \Arrowvert_F, \ \ \ s.t. rank(A') = k 该问题可以使用奇异值分解:对矩阵 A 进行奇异值分解后,将 Σ 矩阵(见奇异值分解)的 r-k 个最小的奇异值置零获得矩阵 Σ_k,A_k = U_k Σ_k V_k^T 就是最优解,其中 U_k 和 V_k 分别是 U 和 V 前 k 列组成的矩阵。这个结果也称为 Eckart-Young-Mirsky 定理。

  • Page402: 奇异值分解(Singular Value Decomposition,简称 SVD)

    对任意矩阵 A∈Rm×nA \in \mathbb{R}^{m\times n}A∈Rm×n 都可分解为:A=U∑VTA = U\sum V^TA=U∑VT,其中,U∈Rm×mU \in \mathbb{R}^{m\times m}U∈Rm×m 是满足 UTU=IU^TU=IUTU=I 的 m 阶酉矩阵(unitary matrix);V∈Rn×nV \in \mathbb{R}^{n \times n}V∈Rn×n 是满足 VTV=IV^TV=IVTV=I 的 n 阶酉矩阵;∑∈Rm×n\sum \in \mathbb{R}^{m \times n}∑∈Rm×n 是 m×n 的矩阵,其中 (∑)ii=σi(\sum)_{ii} = \sigma_i(∑)ii​=σi​ 且其他位置的元素均为 0,σi\sigma_iσi​ 为非负实数且满足 σ1≥σ2≥...≥0\sigma_1 \ge \sigma_2 \ge ... \ge 0σ1​≥σ2​≥...≥0。

  • Page403: 拉格朗日乘子法(Lagrange multipliers)

    拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d+k 个变量的无约束优化问题求解。有等式约束和不等式约束两种。 以等式约束的优化问题为例。假定 x 为 d 维向量,要求 x 的某个取值 x* 使目标函数 f(x) 最小且同时满足 g(x)=0 的约束。从几何角度看该问题的目标是在由方程 g(x)=0 确定的 d-1 维曲面上寻找能使目标函数 f(x) 最小化的点。此时很容易得出在最优点目标函数与约束函数相切(即目标函数在该点的梯度正交于约束曲面)。由此可知,在最优点,梯度 ∇g(x),∇f(x)\nabla g(x), \nabla f(x)∇g(x),∇f(x) 方向相同或相反:,即存在 λ ≠ 0 使得 ∇f(x∗)+λ∇g(x∗)=0\nabla f(x^*) + \lambda \nabla g(x^*) = 0∇f(x∗)+λ∇g(x∗)=0,λ 称为拉格朗日乘子,定义拉格朗日函数为:L(x,λ)=f(x)+λg(x)L(x, \lambda) = f(x) + \lambda g(x)L(x,λ)=f(x)+λg(x)。

  • Page405: 对偶函数(dual function)

    将优化问题的约束推广到多个:具有 m 个等式约束和 n 个不等式约束,且可行域 D⊂Rd\mathbb{D} \subset \mathbb{R}^dD⊂Rd 非空的优化问题: minxf(x)  s.t.  hi(x)=0 (i=1,...m); gj(x)≤0 (j=1,...n)min_x f(x) \ \ s.t.\ \ h_i(x) = 0\ (i=1,...m);\ g_j(x) \le 0\ (j=1,...n)minx​f(x)  s.t.  hi​(x)=0 (i=1,...m); gj​(x)≤0 (j=1,...n) 该问题为优化问题的主问题(primal problem),相应的拉格朗日函数为: L(x,λ,μ)=f(x)+∑i=1mλihi(x)+∑j=1nμjgj(x)L(x,\lambda,\mu) = f(x) + \sum_{i=1}^m \lambda_i h_i(x) + \sum_{j=1}^n \mu_j g_j(x)L(x,λ,μ)=f(x)+∑i=1m​λi​hi​(x)+∑j=1n​μj​gj​(x), 其对偶函数定义为: Γ(λ,μ)=inf⁡x∈DL(x,λ,μ)=inf⁡x∈D⟮f(x)+∑i=1mλihi(x)+∑j=1nμjgj(x)⟯\Gamma(\lambda, \mu) = \inf_{x\in D} L (x, \lambda, \mu) = \inf_{x\in D} \lgroup f(x) + \sum_{i=1}^m \lambda_i h_i(x) + \sum_{j=1}^n \mu_j g_j(x)\rgroupΓ(λ,μ)=infx∈D​L(x,λ,μ)=infx∈D​⟮f(x)+∑i=1m​λi​hi​(x)+∑j=1n​μj​gj​(x)⟯。 对偶函数给出了主问题的最优值下界,因为若 x* 为主问题可行域的点,对任意 μ⪰0,λ\mu \succeq 0, \lambdaμ⪰0,λ,都有 ∑i=1mλihi(x)+∑j=1nμjgj(x)≤0\sum_{i=1}^m \lambda_i h_i(x) + \sum_{j=1}^n \mu_j g_j(x) \le 0∑i=1m​λi​hi​(x)+∑j=1n​μj​gj​(x)≤0,进而有 Γ(λ,μ)≤L(x∗,λ,μ)≤f(x∗)\Gamma(\lambda,\mu) \le L(x^*, \lambda, \mu) \le f(x^*)Γ(λ,μ)≤L(x∗,λ,μ)≤f(x∗)。

  • Page406: 二次规划(Quadratic Programming,简称 QP)

    一类典型的优化问题,包括凸二次优化和非凸二次优化。目标函数是变量的二次函数,约束条件是变量的线性不等式。假定变量个数为 d,约束条件个数为 m,标准的二次规划问题形如: min⁡x  12xTQx+cTx,  s.t.Ax≤b\min_x \ \ \frac{1}{2} x^TQx + c^Tx, \ \ s.t. Ax \le bminx​  21​xTQx+cTx,  s.t.Ax≤b 其中,x 为 d 维向量, Q ∈ R 为实对称矩阵,A ∈ R 为实矩阵,b ∈ R 和 c ∈ R 为实向量,Ax ≤ b 的每一行对应一个约束。

  • Page407: 半正定规划(Seme-Definite Programming,简称 SDP)

    是一类凸优化问题,其中的变量可组织成半正定对称矩阵形式,且优化问题的目标函数和约束都是这些变量的线性函数。 给定 d×d 的对称矩阵 X, C,C⋅X=∑i=1d∑j=1dCijXijC·X = \sum_{i=1}^d\sum_{j=1}^dC_{ij}X_{ij}C⋅X=∑i=1d​∑j=1d​Cij​Xij​, 若 Ai(i=1,...,m) 也是 d×d 的对称矩阵,bi(i=1,2,...,m) 为 m 个实数,则半正定规划问题形如: minXC⋅X;  s.t. Ai⋅X=bi;  i=1,2,...,m,X⪰0min_X C · X; \ \ s.t. \ A_i \cdot X = b_i; \ \ i = 1,2,...,m, X \succeq 0minX​C⋅X;  s.t. Ai​⋅X=bi​;  i=1,2,...,m,X⪰0

  • Page409: 伯努利分布(Bernoulli distribution)

    关于布尔变量 x ∈ {0,1} 的概率分布,其连续参数 μ ∈ [0,1] 表示变量 x=1 的概率。 P(x∣μ)=Bern(x∣μ)=μx(1−μ)(1−x)P(x|\mu) = Bern(x|\mu) = \mu^x(1-\mu)^{(1-x)}P(x∣μ)=Bern(x∣μ)=μx(1−μ)(1−x) E[x]=μ;var[x]=μ(1−μ)\mathbb{E}[x] = \mu; var[x] = \mu(1-\mu)E[x]=μ;var[x]=μ(1−μ)

  • Page409: 均匀分布(uniform distribution)

    关于定义在区间 [a,b](a<b) 上连续变量的简单概率分布。 p(x∣a,b)=U(x∣a,b)=1b−ap(x|a,b) = U(x|a,b) = \frac{1}{b-a}p(x∣a,b)=U(x∣a,b)=b−a1​ E[x]=a+b2;var[x]=(b−a)212\mathbb{E}[x] = \frac{a+b}{2}; var[x] = \frac{(b-a)^2}{12}E[x]=2a+b​;var[x]=12(b−a)2​

  • Page410: 多项分布(multinominal distribution)

    将伯努利分布由单变量扩展为 d 维,并在此基础上扩展二项分布就得到多项分布,它描述了在 N 次独立实验中有 mi 次 xi=1 的概率。 P(m1,m2,...,md∣N,μ)=Mult(m1,m2,...,md∣N,μ)=N!m1!m2!...md!∏i=1dμimiP(m_1,m_2,...,m_d|N,\mu) = Mult(m_1,m_2,...,m_d|N,\mu) = \frac{N!}{m_1!m_2!...m_d!} \prod_{i=1}^d \mu_i^{m_i}P(m1​,m2​,...,md​∣N,μ)=Mult(m1​,m2​,...,md​∣N,μ)=m1​!m2​!...md​!N!​∏i=1d​μimi​​ E[mi]=Nμi; var[mi]=Nμi(1−μi); cov[mj,mi]=−Nμjμi\mathbb{E}[m_i] = N\mu_i; \ var[m_i] = N\mu_i(1-\mu_i); \ cov[m_j,m_i] = -N\mu_j\mu_iE[mi​]=Nμi​; var[mi​]=Nμi​(1−μi​); cov[mj​,mi​]=−Nμj​μi​

  • Page410: 二项分布(binomial distribution)

    描述 N 次是独立的伯努利实验中有 m 次成功(x=1)的概率。 P(m∣N,μ)=Bin(m∣N,μ)=(Nm)μm(1−μ)N−mP(m|N,\mu) = Bin(m|N,\mu) = {N \choose m} \mu^m (1-\mu)^{N-m}P(m∣N,μ)=Bin(m∣N,μ)=(mN​)μm(1−μ)N−m

  • Page411: 贝塔分布(Beta distribution)

    关于连续变量 μ ∈ [0,1] 的概率分布,由两个参数 a>0, b>0 确定: p(μ∣a,b)=Beta(μ∣a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1=1B(a,b)μa−1(1−μ)b−1p(\mu|a,b) = Beta(\mu|a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} = \frac{1}{B(a,b)} \mu^{a-1}(1-\mu)^{b-1}p(μ∣a,b)=Beta(μ∣a,b)=Γ(a)Γ(b)Γ(a+b)​μa−1(1−μ)b−1=B(a,b)1​μa−1(1−μ)b−1 E[μ]=aa+b; var[μ]=ab(a+b)2(a+b+a); Γ(a)=∫0+∞ta−1e−tdt\mathbb{E}[\mu] = \frac{a}{a+b}; \ var[\mu] = \frac{ab}{(a+b)^2(a+b+a)}; \ \Gamma(a) = \int_{0}^{+\infty}t^{a-1}e^{-t}dtE[μ]=a+ba​; var[μ]=(a+b)2(a+b+a)ab​; Γ(a)=∫0+∞​ta−1e−tdt 当 a=b=1 时,贝塔分布退化为均匀分布。

  • Page412: 狄利克雷分布(Dirichlet distribution)

    关于一组 d 个连续变量 μi ∈ [0,1] 的概率分布,∑i=1dμi=1\sum_{i=1}^d \mu_i = 1∑i=1d​μi​=1。令 μ=(μ1,...,μd)\mu = (\mu_1,...,\mu_d)μ=(μ1​,...,μd​),参数 α=(α1,...,αd), αi>0,α^=∑i=1dαi\alpha = (\alpha_1,...,\alpha_d), \ \alpha_i>0, \hat{\alpha} = \sum_{i=1}^d \alpha_iα=(α1​,...,αd​), αi​>0,α^=∑i=1d​αi​ p(μ∣α)=Dir(μ∣α)=Γ(α^)Γ(α1)...Γ(αi)∏i=1dμi(αi−1)p(\mu|\alpha) = Dir(\mu|\alpha) = \frac{\Gamma(\hat{\alpha})}{\Gamma(\alpha_1)...\Gamma(\alpha_i)} \prod_{i=1}^d \mu_i^{(\alpha_i-1)}p(μ∣α)=Dir(μ∣α)=Γ(α1​)...Γ(αi​)Γ(α^)​∏i=1d​μi(αi​−1)​ E[μi]=αiα^, var[μi]=αi(α^−αi)α^2(α^+1), cov[μj,μi]=αjαiα^2(α^+1)\mathbb{E}[\mu_i] = \frac{\alpha_i}{\hat{\alpha}}, \ var[\mu_i] = \frac{\alpha_i(\hat{\alpha}-\alpha_i)}{\hat{\alpha}^2(\hat{\alpha}+1)}, \ cov[\mu_j,\mu_i] = \frac{\alpha_j\alpha_i}{\hat{\alpha}^2(\hat{\alpha}+1)}E[μi​]=α^αi​​, var[μi​]=α^2(α^+1)αi​(α^−αi​)​, cov[μj​,μi​]=α^2(α^+1)αj​αi​​ 当 d=2 时,狄利克雷分布退化为贝塔分布。

  • Page412: 高斯分布(Gaussian distribution)

    亦称正态分布(normal distribution),是应用最广泛的连续概率分布。 对于单变量 x ∈ (-∞, +∞),高斯分布的参数为均值 μ ∈ (-∞, +∞) 和 方差 σ^2 > 0。 p(x∣μ,σ2)=N(x∣μ,σ2)=12πσ2exp⁡{−(x−μ)22σ2}p(x|\mu,\sigma^2) = \mathcal{N}(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \{ -\frac{(x-\mu)^2}{2\sigma^2} \}p(x∣μ,σ2)=N(x∣μ,σ2)=2πσ2​1​exp{−2σ2(x−μ)2​} E=μ, var[x]=σ2\mathbb{E}=\mu, \ var[x]=\sigma^2E=μ, var[x]=σ2 对于 d 维向量 x,多元高斯分布的参数为 d 维均值向量 μ 和 d×d 的对称正定协方差矩阵 Σ。 p(x∣μ,∑)=N(x∣μ,∑)=12πddet⁡(∑)exp⁡{−12(x−μ)T∑−1(x−μ)}p(x|\mu,\sum) = \mathcal{N}(x|\mu,\sum) = \frac{1}{\sqrt{2\pi^d \det(\sum)}} \exp \{ -\frac{1}{2}(x-\mu)^T {\sum}^{-1}(x-\mu) \}p(x∣μ,∑)=N(x∣μ,∑)=2πddet(∑)​1​exp{−21​(x−μ)T∑−1(x−μ)} E=μ, var[x]=∑\mathbb{E}=\mu, \ var[x]=\sumE=μ, var[x]=∑

  • Page412: 正态分布(normal distribution)

    同高斯分布。

  • Page413: 共轭分布(conjugate distribution)

    假设变量 x 服从分布 P(x|Θ),其中 Θ 为参数,X={x1,x2,...,xm} 为变量 x 的观测样本,假设参数 Θ 服从先验分布 ∏(Θ)。 若由先验分布 ∏(Θ) 和抽样分布 P(X|Θ) 决定的后验分布 F(Θ|X) 与 ∏(Θ) 是同种类型的分布,则称先验分布 ∏(Θ) 为分布 P(X|Θ) 或 P(x|Θ) 的共轭分布。

  • Page414: 相对熵(relative entropy)

    亦称 KL 散度或信息散度,可用于度量两个概率分布之间的差异。给定两个概率分布 P 和 Q,二者之间的相对熵定义为: KL(P∣∣Q)=∫−∞+∞p(x)log⁡p(x)q(x)dxKL(P||Q) = \int_{-\infty}^{+\infty} p(x)\log\frac{p(x)}{q(x)}dxKL(P∣∣Q)=∫−∞+∞​p(x)logq(x)p(x)​dx 其中 p(x) 和 q(x) 分别为 P 和 Q 的概率密度函数。 通俗地说,用分布 Q 的最佳信息传递方式来传达分布 P,比用分布 P 自己的最佳信息方式传达平均多耗费的信息长度为 KL 散度。

  • Page414: 信息散度(information divergence)

    同相对熵。

  • Page415: 交叉熵(cross entropy)

    KL 散度展开可得: KL(P∣∣Q)=∫−∞+∞p(x)log⁡p(x)dx−∫−∞+∞p(x)log⁡q(x)dx=−H(P)+H(P,Q)KL(P||Q) = \int_{-\infty}^{+\infty} p(x)\log p(x)dx - \int_{-\infty}^{+\infty} p(x)\log q(x)dx = -H(P) + H(P,Q)KL(P∣∣Q)=∫−∞+∞​p(x)logp(x)dx−∫−∞+∞​p(x)logq(x)dx=−H(P)+H(P,Q) 其中 H(P) 为熵,H(P,Q) 为 P 和 Q 的交叉熵。 通俗地说,用分布 Q 的最佳信息传递方式传达分布 P 中随机抽选的一个事件,所需的平均信息长度为交叉熵。

  • Page415: 熵(entropy)

    熵是对整个事件信息量的量化,传达信息所需的最优平均信息长度为香农熵。 H(P)=∑xP(x)log⁡1P(x)H(P) = \sum_xP(x)\log\frac{1}{P(x)}H(P)=∑x​P(x)logP(x)1​

附:一些不错的学习资料

  • 奇异值分解

  • 拉格朗日乘子法

  • 梯度

  • 正定矩阵和半正定矩阵

  • 贝塔分布

  • 狄利克雷分布

  • 熵、相对熵、交叉熵

上一页强化学习下一页Java

最后更新于6年前

这有帮助吗?

奇异值分解 SVD 的数学解释 - CSDN 博客
(3 条消息) 奇异值的物理意义是什么? - 知乎
机器学习中的数学 (5)- 强大的矩阵奇异值分解 (SVD) 及其应用 - LeftNotEasy - 博客园
奇异值分解 (SVD) 原理详解及推导 - CSDN 博客
(3 条消息) 拉格朗日乘子法如何理解? - 知乎
【整理】深入理解拉格朗日乘子法(Lagrange Multiplier) 和 KKT 条件 - mo_wang - 博客园
An Introduction to Lagrange Multipliers
文章
为什么梯度反方向是函数值局部下降最快的方向?
梯度 - YouTube
正定矩阵与半正定矩阵定义性质与理解 - CSDN 博客
带你理解 beta 分布 - CSDN 博客
(2 条消息) 什么是狄利克雷分布?狄利克雷过程又是什么? - 知乎
机器学习的数学基础(1)--Dirichlet 分布 - CSDN 博客
科学网—再谈分布之分布(dirichlet 分布)- 贝叶斯分析之 2 - 张天蓉的博文
通俗理解 Dirichlet 分布及其实践 | A Notebook
Dirichlet Distribution(狄利克雷分布)与 Dirichlet Process(狄利克雷过程) | 数据学习者官方网站 (Datalearner)
LDA数学八卦
Shannon entropy in the context of machine learning and AI
如何理解KL散度的不对称性 | 机器之心
【 深度学习 】熵,交叉熵,KL 散度 Entropy, Cross-Entropy and KL-Divergence