概率图模型

第14章 概率图模型(probabilistic model)

  • Page319: 马尔科夫网(Markov network)

    使用无向图表示变量间的相关关系的概率图模型。 概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即『变量关系图』。根据边的性质不同,概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔科夫网。

  • Page319: 推断

    概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为『推断』,其核心是如何基于可观测变量推测出未知变量的条件分布。

  • Page319: 隐马尔科夫模型(Hidden Markov Model)

    隐马尔科夫(HMM)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模,在语音识别、自然语言处理等领域有广泛应用。

  • Page322: 马尔科夫随机场(Markov Random Field)

    马尔科夫随机场(MRF)是典型的马尔科夫网,一种著名的无向图模型。图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系。

  • Page322: 势函数(potential functions)

    同因子。

  • Page322: 因子(factor)

    马尔科夫随机场有一组势函数,亦称『因子』,这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。 对结点的一个子集,若任意两结点间都有边连接,则称该结点子集为一个『团』。在马尔科夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子仅与一个团相关。

  • Page323: 全局马尔科夫性(global Markov property)

  • Page324: 局部马尔科夫性(local Markov property)

  • Page325: 成对马尔科夫性(pairwise Markov property)

    由全局马尔科夫性得出的推论之一。给定所有其他变量,两个非邻接变量条件独立。

  • Page325: 马尔科夫毯(Markov blanket)

    某变量的所有邻接变量组成的集合称为该变量的马尔科夫毯。

  • Page325: 条件随机场(Conditional Random Field)

  • Page326: 链式条件随机场(chain-structured CRF)

  • Page328: 边际分布(marginal distribution)

  • Page328: 变量消去

    概率图模型的推断方法大致可以分为:精确推断方法和近似推断方法。 精确推断方法实质是一种动态规划算法,它利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。变量消去法是最直观的精确推断算法,也是构建其他精确推断算法的基础。 变量消去法通过利用乘法对加法的分配率,把多个变量的积的求和问题,转化为对部分变量交替进行求积与求和的问题。这种转化使得每次的求和与求积运算限制在局部,仅与部分变量有关,从而简化了运算。 它的一个明显的缺点是:若需计算多个边际分布,重复使用变量消去法将会造成大量的冗余计算。

  • Page330: 信念传播(340)(Belief Propagation)

    亦称 Sum-Product 算法,将变量消去法中的求和操作看作一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题。 信念传播算法最早由 Pearl 作为精确推断技术提出,后来衍生出多种近似推断算法。对一般的带环图,信念传播算法需在初始化、消息传递等环节进行调整,由此形成了迭代信念传播算法(Loopy Belief Propagation)。

  • Page331: MCMC(Markov Chain Monte Carlo)

    马尔科夫链蒙特卡洛方法,概率图模型中最常用的采样技术。 MCMC 方法先设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔科夫链来产生符合后验分布的样本,并基于这些样本来进行估计。这里马尔科夫链转移概率的构造至关重要,不同的构造方法将产生不同的 MCMC 算法。

  • Page333: MH 算法(Metropolis-Hastings)

    MH(Metropolis-Hastings)算法是 MCMC 的重要代表。它基于『拒绝采样』来逼近平稳分布。算法每次根据上一轮采样结果获得候选样本,但这个候选样本会以一定概率被『拒绝』掉。

  • Page334: 变分推断(variational inference)

    变分推断通过使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。 变分推断使用的近似分布须具有良好的数值性质,通常是基于连续型变量的概率密度函数来刻画的。

  • Page334: 盘式记法(plate notation)

  • Page335: KL 散度(414)(Kullback-Leibler divergence)

  • Page337: 平均场(mean field)

  • Page337: 话题模型(topic model)

    一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。 话题表示一个概念,具体表示为一系列相关的词,以及它们在该概念下出现的概率。

  • Page337: 隐狄利克雷分配模型(Latent Dirichlet Allocation)

  • Page340: 非参数化(non-parametric)法

    一般认为在一个统计推断问题中,如给定或者假定了总体分布的具体形式,只是其中含有若干个参数,要基于来自总体的样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为非参数化方法。非参数化是指参数的数目无须事先指定,是贝叶斯学习方法的重要发展。

最后更新于