第12章 计算学习理论
Page267: 计算学习理论(computational learning theory)
计算学习理论研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
Page268: Jensen不等式
f(E(x))≦E(f(x))
期望的函数小于函数的期望
Page268: Hoeffding不等式
若x1,x2,...,xm为m个独立随机变量,且满足0≦xi≦1,则对于任意ϵ≧0有: P(m1∑i=1mxi−m1∑i=1mE(xi)≧ϵ)≦exp(−2mϵ2) P(∣m1∑i=1mxi−m1∑i=1mE(xi)∣≧ϵ)≦2exp(−2mϵ2)
Page268: McDiarmid 不等式
若x1,x2,...,xm为m个独立随机变量,且对任意1≦i≦m,函数f满足
∑x1,x2,...,xm,xi′∣f(x1,...,xm)−f(x1,...,xi−1,xi′,xi+1,...,xm)∣≦ci,
则对任意ϵ≧0,有 P(f(x1,...,xm)−E(f(x1,...,xm))≧ϵ)≦exp(∑ici2−2ϵ2) P(∣f(x1,...,xm)−E(f(x1,...,xm))∣≧ϵ)≦exp(∑ici2−2ϵ2)
Page268: 概念类(concept class)
令c表示概念,这是从样本空间X到标记空间Y的映射,它决定示例x的真实标记y,若对任何样例(x,y)有c(x)=y成立,则称c为目标概念,所有我们希望学得的目标概念所构成的集合称为概念类,用符号C表示。
Page268: 假设空间(hypothesis space)
Page269: PAC辨识(PAC Identify)
Page269: PAC可学习(PAC Learnable)
Page270: PAC学习算法(PAC Learning Algorithm)
Page269: 不可分(272)(non-seperable)
Page269: 不一致(non-consistent)
即不可分。
Page269: 可分(270)(seperable)
Page270: 恰PAC可学习(properly PAC learnable)
Page273: 不可知PAC可学习(agnostic PAC learnable)
Page278: 经验风险最小化(Empirical Risk Minimization, ERM)
Page279: Rademacher复杂度
经验误差最小的假设是
期望为
Page284: 稳定性
算法在输入发生变化时,输出是否会随之发生较大的变化。
给定学习算法L,它所考虑的所有可能概念的集合称为“假设空间”,用符号H表示。由于学习算法事先并不知道概念类的真实存在,因此假设空间和概念类往往不同。
对于0<ϵ,δ<1,所有c∈C和分布D,若存在学习算法L,其输出假设h∈H满足
P(E(h)≦ϵ)≧1−δ
则称学习算法L能从假设空间H中PAC辨识概念类C,这样的学习算法L能从假设空间H中PAC辨识概念类C.
令m表示从分布D中独立同分布采样得到的样例数目,0<ϵ,δ<1,对所有分布D,若存在学习算法L和多项式函数poly(.,.,.,.),使得对于任何m≧poly(1/ϵ,1/δ,size(x),size(c)), L能从假设空间H中PAC辨识概念类C,则称概念类C对假设空间H而言是PAC可学习的,也简称概念类C是PAC可学习的。对于计算机算法来说,必须考虑时间复杂度,于是:
若学习算法L使概念类C为PAC可学习的,且L的运行时间也是多项式函数poly(1/ϵ,1/δ,size(x),size(c)),则称概念类C是高效PAC可学习的,称L为概念类C的PAC学习算法。
假定学习算法L处理每个样本的时间为常数,则L的时间复杂度等价于样本复杂度。
满足PAC学习算法L所需的m≧poly(1/ϵ,1/δ,size(x),size(c))中最小的m,称为学习算法L的样本复杂度。
对于较为困难的学习问题,目标概念c往往不存在于假设空间H中,假定对于任何h∈H,E(h)^=0,也就是说,H中的任意一个假设都会在训练集上出现或多或少的错误。H中不存在任何假设能将所有示例完全正确分开,则称该问题对于学习算法L是不可分的,亦称不一致的。
可分情形意味着目标概念c属于假设空间H, 即 c∈H,H中存在假设能将所有示例按与真实标记一致的方式完全分开,我们将该问题对学习算法L是可分的,亦称一致的。
若学习算法L使概念类C为PAC可学习的,且L的运行时间也是多项式函数poly(1/ϵ,1/δ,size(x),size(c)),则称概念类C是高效PAC可学习的,称L为概念类C的PAC学习算法。若在PAC学习中假设空间与概念类完全相同,称为恰PAC可学习,这意味着学习算法的能力与学习任务恰好匹配。
一般而言,H越大,其包含任意目标概念的可能性越大,但从中找到某个具体概念的难度也越大,∣H∣有限时,我们称H为有限假设空间,否则称为“无限假设空间”。
令m表示从分布D中独立同分布采样得到的样例数目,1<ϵ,δ<1,对所有分布D,若存在学习算法L和多项式函数poly(.,.,.,.),使得对于任何m≦poly(1/ϵ,1/δ,size(x),size(c)),L能从假设空间H中输出满足P(E(h)−minh′∈H)≦ϵ≧1−δ的假设h,则称假设空间H是不可知PAC可学习的。
给定假设空间H和示例集D=x1,x2,...,xm,H中每个假设h都能对D中示例赋予标记,标记结果可表示为
h∣D=h(x1),h(x2),...,h(xm)
随着m的增大,H中所有假设对D中的示例所能赋予标记的可能结果数也会增大。
对所有m∈N,假设空间H的增长函数
∏H(m)=max{x1,...,xm⊆H}∣{h(x1),h(x2),...,h(xm)∣h⊆H}∣,
表示假设空间H对m个示例所能赋予标记的最大可能结果数,可能结果数越大,假设空间的表示能力越强,对学习任务的适应能力也越强,可以利用增长函数来估计经验误差与泛化误差之间的关系。
假设空间H中不同的假设对于D中示例赋予标记的结果可能相同,也可能不同;尽管H可能包含无穷多个假设,但其对D中示例赋予标记的可能结果是有限的。对m个示例,最多有2m个可能结果,对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种对分。
若假设空间H能实现示例集D上的所有对分,即∏H(m)=2m,则称示例集D能被假设空间H打散。
假设空间的VC维是能被H打散的最大示例集的大小,即VC(H)=maxm:∏H(m)=2m,可用于度量假设空间的复杂度。
令h表示学习算法L输出的假设,若h满足E^(h)=minh′,则称L为满足经验风险最小化原则的算法。
argmaxh∈Hm1∑i=1myih(xi),
然而现实任务中的标记y有时候会收到噪声影响,不再是真实标记,再此情形下,选择假设空间H中在训练集上表现最好的假设,有时还不如选择H中事先考虑了随机噪声影响的假设。考虑随机变量σi,它以0.5的概率取值-1,0.5的概率取值+1,称为Rademacher随机变量,基于σi可将上式改写为
suph∈Hm1∑i=1mσih(xi),
Eσ[suph∈H∑i=1mσih(xi)],
考虑实值函数空间 F:Z→R, 令Z=z1,z2,...,zm,
其中zi∈Z, 将X和H替换成Z和F可得,函数空间Zg关于F的经验Rademacher复杂度
R^Z(F)=Eσ[supf∈Fm1∑i=1mσif(zi)],
其衡量了函数空间F与随机噪声在集合Z中的相关性。对所有从D独立同分布采样而得的大小为m的集合Z求期望可得函数空间F关于上Z分布的DRademacher复杂度。
对任何x∈X,z=(x,y),若学习算法L满足
∣l(LD,z)−l(LDi,z)∣≦β,
则称L关于损失函数l满足β均匀稳定性。
其中l为泛化损失,Di为移除D中第i个样例得到的集合。