梦里风林
  • Introduction
  • Android
    • activity
      • Activity四种启动模式
      • Intent Flag
      • 多task的应用
      • Task和回退栈
    • sqlite
      • 【源码】CursorWindow读DB
      • Sqlite在Android上的一个Bug
    • Chromium
    • ListView读取DB数据最佳实践
    • Android Project结构
    • 一个由Proguard与FastJson引起的血案
    • 琐碎的一些tips
  • Computer Vision
    • 特征提取
    • 三维视觉
    • 计算机视觉常用工具
    • 浅谈深度学习数据集设计
    • 随笔
  • Machine Learning
    • 技巧
      • FaceBook: 1 hour training ImageNet
      • L2 Norm与L2 normalize
    • 实践
      • Pytorch实验代码的亿些小细节
    • 工具
      • Tensorflow学习笔记
      • MXNet踩坑手记
      • PyTorch踩坑手记
      • PyTorch模型剪枝
      • Keras踩坑手记
      • mscnn
      • Matlab
        • Matlab Remote IPC自动化数据处理
    • Papers
      • Classification
      • Re-identification
        • CVPR2018:TFusion完全解读
        • ECCV2018:TAUDL
        • CVPR2018:Graph+reid
        • Person Re-identification
        • CVPR2016 Re-id
        • Camera topology and Person Re-id
        • Deep transfer learning Person Re-id
        • Evaluate
      • Object Detection
        • 读论文系列·干货满满的RCNN
        • 读论文系列·SPP-net
        • 读论文系列·Fast RCNN
        • 读论文系列·Faster RCNN
        • 读论文系列·YOLO
        • 读论文系列·SSD
        • 读论文系列·YOLOv2 & YOLOv3
        • 读论文系列·detection其他文章推荐
      • Depth
      • 3D vision
        • 数据集相关
        • 光流相关
      • Hashing
        • CVPR2018: SSAH
      • 大杂烩
        • CNCC2017 琐记
        • ECCV 2016 Hydra CCNN
        • CNCC2017深度学习与跨媒体智能
        • MLA2016笔记
    • 《机器学习》(周志华)读书笔记
      • 西瓜书概念整理
        • 绪论
        • 模型评估与选择
        • 线性模型
        • 决策树
        • 神经网络
        • 支持向量机
        • 贝叶斯分类器
        • 集成学习
        • 聚类
        • 降维与度量学习
        • 特征选择与稀疏学习
        • 计算学习理论
        • 半监督学习
        • 概率图模型
        • 规则学习
        • 强化学习
        • 附录
  • Java
    • java web
      • Servlet部署
      • 琐碎的tips
    • JNI
    • Note
    • Effective Java笔记
  • 后端开发
    • 架构设计
    • 数据库
    • java web
      • Servlet部署
      • 琐碎的tips
    • Spring boot
    • django
    • 分布式
  • Linux && Hardware
    • Ubuntu安装与初始配置
    • 树莓派相关
      • 树莓派3B+无线网卡监听模式
      • TP-LINK TL-WR703N v1.7 openwrt flashing
  • Python
    • django
    • 原生模块
    • 设计模式
    • 可视化
    • 常用库踩坑指南
  • web前端
    • header div固定,content div填充父容器
    • json接口资源
  • UI
  • kit
    • vim
    • git/github
      • 刷爆github小绿点
    • Markdown/gitbook
      • 琐碎知识点
      • gitbook添加disqus作为评论
      • 导出chrome书签为Markdown
      • Markdown here && 微信公众号
    • LaTex
      • LaTex琐记
    • 科学上网
    • 虚拟机
  • thinking-in-program
    • 怎样打日志
  • 我的收藏
  • 琐记
    • 论文心得
    • 深圳买房攻略
  • 赞赏支持
由 GitBook 提供支持
在本页

这有帮助吗?

  1. Machine Learning
  2. 《机器学习》(周志华)读书笔记
  3. 西瓜书概念整理

计算学习理论

上一页特征选择与稀疏学习下一页半监督学习

最后更新于6年前

这有帮助吗?

第12章 计算学习理论

  • Page267: 计算学习理论(computational learning theory)

    计算学习理论研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

  • Page268: Jensen不等式

    f(E(x))≦E(f(x))f(\mathbb{E}(x)) \leqq \mathbb{E}(f(x))f(E(x))≦E(f(x))

    期望的函数小于函数的期望

  • Page268: Hoeffding不等式

    若x1,x2,...,xmx_1,x_2,...,x_mx1​,x2​,...,xm​为mmm个独立随机变量,且满足0≦xi≦10\leqq x_i\leqq 10≦xi​≦1,则对于任意ϵ≧0\epsilon\geqq 0ϵ≧0有: P(1m∑i=1mxi−1m∑i=1mE(xi)≧ϵ)≦exp(−2mϵ2)P(\frac{1}{m}\sum_{i=1}^{m}x_i-\frac{1}{m}\sum_{i=1}^m\mathbb{E}(x_i)\geqq \epsilon)\leqq exp(-2m\epsilon^2)P(m1​∑i=1m​xi​−m1​∑i=1m​E(xi​)≧ϵ)≦exp(−2mϵ2) P(∣1m∑i=1mxi−1m∑i=1mE(xi)∣≧ϵ)≦2exp(−2mϵ2)P(\mid \frac{1}{m}\sum_{i=1}^{m}x_i-\frac{1}{m}\sum_{i=1}^m\mathbb{E}(x_i)\mid \geqq \epsilon)\leqq 2exp(-2m\epsilon^2)P(∣m1​∑i=1m​xi​−m1​∑i=1m​E(xi​)∣≧ϵ)≦2exp(−2mϵ2)

  • Page268: McDiarmid 不等式

    若x1,x2,...,xmx_1,x_2,...,x_mx1​,x2​,...,xm​为mmm个独立随机变量,且对任意1≦i≦m1\leqq i\leqq m1≦i≦m,函数fff满足

    ∑x1,x2,...,xm,xi′∣f(x1,...,xm)−f(x1,...,xi−1,xi′,xi+1,...,xm)∣≦ci\sum_{x_1,x_2,...,x_m, x^{'}_i } |f(x_1,...,x_m) - f(x_1, ... , x_{i-1}, x^{'}_i, x_{i+1}, ..., x_m)| \leqq c_i∑x1​,x2​,...,xm​,xi′​​∣f(x1​,...,xm​)−f(x1​,...,xi−1​,xi′​,xi+1​,...,xm​)∣≦ci​,

    则对任意ϵ≧0\epsilon\geqq 0ϵ≧0,有 P(f(x1,...,xm)−E(f(x1,...,xm))≧ϵ)≦exp(−2ϵ2∑ici2)P(f(x_1,...,x_m)-E(f(x_1,...,x_m))\geqq \epsilon)\leqq exp(\frac{-2\epsilon^2}{\sum_i c_i^2})P(f(x1​,...,xm​)−E(f(x1​,...,xm​))≧ϵ)≦exp(∑i​ci2​−2ϵ2​) P(∣f(x1,...,xm)−E(f(x1,...,xm))∣≧ϵ)≦exp(−2ϵ2∑ici2)P(\mid f(x_1,...,x_m)-E(f(x_1,...,x_m))\mid \geqq \epsilon)\leqq exp(\frac{-2\epsilon^2}{\sum_i c_i^2})P(∣f(x1​,...,xm​)−E(f(x1​,...,xm​))∣≧ϵ)≦exp(∑i​ci2​−2ϵ2​)

  • Page268: 概率近似正确

  • Page268: 概念类(concept class)

    令c表示概念,这是从样本空间X\mathcal{X}X到标记空间Y\mathcal{Y}Y的映射,它决定示例x的真实标记y,若对任何样例(x,y)有c(x)=y成立,则称c为目标概念,所有我们希望学得的目标概念所构成的集合称为概念类,用符号C\mathcal{C}C表示。

  • Page268: 假设空间(hypothesis space)

  • Page269: PAC辨识(PAC Identify)

  • Page269: PAC可学习(PAC Learnable)

  • Page270: PAC学习算法(PAC Learning Algorithm)

  • Page269: 时间复杂度

  • Page270: 样本复杂度

  • Page269: 不可分(272)(non-seperable)

  • Page269: 不一致(non-consistent)

    即不可分。

  • Page269: 可分(270)(seperable)

  • Page270: 恰PAC可学习(properly PAC learnable)

  • Page270: 有限假设空间

  • Page273: 不可知PAC可学习(agnostic PAC learnable)

  • Page273: 增长函数

  • Page273: 对分

  • Page273: 打散

  • Page273: VC维(274)

  • Page278: 经验风险最小化(Empirical Risk Minimization, ERM)

  • Page279: Rademacher复杂度

    经验误差最小的假设是

    期望为

  • Page284: 稳定性

    算法在输入发生变化时,输出是否会随之发生较大的变化。

  • Page285: 均匀稳定性

给定学习算法L\mathfrak{L}L,它所考虑的所有可能概念的集合称为“假设空间”,用符号H\mathcal{H}H表示。由于学习算法事先并不知道概念类的真实存在,因此假设空间和概念类往往不同。

对于0<ϵ,δ<10<\epsilon, \delta<10<ϵ,δ<1,所有c∈Cc\in\mathcal{C}c∈C和分布D\mathcal{D}D,若存在学习算法L\mathfrak{L}L,其输出假设h∈Hh\in\mathcal{H}h∈H满足

P(E(h)≦ϵ)≧1−δP(E(h)\leqq \epsilon)\geqq 1-\deltaP(E(h)≦ϵ)≧1−δ

则称学习算法L\mathfrak{L}L能从假设空间H\mathcal{H}H中PAC辨识概念类C\mathcal{C}C,这样的学习算法L\mathfrak{L}L能从假设空间H\mathcal{H}H中PAC辨识概念类C\mathcal{C}C.

令mmm表示从分布D\mathcal{D}D中独立同分布采样得到的样例数目,0<ϵ,δ<10<\epsilon,\delta<10<ϵ,δ<1,对所有分布D\mathcal{D}D,若存在学习算法L\mathfrak{L}L和多项式函数poly(.,.,.,.)poly(.,.,.,.)poly(.,.,.,.),使得对于任何m≧poly(1/ϵ,1/δ,size(x),size(c))m\geqq poly(1/\epsilon,1/\delta,size(x),size(c))m≧poly(1/ϵ,1/δ,size(x),size(c)), L\mathfrak{L}L能从假设空间H\mathcal{H}H中PAC辨识概念类C\mathcal{C}C,则称概念类C\mathcal{C}C对假设空间H\mathcal{H}H而言是PAC可学习的,也简称概念类C\mathcal{C}C是PAC可学习的。对于计算机算法来说,必须考虑时间复杂度,于是:

若学习算法L\mathfrak{L}L使概念类C\mathcal{C}C为PAC可学习的,且L\mathfrak{L}L的运行时间也是多项式函数poly(1/ϵ,1/δ,size(x),size(c))poly(1/\epsilon,1/\delta,size(x),size(c))poly(1/ϵ,1/δ,size(x),size(c)),则称概念类C\mathcal{C}C是高效PAC可学习的,称L\mathfrak{L}L为概念类C\mathcal{C}C的PAC学习算法。

假定学习算法L\mathfrak{L}L处理每个样本的时间为常数,则L\mathfrak{L}L的时间复杂度等价于样本复杂度。

满足PAC学习算法L\mathfrak{L}L所需的m≧poly(1/ϵ,1/δ,size(x),size(c))m\geqq poly(1/\epsilon,1/\delta,size(x),size(c))m≧poly(1/ϵ,1/δ,size(x),size(c))中最小的m,称为学习算法L\mathfrak{L}L的样本复杂度。

对于较为困难的学习问题,目标概念ccc往往不存在于假设空间H\mathcal{H}H中,假定对于任何h∈H,E(h)^≠0h\in\mathcal{H}, \hat{E(h)}\neq0h∈H,E(h)^​=0,也就是说,H\mathcal{H}H中的任意一个假设都会在训练集上出现或多或少的错误。H\mathcal{H}H中不存在任何假设能将所有示例完全正确分开,则称该问题对于学习算法L\mathfrak{L}L是不可分的,亦称不一致的。

可分情形意味着目标概念ccc属于假设空间H\mathcal{H}H, 即 c∈Hc\in\mathcal{H}c∈H,H\mathcal{H}H中存在假设能将所有示例按与真实标记一致的方式完全分开,我们将该问题对学习算法L\mathfrak{L}L是可分的,亦称一致的。

若学习算法L\mathfrak{L}L使概念类C\mathcal{C}C为PAC可学习的,且L\mathfrak{L}L的运行时间也是多项式函数poly(1/ϵ,1/δ,size(x),size(c))poly(1/\epsilon, 1/\delta, size(x), size(c))poly(1/ϵ,1/δ,size(x),size(c)),则称概念类C\mathcal{C}C是高效PAC可学习的,称L\mathfrak{L}L为概念类C\mathcal{C}C的PAC学习算法。若在PAC学习中假设空间与概念类完全相同,称为恰PAC可学习,这意味着学习算法的能力与学习任务恰好匹配。

一般而言,H\mathcal{H}H越大,其包含任意目标概念的可能性越大,但从中找到某个具体概念的难度也越大,∣H∣|\mathcal{H}|∣H∣有限时,我们称H\mathcal{H}H为有限假设空间,否则称为“无限假设空间”。

令mmm表示从分布D\mathcal{D}D中独立同分布采样得到的样例数目,1<ϵ,δ<11<\epsilon, \delta < 11<ϵ,δ<1,对所有分布D\mathcal{D}D,若存在学习算法L\mathcal{L}L和多项式函数poly(.,.,.,.)poly(.,.,.,.)poly(.,.,.,.),使得对于任何m≦poly(1/ϵ,1/δ,size(x),size(c))m\leqq poly(1/\epsilon, 1/\delta, size(x), size(c))m≦poly(1/ϵ,1/δ,size(x),size(c)),L\mathfrak{L}L能从假设空间H\mathcal{H}H中输出满足P(E(h)−minh′∈H)≦ϵ≧1−δP(E(h)-min_{h^{'} \in \mathcal{H}})\leqq\epsilon\geqq 1 - \deltaP(E(h)−minh′∈H​)≦ϵ≧1−δ的假设h,则称假设空间H\mathcal{H}H是不可知PAC可学习的。

给定假设空间H\mathcal{H}H和示例集D=x1,x2,...,xmD={x_1, x_2, ..., x_m}D=x1​,x2​,...,xm​,H\mathcal{H}H中每个假设h都能对DDD中示例赋予标记,标记结果可表示为

h∣D=h(x1),h(x2),...,h(xm)h|_D = {h(x_1), h(x_2), ... , h(x_m)}h∣D​=h(x1​),h(x2​),...,h(xm​)

随着m的增大,H\mathcal{H}H中所有假设对D中的示例所能赋予标记的可能结果数也会增大。

对所有m∈Nm\in\mathbb{N}m∈N,假设空间H\mathcal{H}H的增长函数

∏H(m)=max{x1,...,xm⊆H}∣{h(x1),h(x2),...,h(xm)∣h⊆H}∣\prod_{\mathcal{H}}(m)= max_{\{x_1, ..., x_m\subseteq \mathcal{H}\}}|\{h(x_1), h(x_2),..., h(x_m)|h\subseteq \mathcal{H}\}|∏H​(m)=max{x1​,...,xm​⊆H}​∣{h(x1​),h(x2​),...,h(xm​)∣h⊆H}∣,

表示假设空间H\mathcal{H}H对m个示例所能赋予标记的最大可能结果数,可能结果数越大,假设空间的表示能力越强,对学习任务的适应能力也越强,可以利用增长函数来估计经验误差与泛化误差之间的关系。

假设空间H\mathcal{H}H中不同的假设对于D\mathcal{D}D中示例赋予标记的结果可能相同,也可能不同;尽管H\mathcal{H}H可能包含无穷多个假设,但其对D\mathcal{D}D中示例赋予标记的可能结果是有限的。对m个示例,最多有2m2^m2m个可能结果,对二分类问题来说,H\mathcal{H}H中的假设对D\mathcal{D}D中示例赋予标记的每种可能结果称为对D\mathcal{D}D的一种对分。

若假设空间H\mathcal{H}H能实现示例集D\mathcal{D}D上的所有对分,即∏H(m)=2m\prod_{\mathcal{H}}(m)=2^m∏H​(m)=2m,则称示例集D\mathcal{D}D能被假设空间H\mathcal{H}H打散。

假设空间的VC维是能被H\mathcal{H}H打散的最大示例集的大小,即VC(H)=maxm:∏H(m)=2mVC(\mathcal{H})=max{m: \prod_{\mathcal{H}}(m)=2^m}VC(H)=maxm:∏H​(m)=2m,可用于度量假设空间的复杂度。

令h表示学习算法L\mathfrak{L}L输出的假设,若hhh满足E^(h)=minh′\hat{E}(h)=min_{h'}E^(h)=minh′​,则称L\mathfrak{L}L为满足经验风险最小化原则的算法。

argmaxh∈H1m∑i=1myih(xi)argmax_{h\in\mathcal{H}}\frac{1}{m}\sum_{i=1}^m y_i h(x_i)argmaxh∈H​m1​∑i=1m​yi​h(xi​),

然而现实任务中的标记y有时候会收到噪声影响,不再是真实标记,再此情形下,选择假设空间H\mathcal{H}H中在训练集上表现最好的假设,有时还不如选择H\mathcal{H}H中事先考虑了随机噪声影响的假设。考虑随机变量σi\sigma_iσi​,它以0.5的概率取值-1,0.5的概率取值+1,称为Rademacher随机变量,基于σi\sigma_iσi​可将上式改写为

suph∈H1m∑i=1mσih(xi)sup_{h\in\mathcal{H}}\frac{1}{m}\sum^m_{i=1}\sigma_i h(x_i)suph∈H​m1​∑i=1m​σi​h(xi​),

Eσ[suph∈H∑i=1mσih(xi)]\mathbb{E}_{\sigma}[sup_{h\in\mathcal{H}}\sum_{i=1}^m \sigma_ih(x_i)]Eσ​[suph∈H​∑i=1m​σi​h(xi​)],

考虑实值函数空间 F:Z→R\mathcal{F}:\mathcal{Z}\rightarrow\mathcal{R}F:Z→R, 令Z=z1,z2,...,zmZ={z_1,z_2,...,z_m}Z=z1​,z2​,...,zm​,

其中zi∈Zz_i\in\mathcal{Z}zi​∈Z, 将X\mathcal{X}X和H\mathcal{H}H替换成ZZZ和FFF可得,函数空间Z\mathcal{Z}Zg关于F\mathcal{F}F的经验Rademacher复杂度

R^Z(F)=Eσ[supf∈F1m∑i=1mσif(zi)]\hat{R}_Z(\mathcal{F})=\mathbb{E}_{\sigma}[sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^m\sigma_i f(z_i)]R^Z​(F)=Eσ​[supf∈F​m1​∑i=1m​σi​f(zi​)],

其衡量了函数空间F\mathcal{F}F与随机噪声在集合Z\mathcal{Z}Z中的相关性。对所有从D\mathcal{D}D独立同分布采样而得的大小为m的集合Z求期望可得函数空间F\mathcal{F}F关于上Z\mathcal{Z}Z分布的D\mathcal{D}DRademacher复杂度。

对任何x∈X,z=(x,y)x\in\mathcal{X},z=(x,y)x∈X,z=(x,y),若学习算法L\mathcal{L}L满足

∣l(LD,z)−l(LDi,z)∣≦β|l(\mathcal{L}_D, z) - l(\mathcal{L}_{D_i},z)|\leqq\beta∣l(LD​,z)−l(LDi​​,z)∣≦β,

则称L\mathcal{L}L关于损失函数lll满足β\betaβ均匀稳定性。

其中l为泛化损失,DiD_iDi​为移除DDD中第i个样例得到的集合。