MLA2016笔记

开幕式

ppt会在网站上共享
每年的会议也会由清华大学出版社整理为《机器学习及其应用》一书
公众号：MLA2016

以下笔记整理与会议期间，主要关注机器学习应用方向，对于一些比较小众或者高深的topic，由于个人水平有限，会跳过一部分不讲。

Presentation（11月5日）

分布式学习

背景
- 大数据分布式学习介绍
- 大数据自然地分散存储
问题
- 数据分为子集，子集运算，output平均
- 分布式结果与单机运算结果理论上是否应该近似？？
常用方法
- 最小二乘回归：最小化预测与实际值差异 - 过拟合 - 假设空间
- 假设空间越大学习效果越好
- 具体应用时假设空间会被限制
- 目标函数要学好，需要与kernel空间有联系，具体关系由一个函数描述
- kernel空间
- 假设空间越大，函数光滑性越好
回归分布式学习
- 函数复杂度：λ趋向无穷的速度
- 衡量学习算法的好坏
单机结果与分布式结果的误差由一个公式描述，这个公式表述了：
- 分布式能达到单机效果
- m一般越大越接近单机结果，分的多variance越小，但不能分到底，要有一个限制
数学上的问题：最小二乘回归能得出minimize rate吗？用二次分解解决
深度学习困境：
- 黑箱：强加条件可能有效但不明所以
- 浅层神经网络做不了局部近似，两层可以做到，三层与两层效果往往有很大差别，但不明所以
- 希望从数学上说明更多层数能获得许多不同的结构层次信息
  - 内积学的是多个方向上的东西，多层时方向维度信息指数增加
- sgd
- 在经典结构上加些几何结构能学到数学上对应的结构
- minor gradient
- 深度网络，函数有结构才能学得好

ML in NLU，CL，NLP

NLP && DL
机器翻译，情感分析，自动摘要，问答系统，关系抽取
挑战
- 未知现象太多
- 歧义，双关，隐喻
- 跨文化语义
- 方法
  - 规则：词法，词性
  - 统计：概率，贝叶斯，语言模型，翻译模型，解码器
    分词-短语-翻译-调序
  - 常用方法，开源工具
  - example：
    由字构词，识别词的位置做为特征，进一步得到词义
    词义消岐，词性，位置
    文本分类，分类器组合
深度学习
- RBM无监督做图像，HMM语音识别的突破
- 词向量
  - one hot 相乘为0！
  - 近似词放在相近的地方
  - 词表规模，词向量维度的确定
  - 词向量获取CBOW，etc
- 句子语义表达：RNN，attention（在句子中的重要性，可用眼动仪测量）
- 翻译：生词 - 概率优化 - 同义词 - 拆词 - 补词
《统计自然语言处理》宗成庆
- 深度学习不等于深度理解
  - 难以全文分析，就缺乏归纳推理
  - 常识学习
- 深度学习泛滥，应该多考虑其他机器学习方法的出路

忆阻

硬件模拟大脑计算
内存基于电容，易失，忆阻不易失
BP更新权重需要用外部电路辅助实现

Spotlight

hulu：CF-NADE神经网络协同过滤推荐
CNN可视化，随机权重少量训练，重构图像，验证ML也不一定需要大量训练 **
估计光泽量，反射量，考量对数变换
深度网络缩小文本与图像的语义差异，再映射？？
迁移学习：模型的联合概率分布有差异
高维非凸最优化
函数偏移值强化学习
异构人脸识别
loss function求和优化，共享内存异步优化
深度学习+哈希学习
蒙特卡罗预测状态

Presentation 11-06

迁移学习 kernel embedding of distribution

分类聚类，增强学习
wifi室内定位，N个路由器，N维向量，
- 连续空间：回归问题
- 设备移动，记录位置和路由器强度
- 回归学习定位系统
- WiFi对温度敏感，所以强度会发生变化，不同目标设备也会影响强度值
- 使用迁移学习，让后来的设备适配先前的设备模型
情感分析
- 用户情感词可能很多种，不同产品会有不同类型的情感词
- 添加enable标签
Bug predict
机器学习强假设：训练与测试数据需要来源相同，分布相同，特征相同
其实我们只需要收集一些enable数据和一点feature数据（半监督）
添加迁移学习方法预测target
异构迁移，同构迁移
监督迁移，半监督，无监督迁移
基于样本迁移学习
- source跟target在数据集上有重叠
基于特征迁移学习
- 训练集与测试集只有一部分重叠特征
- 特征映射到一个空间，在这个空间训练集与测试集接近
基于参数迁移学习
- 可能迁移目标与源在参数上相近
基于关系迁移学习
- source和target在数据之间的关系可能相同
通用的基于特征的迁移学习
- source和target结构相似，
- 假设它们有潜在的相同因子
- 去掉一些因子，使得数据的分布不变，那这些因子就是它们的共同特征
- 同时还要尽量保持原来的数值
- 最小化source和target分布的差异
- RKHS
- 找一个向量代表一组数据
- 增加多维统计信息比如(E[x] E[x2] ...)
- 无穷维，用核函数形式展示

搜索引擎信息检索

可视化特征学习与表达

特征的寻找，低维表达高维图像数据 - 子空间
稀疏特征表达 **
人脸 - 关键点定位 - 让模拟关键点与实际关键点误差最小，先拟合再回归
CSR
hypergraph base：feature hyper edge：轮廓
- 空间大，边不能自适应非均匀自适应分布

Bug mining

自然语言与程序语言存在不同
需要根据问题本身进行设计

多任务学习

school数据集：每个学校单独预测，多个学校同时联合训练
- 弥补训练数据的缺失
训练过程中多任务联合，抓住任务间联系，建模，预测
重点在任务之间的关联
- 假设所有任务相似
  - 假设所有任务参数向量接近，让所有任务共享方差，简单，假设太强
- 特征空间相似
  - 共享同一组特征：所有任务都会使用特征中的某一部分，group sparsity l1,q norm 规范化，最小化norm，使得共享稀疏特征
- 共享低维子空间
  - rank minimization，增加一个rank项，rank最小化
- 共享结构，聚簇，图，树
  - 聚簇：同一个族中的任务距离更相近
- 学习外围任务
避免无关因素影响
约定
- 每个任务有一个特征矩阵，不同任务样本数量不同，矩阵长度不同，但所有任务的特征相同，矩阵宽度相同
- 每个任务有一个参数向量
- 用以上符号表达几乎所有多任务模型
- 损失：正常的预测与实际值的偏差
- 规范化参数
然而上述假设都有点强，需要分开：W = P + Q，任务由相关部分和不相关部分组成
- l2 norm，在Q中让有些列为0，表示有些列是有特异性的
任务之间的关系：task-level（这种假设还是比较强）
feature-level：任务在某些特征上是否相关，有何相关

协同聚类

规范化项
- 仍然W = P + Q模型
- Q描述协同聚类效果
- 模拟任务与特征之间的协同聚类
- Q的一个行是一个特征，Q的一个列是一个任务
- 在Z向量上聚类
- 两个规范化项
- 第二个规范化项是非凸的，需要CoCMTL优化
优化
- Low rank MTL
- 为求解添加核范数 nuclear norm，做一个松弛
- 矩阵信息主要由奇异值大的特征向量表达，很受核范数影响，产生负面因素
- 在核范数前增加权值，奇异值越大，权重越小，权值自动优化，需要设计优化算法
- 这个权重也是非凸，但物理意义更接近矩阵的秩
- 权值的优化：近似非凸函数，随机权值，逐步调节
- 权值优化收敛性：一定会收敛，收敛速度还可以
轨迹回归
- 一个序列，含有多个路段的数据，预测通过路线的时间
- n 个轨迹对，每个路段的行驶距离，需要预计走过每个路段的时间
挑战：
- 不同时间走过一个路段的耗时是不同的
- 轨迹数据非常稀疏
- 训练样本有限
- 不能单任务
将序列按时间划分成多个子集，每个时间段的预测分别为一个任务（比如早高峰一个任务，晚高峰一个任务，平常时间为一个任务）
- 相邻时间代价变化光滑，存在全局光滑性
- 存在局部突出变化
分解
- P 模拟全局平滑性质
- Q 抓住局部性质
- P 时间上的平滑性，空间上的平滑性
- Q 异常现象，l inf,1 范数，达到列稀疏效果，描述了某些任务与其他大部分任务之间的区别
  - 高峰代价由全路段最大代价决定
建模完成
优化非平滑，需要近似
苏州出租车行驶数据，6W轨迹信息
Q矩阵每列的最大值画出来，几乎描述了高峰的局部现象

大数据

核心：分析处理
大数据分析与处理的核心基础，搭建新平台，研发新算法
数据预处理，算法工程化
处理：计算机为基础
分析：数学为基础
基于全数据中心估计
基于数据分解的分布估计
ADMM
理论决定深度结构
模型族决定假设空间
深度学习解决模型选择与参数选择
解反问题的一个新思路：模型求解与范例学习

自适应动态规划 - 学习控制

人脸识别

triplet loss不需占用额外显存
seetaface

Spotlight

社交影响驾驶行为
- 车联网
- 司机之间的社交分享提高司机经验
- 启发：在同一个地方都停留超过10分钟，就可能是有社交关系
- 2013纽约出租车行驶数据集
- 从行为模式建模出社交关系
- 用社交关系得到权重作用于行为模式预测
- 行为模式得到轨迹

Special Session

顶会Review(以下环节中paper部分表示很值得关注的paper)

ML
- ICML
  - 神经网络，深度学习，优化，再增强学习，矩阵构造，无监督学习，在线学习，学习理论，应用
  - 过去十年最有影响文章：dynamic topic models
  - rnn,采样，动态组织模型深度强化学习
- NIPS
  - 论文数取决于场地。。
  - learning，model, network，optimization，deep， inference，贝叶斯
  - 顶会有tutorial，tensorflow，NVIDIA gpu介绍
  - 邀请牛人分享
  - workshop：bayesian, application, deep learning, new areas, others
  - Paper:
    Competitive Distribution Estimation: Why is Good-Turing Gooding good
    Fast Convergence of Regularized Learning in Games
  - startup:
    ai startup: openai was founded
  - hot areas: new models: optimization for dl , bayesian, reinference
  - adaptive data analysis: 实验不可泛化，需要避免
  - review: 每篇论文有六个reviewer，review会公开（重要）
- COLT
  - 计算机理论文章进入这个圈子
  - 十大机构占半
  - 一小群数学家在这里开会
  - bandit, 计算机理论，online, 限制学习，监督学习,pac
  - 两个invited talk
  - Paper:
    Multi-scale exploration of convex functions and bandit convex optimization
    Provably manipulation-resistant reputation systems (协同过滤)
  - dl：理论：
  - the power of depth for feedforward neural networks
  - benefits of depth in neural networks
  - on the expressive power of deep learning: a tensor analysis
  - 深层少节点可行，浅层多节点才行
  - Paper
    Online Learning in Repeated Auctions: 拍卖，true value unknow the true value
    Learning Simple Auctions：证明多项式级样本可以达到买卖平衡
AI
- AAAI
  - tripleAI
  - topic: machine learning method, ml app, 博弈论,
  - 计算机视觉，web，nlp, 认知模型
  - 启发式，多智能，不确定，规划调度
  - 鲁棒AI
  - paper:
    Bidirectional Search That Is Guaranteed to Meet in the Middle
    Toward a Taxonomy and Computational Models of Abnormalities in Images
  - What is hot: meeting and competitions
- IJCAI
  - deep learning渐弱
  - 传统领域review比较多，ml review少
  - ml, ai arguement 少
  - 投稿时解释清楚问题
  - co-author list投稿后一般不可变
  - 限制author投稿数量
  - knowledge graph, knowledge base
  - paper:
    Hierarchical Finite State Controllers for Generalized Planning
    Using Task Features for Zero-Shot Knowledge Transfer in Lifelong Learning
DM
- KDD
  - sigkdd
  - talks多
  - classical ml , techniques still , pronounce for solving dm tasks
  - graph, streawm, heterogeneous
  - clustering, neural network
  - paper:
    FRAUDAR: Bounding Graph Fraud in the Face of Camouflage
    Ranking Causal Anomalies via Temporal and Dynamical Analysis on Vanishing Correlations
    TRIEST: Counting Local and Global Triangles in Fully-Dynamic Streams with Fixed Memory Size
    Predicting Matchups and Preferences in Context
  - kdd有点看author
  - graphs over time:densification laws, shinking dismeters
  - kdd china: acm 数据挖掘中国分会
- ICDM
  - 数据挖掘blabla
  - 盲审,关注可重现性
  - Paper
    Fast Random Walk with Restart and its Applications
    Diamond Sampling for Approximate Maximum All-pairs Dot-product (MAD) Search
    From Micro to Macro: Uncovering and Predicting Information Cascading Process with Behavioral Dynamics
  - 新应用，正面的论文title，
  - 不要早于两周提交，
  - 多跨界合作
  - 神经网络，学习 ⬆️
Other
- ISCA
  - 处理器架构
  - 寒武纪团队
  - 深度学习处理器
- AI statistics↑
  - ai, ml, statistics
  - 在美国受认可
  - \<4人审核，逐层审核
  - 高斯，图模型，优化，在线学习，聚类，矩阵，推理，贝叶斯，压缩感知，稀疏编码，深度学习
  - 半监督，nonlinear embedding and manifold learning , semi-supervised learning ↓
  - Paper
    Provable Bayesian Inference via Particle Mirror Descent
- UAI
  - AI的不确定性
  - 图模型，贝叶斯，因果推断
  - Paper
    Stability of Causal Inference
    Online learning with Erdos-Renyi side-observation graphs
  - bayesian, reinforce, optimization
  - 非凸问题，凸近似
  - 深度神经网络自由度
  - 理论理解，迁移学习中协同矩阵重构
  - 因果发现，贝叶斯应用，ml on health
  - 外国比较火，DL不太火
- ICLR
  - 小
  - emergeing
  - dl
  - open review
- ACML
  - 亚太
  - 长文16页
  - 4-5 review
  - 两轮投稿
  - 会议转期刊 -> MLJ
  - ML
- SIGIR
  - 信息检索
  - ML
  - search new trend from google
  - IR
    Matching
    Translation
    classification
    structured predicction
  - Word Embedding, rnn, cnn
- ACM multimedia
  - 多媒体
  - 多个投稿方向
  - 视觉，多媒体搜索，，
  - DL on Multimedia，图片检索，视频分析
  - 图像视频自动描述
  - 多模态社交媒体主体意见挖掘
  - CNN分析菜肴
- CVPR
  - CV
  - 应用Dl
  - 3D
  - 紧密结合工业界
  - 主题提取
  - 视频问答
  - imagenet
- ICCV
  - CV
  - 提前投
  - DL ↑
  - Track
- ACL
  - 计算语言学、自然语言处理
  - 工业界应用
  - 双盲审
  - 语义，语法，ML，资源与评估
- ACM SIGGRAPH
  - 图形学顶会
  - 工业界，艺术界
  - TOG
  - Geometry
  - Animation
  - Human Model
  - 3d print, image processing， render↓
  - VR, AR, ML
  - novelty
  - 视觉效果

上一页CNCC2017深度学习与跨媒体智能下一页《机器学习》（周志华）读书笔记

最后更新于6年前

这有帮助吗？