MLA2016笔记
开幕式
ppt会在网站上共享
每年的会议也会由清华大学出版社整理为《机器学习及其应用》一书
公众号:MLA2016
以下笔记整理与会议期间,主要关注机器学习应用方向,对于一些比较小众或者高深的topic,由于个人水平有限,会跳过一部分不讲。
Presentation(11月5日)
分布式学习
背景
大数据分布式学习介绍
大数据自然地分散存储
问题
数据分为子集,子集运算,output平均
分布式结果与单机运算结果理论上是否应该近似??
常用方法
最小二乘回归:最小化预测与实际值差异 - 过拟合 - 假设空间
假设空间越大学习效果越好
具体应用时假设空间会被限制
目标函数要学好,需要与kernel空间有联系,具体关系由一个函数描述
kernel空间
假设空间越大,函数光滑性越好
回归分布式学习
函数复杂度:λ趋向无穷的速度
衡量学习算法的好坏
单机结果与分布式结果的误差由一个公式描述,这个公式表述了:
分布式能达到单机效果
m一般越大越接近单机结果,分的多variance越小,但不能分到底,要有一个限制
数学上的问题:最小二乘回归能得出minimize rate吗?用二次分解解决
深度学习困境:
黑箱:强加条件可能有效但不明所以
浅层神经网络做不了局部近似,两层可以做到,三层与两层效果往往有很大差别,但不明所以
希望从数学上说明更多层数能获得许多不同的结构层次信息
内积学的是多个方向上的东西,多层时方向维度信息指数增加
sgd
在经典结构上加些几何结构能学到数学上对应的结构
minor gradient
深度网络,函数有结构才能学得好
ML in NLU,CL,NLP
NLP && DL
机器翻译,情感分析,自动摘要,问答系统,关系抽取
挑战
未知现象太多
歧义,双关,隐喻
跨文化语义
方法
规则:词法,词性
统计:概率,贝叶斯,语言模型,翻译模型,解码器
分词-短语-翻译-调序
常用方法,开源工具
example:
由字构词,识别词的位置做为特征,进一步得到词义
词义消岐,词性,位置
文本分类,分类器组合
深度学习
RBM无监督做图像,HMM语音识别的突破
词向量
one hot 相乘为0!
近似词放在相近的地方
词表规模, 词向量维度的确定
词向量获取CBOW,etc
句子语义表达:RNN,attention(在句子中的重要性,可用眼动仪测量)
翻译:生词 - 概率优化 - 同义词 - 拆词 - 补词
《统计自然语言处理》宗成庆
深度学习不等于深度理解
难以全文分析,就缺乏归纳推理
常识学习
深度学习泛滥,应该多考虑其他机器学习方法的出路
忆阻
硬件模拟大脑计算
内存基于电容,易失,忆阻不易失
BP更新权重需要用外部电路辅助实现
Spotlight
hulu:CF-NADE神经网络协同过滤推荐
CNN可视化,随机权重少量训练,重构图像,验证ML也不一定需要大量训练 **
估计光泽量,反射量,考量对数变换
深度网络缩小文本与图像的语义差异,再映射??
迁移学习:模型的联合概率分布有差异
高维非凸最优化
函数偏移值强化学习
异构人脸识别
loss function求和优化,共享内存异步优化
深度学习+哈希学习
蒙特卡罗预测状态
Presentation 11-06
迁移学习 kernel embedding of distribution
分类聚类,增强学习
wifi室内定位,N个路由器,N维向量,
连续空间:回归问题
设备移动,记录位置和路由器强度
回归学习定位系统
WiFi对温度敏感,所以强度会发生变化,不同目标设备也会影响强度值
使用迁移学习,让后来的设备适配先前的设备模型
情感分析
用户情感词可能很多种,不同产品会有不同类型的情感词
添加enable标签
Bug predict
机器学习强假设:训练与测试数据需要来源相同,分布相同,特征相同
其实我们只需要收集一些enable数据和一点feature数据(半监督)
添加迁移学习方法预测target
异构迁移,同构迁移
监督迁移,半监督,无监督迁移
基于样本迁移学习
source跟target在数据集上有重叠
基于特征迁移学习
训练集与测试集只有一部分重叠特征
特征映射到一个空间,在这个空间训练集与测试集接近
基于参数迁移学习
可能迁移目标与源在参数上相近
基于关系迁移学习
source和target在数据之间的关系可能相同
通用的基于特征的迁移学习
source和target结构相似,
假设它们有潜在的相同因子
去掉一些因子,使得数据的分布不变,那这些因子就是它们的共同特征
同时还要尽量保持原来的数值
最小化source和target分布的差异
RKHS
找一个向量代表一组数据
增加多维统计信息比如(E[x] E[x2] ...)
无穷维,用核函数形式展示
搜索引擎信息检索
略
可视化特征学习与表达
特征的寻找,低维表达高维图像数据 - 子空间
稀疏特征表达 **
人脸 - 关键点定位 - 让模拟关键点与实际关键点误差最小,先拟合再回归
CSR
hypergraph base:feature hyper edge: 轮廓
空间大,边不能自适应非均匀自适应分布
Bug mining
自然语言与程序语言存在不同
需要根据问题本身进行设计
多任务学习
school数据集:每个学校单独预测,多个学校同时联合训练
弥补训练数据的缺失
训练过程中多任务联合,抓住任务间联系,建模,预测
重点在任务之间的关联
假设所有任务相似
假设所有任务参数向量接近,让所有任务共享方差,简单,假设太强
特征空间相似
共享同一组特征:所有任务都会使用特征中的某一部分,group sparsity l1,q norm 规范化,最小化norm,使得共享稀疏特征
共享低维子空间
rank minimization,增加一个rank项,rank最小化
共享结构,聚簇,图,树
聚簇:同一个族中的任务距离更相近
学习外围任务
避免无关因素影响
约定
每个任务有一个特征矩阵,不同任务样本数量不同,矩阵长度不同,但所有任务的特征相同,矩阵宽度相同
每个任务有一个参数向量
用以上符号表达几乎所有多任务模型
损失:正常的预测与实际值的偏差
规范化参数
然而上述假设都有点强,需要分开:W = P + Q,任务由相关部分和不相关部分组成
l2 norm,在Q中让有些列为0,表示有些列是有特异性的
任务之间的关系:task-level(这种假设还是比较强)
feature-level:任务在某些特征上是否相关,有何相关
协同聚类
规范化项
仍然W = P + Q模型
Q描述协同聚类效果
模拟任务与特征之间的协同聚类
Q的一个行是一个特征,Q的一个列是一个任务
在Z向量上聚类
两个规范化项
第二个规范化项是非凸的,需要CoCMTL优化
优化
Low rank MTL
为求解添加核范数 nuclear norm,做一个松弛
矩阵信息主要由奇异值大的特征向量表达,很受核范数影响,产生负面因素
在核范数前增加权值,奇异值越大,权重越小,权值自动优化,需要设计优化算法
这个权重也是非凸,但物理意义更接近矩阵的秩
权值的优化:近似非凸函数,随机权值,逐步调节
权值优化收敛性:一定会收敛,收敛速度还可以
轨迹回归
一个序列,含有多个路段的数据,预测通过路线的时间
n 个轨迹对,每个路段的行驶距离,需要预计走过每个路段的时间
挑战:
不同时间走过一个路段的耗时是不同的
轨迹数据非常稀疏
训练样本有限
不能单任务
将序列按时间划分成多个子集,每个时间段的预测分别为一个任务(比如早高峰一个任务,晚高峰一个任务, 平常时间为一个任务)
相邻时间代价变化光滑,存在全局光滑性
存在局部突出变化
分解
P 模拟全局平滑性质
Q 抓住局部性质
P 时间上的平滑性,空间上的平滑性
Q 异常现象,l inf,1 范数,达到列稀疏效果,描述了某些任务与其他大部分任务之间的区别
高峰代价由全路段最大代价决定
建模完成
优化非平滑,需要近似
苏州出租车行驶数据,6W轨迹信息
Q矩阵每列的最大值画出来,几乎描述了高峰的局部现象
大数据
核心:分析处理
大数据分析与处理的核心基础,搭建新平台,研发新算法
数据预处理,算法工程化
处理:计算机为基础
分析:数学为基础
基于全数据中心估计
基于数据分解的分布估计
ADMM
理论决定深度结构
模型族决定假设空间
深度学习解决模型选择与参数选择
解反问题的一个新思路:模型求解与范例学习
自适应动态规划 - 学习控制
略
人脸识别
triplet loss不需占用额外显存
seetaface
Spotlight
社交影响驾驶行为
车联网
司机之间的社交分享提高司机经验
启发:在同一个地方都停留超过10分钟,就可能是有社交关系
2013纽约出租车行驶数据集
从行为模式建模出社交关系
用社交关系得到权重作用于行为模式预测
行为模式得到轨迹
Special Session
顶会Review(以下环节中paper部分表示很值得关注的paper)
ML
ICML
神经网络,深度学习,优化,再增强学习,矩阵构造,无监督学习,在线学习,学习理论,应用
过去十年最有影响文章:dynamic topic models
rnn,采样,动态组织模型深度强化学习
NIPS
论文数取决于场地。。
learning,model, network,optimization,deep, inference,贝叶斯
顶会有tutorial,tensorflow,NVIDIA gpu介绍
邀请牛人分享
workshop:bayesian, application, deep learning, new areas, others
Paper:
Competitive Distribution Estimation: Why is Good-Turing Gooding good
Fast Convergence of Regularized Learning in Games
startup:
ai startup: openai was founded
hot areas: new models: optimization for dl , bayesian, reinference
adaptive data analysis: 实验不可泛化,需要避免
review: 每篇论文有六个reviewer,review会公开(重要)
COLT
计算机理论文章进入这个圈子
十大机构占半
一小群数学家在这里开会
bandit, 计算机理论,online, 限制学习, 监督学习,pac
两个invited talk
Paper:
Multi-scale exploration of convex functions and bandit convex optimization
Provably manipulation-resistant reputation systems (协同过滤)
dl:理论:
the power of depth for feedforward neural networks
benefits of depth in neural networks
on the expressive power of deep learning: a tensor analysis
深层少节点可行,浅层多节点才行
Paper
Online Learning in Repeated Auctions: 拍卖,true value unknow the true value
Learning Simple Auctions:证明多项式级样本可以达到买卖平衡
AI
AAAI
tripleAI
topic: machine learning method, ml app, 博弈论,
计算机视觉,web,nlp, 认知模型
启发式,多智能,不确定,规划调度
鲁棒AI
paper:
Bidirectional Search That Is Guaranteed to Meet in the Middle
Toward a Taxonomy and Computational Models of Abnormalities in Images
What is hot: meeting and competitions
deep learning渐弱
传统领域review比较多,ml review少
ml, ai arguement 少
投稿时解释清楚问题
co-author list投稿后一般不可变
限制author投稿数量
knowledge graph, knowledge base
paper:
Hierarchical Finite State Controllers for Generalized Planning
Using Task Features for Zero-Shot Knowledge Transfer in Lifelong Learning
DM
sigkdd
talks多
classical ml , techniques still , pronounce for solving dm tasks
graph, streawm, heterogeneous
clustering, neural network
paper:
FRAUDAR: Bounding Graph Fraud in the Face of Camouflage
Ranking Causal Anomalies via Temporal and Dynamical Analysis on Vanishing Correlations
TRIEST: Counting Local and Global Triangles in Fully-Dynamic Streams with Fixed Memory Size
Predicting Matchups and Preferences in Context
kdd有点看author
graphs over time:densification laws, shinking dismeters
kdd china: acm 数据挖掘中国分会
数据挖掘blabla
盲审,关注可重现性
Paper
Fast Random Walk with Restart and its Applications
Diamond Sampling for Approximate Maximum All-pairs Dot-product (MAD) Search
From Micro to Macro: Uncovering and Predicting Information Cascading Process with Behavioral Dynamics
新应用,正面的论文title,
不要早于两周提交,
多跨界合作
神经网络,学习 ⬆️
Other
ISCA
处理器架构
寒武纪团队
深度学习处理器
AI statistics↑
ai, ml, statistics
在美国受认可
\<4人审核,逐层审核
高斯,图模型,优化,在线学习,聚类,矩阵,推理,贝叶斯,压缩感知,稀疏编码,深度学习
半监督,nonlinear embedding and manifold learning , semi-supervised learning ↓
Paper
Provable Bayesian Inference via Particle Mirror Descent
UAI
AI的不确定性
图模型,贝叶斯,因果推断
Paper
Stability of Causal Inference
Online learning with Erdos-Renyi side-observation graphs
bayesian, reinforce, optimization
非凸问题,凸近似
深度神经网络自由度
理论理解,迁移学习中协同矩阵重构
因果发现,贝叶斯应用,ml on health
外国比较火,DL不太火
ICLR
小
emergeing
dl
open review
ACML
亚太
长文16页
4-5 review
两轮投稿
会议转期刊 -> MLJ
ML
SIGIR
信息检索
ML
search new trend from google
IR
Matching
Translation
classification
structured predicction
Word Embedding, rnn, cnn
ACM multimedia
多媒体
多个投稿方向
视觉,多媒体搜索,,
DL on Multimedia,图片检索,视频分析
图像视频自动描述
多模态社交媒体主体意见挖掘
CNN分析菜肴
CVPR
CV
应用Dl
3D
紧密结合工业界
主题提取
视频问答
imagenet
ICCV
CV
提前投
DL ↑
Track
ACL
计算语言学、自然语言处理
工业界应用
双盲审
语义,语法,ML,资源与评估
ACM SIGGRAPH
图形学顶会
工业界,艺术界
TOG
Geometry
Animation
Human Model
3d print, image processing, render↓
VR, AR, ML
novelty
视觉效果
最后更新于