CNCC2017 琐记
大会日程表:http://cncc.ccf.org.cn/cn/news/schedule_empty
早上的论坛可以在爱奇艺下载视频
下午的分论坛是多个同时进行的,我也只去了一部分,这里先按时间顺序写自己的一些收获,之后会从另外的角度做一个总结。
如果觉得我的整理对你有帮助,欢迎star这个项目
10-26 am
丘成桐 现代几何在计算机科学中的应用
从几何学的角度找到优化问题(如GAN)的等价形式,通过解决等价问题加速优化过程
沈向洋 理解自然语言 概述,对话和理解
自然语言:机器学习(表述)->机器智能(对话)->机器意识(意境)
图像表述:微软有一个Image Caption的api可以用
检测,分割,识别只是基础任务,对图像进行理解是以后的热点
小冰:LSTM端到端,话题引导,有意识的脑补
李飞飞 A Quest for Visual Intelligence: Exploration Beyond Objects
在图像识别,分类,分割,检测之外,还有更多的东西可以做
图像理解,场景理解,问答,场景检索,思维导图生成
上一点也适用于视频
汤道生 让AI服务于人
腾讯的AI产品
微信语音转文字
QQ视频挂件,QQ扫码转文字
天天P图:美颜美妆
QQ音乐:个性化推荐
企鹅FM:文字转语音
全民K歌:伴奏分离
腾讯在方面已经有不错的工具,可以集成到我们想要做的东西中
腾讯云小微三大开放平台
腾讯云智慧交通
腾讯觅影
可以做的问题:
手机性能挖掘,模型压缩,内存共享
马维英 人工智能和新一代信息与内容平台
今日头条:智能内容分发(推荐系统)
10-26 pm 深度学习与医疗影像分论坛
医疗图像与疾病预警
医疗数据结构化,为每个病人提供个性化服务
通过对图像进行分析,加上医生判断,实现半自动阅片
对图像做异常检测,对异常数据进行预警
图像分割
图像分割是医疗图像中一个很重要的任务,通常分为分割,配准,可视化几个子任务
分割面临的困难:不同目标区域亮度一致,区分度小,不同目标区域边界模糊,图像采集存在噪声
两种分割任务: 区域分割(二维)、曲面分割(三维)
分割步骤:检测识别(定位),边界寻优
当前的一些分割方法:
按照图像中区域之间的联系,或者图像中的能量,将图像转为图,用图割,图搜索的方法,对图像进行分割
外观模型:特定的目标区域往往具有特殊的外观,包括轮廓,形状,可以用外观模型进行匹配,做粗粒度的分割,或者对细粒度处理后的图像进行校正,
多模态图像处理
融合结构信息和功能信息合起来进行分割
对准两个模型(结构和功能)的图像,对两个模型的预测结果进行约束(比如希望两个模型的输出相近)
双模型交互迭代优化
曲面分割
对曲面做分层
建模成三维的图结构,对边权和点权做最大流最小割
异常区域分割
先对区域进行矫正,再用原来的方法进行分割
数据后处理:欠分割,过分割的解决
添加位置约束
边缘匹配
多边形近似
对于某种目标区域,有着固定的多边形外观,可通过多边形近似的方法,标记出图像中近似的特征点
实际图像和多边形往往不完全相似,可以用聚类的方法对瓶颈进行校正
添加像素与边缘的平均几何距离约束,可以使得标记出的边缘更加接近真实边缘
特征用深度学习的方法提取,距离度量用传统方法
基于贝叶斯的视觉信息编解码
任务
视觉信息编码:视觉信息->人脑->神经活动(编码)(反之就是解码,解码也可能解码为语义信息)
神经活动可以用仪器测得的脑电波变化表达
模型
对图像进行卷积(这是推理网络),得到中间特征,用这种中间特征与神经活动进行关联,从而得到神经活动的编码
将神经活动进行反卷积(这是生成网络),得到图像,
目标信号的生成模型融入相似度分析,即,用两个信号是否属于对同一对象的概率作为学习目标,建立起一个贝叶斯线性模型
除了视觉数据之外,还有其他模态的数据,可以根据其他模态的数据构建多视图生成式自编码器
DL
小数据集下的深度学习
数据增广
pretrain
传统方法加深度学习做检测
faster rcnn提取特征(可能漏选,可以用传统方法预筛选更简单有效)
多尺度卷积分类(LUNA2016第四名)
分类
领域知识在特征提取中的作用
领域知识进行预处理,对于不同的输入图片,提取不同的特征,对多种特征融合预测
分割
多网络提取特征融合(ensemble)
不同网络提取不同部分或者不同结构的局部的特征,将特征拼接起来
多模型投票
多模型相互学习(深度协同)
identification loss and classification loss
贝叶斯推理
深度学习影响分析
将先验知识设计到网络中
模拟数据去除隐私问题
脉冲神经网络
领域知识最大的作用在于不是直接端到端,而是对问题做分割,对子问题做端到端
移动GPU
异常检测
只有正常数据,如何发现异常数据
高斯模型,低概率区域为异常数据
高斯过程学习(非参数模型)
生成式↑
判别式(基于分类)↓
单类SVM:将原点作为第二类,让超平面离原点尽可能远
分类结果差越多(??),说明越异常
GAN做异常检测(如果还原出现异常(异常的局部会还原失败,从而自动完成标注),说明是异常图像)
10-27 am
物体识别到场景理解
Face Recognition, Car Recognition
单类识别,多类识别
可扩展方向:性能,稳定性,可解释性,推广性,与人感知的一致性
视觉:什么东西在哪里
场景理解-知识图谱
属性组合挖掘
10-27 pm
语音前沿技术
港中文
Man-Computer Symbiosis:人机共生
Microsoft speech-recognition
人机共生三种场景
AI competencies
Challenge: 语音加情感识别,场景丰富,non-native, dysarthric, personal speaker
人机协作解决困难问题
RFID加在电车上,可视化,动态规划车次
人机合作发明新的知识
AI进行search,retrieve,cluster,categorize,compare....
Challenge: 语音加情感识别,场景丰富,non-native dysarthric speaker
李锦辉 ECE
语音识别(ASR),实际错词率比声称的高
语音总是备选项,需要solution,speech app(在用户hands,eye-busy scenarios里)
more than WERs
频谱转换(paradigm shift,旧方法应用在新的场景)
降噪,增强,杂音分离,消除回响
信号处理->识别
DNN黑箱
属性分析,专业知识,不能盲目分析,不能说只有标签就行,knowledge-driven
例如发音中识别摩擦音,爆破音
将传统模型中里程碑式的东西拿过来用
自动化语音属性抓取
搜狗 陈伟
自然交互
知识计算
语音←(asr tts)→语言←(ocr 图像生成)→图像
语音听写(字幕,演讲,采访),语音翻译,语音同传
可穿戴设备,车载,智能家居
SeqSequence CNN LSTM
运算平台:单卡3TFlops->1PFlops
基于容器对GPU运算做调度
GPU -> FPGA -> RDMA
移动端:模型压缩,轻量化
人工智能与机器学习前沿技术论坛
朱军:半监督深度学习模型
贝叶斯深度学习
基于贝叶斯推断的深度生成模型
对GAN加中间约束的生成模型
ZhuSuan(珠算):概率编程模型,开源可用
演化算法
适用于:解空间不规则,需求不好精确建模的情况
视频检索的哈希学习
图像检索
通常的特征太大,检索太慢
用二进制编码的一个哈希值来表达特征
设计一个损失,约束正负样本的相似度误差,用变量绝对值与1的差的一范数等价为二进制约束
视频检索
对两段视频分别切割为帧图片做图像检索的哈希学习
10-28 am
下一个互联网引爆点
十年后的智能机器人
10-28 pm 多媒体计算
多媒体计算
AI2.0
大数据智能
群体智能
跨媒体智能
混合增强智能
自主无人系统
应用:制造,农业,医疗
朱文武 TMM趋势
TMM介绍
IEEE of Transactions on Multimedia
多媒体计算
多媒体社交
多媒体信号处理
多媒体应用和系统
趋势:
2.5->3.5,CCF A, 长文
一年900篇提交,接受30%-35%
中了之后半年内出
超过60%是机器学习+图像视频分析,多模态,跨媒体
跨媒体智能
文本图像语音视频及其交互属性混合
多源融合+知识演化+系统演化
解决语义鸿沟(机器认识世界是什么)意图鸿沟(机器理解人要达到什么目标)
机器学习助力多媒体目前效果好,多媒体知识助力AI不成熟
跨媒体深度分析和综合推理
浅层到深度
知识图谱指导多媒体分析,属性补全,知识表达理解是以后的趋势,多媒体理解,视频QA之类
难点:跨媒体知识学习推理,多媒体情感分析
知识离散,特征连续,如何转化
知识和数据如何融合
媒体到机器学习近期套路:
深度学习+反馈(知识、规则进行反馈/强化学习)(黑箱)
统计推理,贝叶斯推理(白盒)
数据驱动 && 知识驱动
Cross-media analysis and reasoning: advances and directions
图像与视频生成的规则约束学习(GAN)
已有工作
人脸姿态转换,年龄转换,表情转换
超分辨率,画风转换,字体转换,图片转视频
应用:
动画自动制作(补间),手语生成
视频自动编辑(天气变化)
WGAN,PPGAN
无监督新框架
创意:随机性
难点
解空间巨大:需要找出解所在的低维子空间
宏观结构的一致性(视频生成需要的像素感受野(pooling)很大,难以预测长期运动变化)
微观结构的清晰度,要同时逼近多模分布,避免单模生成的结果不够精确
用领域中的规则去约束GAN,加入破坏规则的代价
缩小预测空间,保证宏观结构,加快细节生成
工作介绍:
景深风景生成
难点:要求空间结构合理,不能有严重的模糊
约束:从现有风景图像中对景深关系建模(对区域进行标注, 不同区域有不同的远近限制)
建立位置和对象的关系,得到某个位置有某个对象的概率分布
Hawkes过程模型
根据对象对图层做分解,由概率约束建立图层约束
层内DCGAN,层间LSTM聚合出整图
骨架约束的人体视频生成
骨架运动有约束
骨架提取很鲁棒,可以得到很多有标签知识(传统方法用来提取知识)
静图+动作序列变动图
CNN编码解码,孪生网络双输入进行生成
判别器:对生成和实际帧做Triplet loss优化
gan loss和视频相似度loss相加
交互运动视频生成
创意+规则约束+复杂场景+复杂交互
基于锚图的视觉数据分析
图学习
相似度矩阵 -> 图的邻接矩阵 -> 用图的方法对邻接矩阵进行优化
标号建模 标号平滑 标号学习
锚图学习(速度+)
coarse to fine
利用数据点图,生成锚点图,先采一部分有代表性的数据(例如聚类中心)生成一个图模型,然后推理出其他图
图模型:表示矩阵,邻接矩阵,如何建立,加快相似度计算
高效锚图(性能速度+)
数学上优化约束条件
层次化锚图(速度++)
锚点是线性增加的,也会增加得很快
对第一层采样的点做再采样,多层采样减少了锚点数目,从最少的锚点的层逐层推理
标号预测器(速度+++)
优化对锚点的标号
对最小的锚点层接一个优化器进行标号预测
主动学习(样本选择)
减小标号的误差损失
Google Expander Graph Learning平台:经典方法,并行运算
彭宇新 跨媒体智能
形式上多源异构,语义上相互关联
聚焦于跨媒体统一空间学习,获得多个媒体间共享的潜在子空间
跨媒体实体关系,跨媒体知识图谱,跨媒体知识演化和推理
讲了好多篇论文的Motivation和Solution,我会具体整理另一篇文章
跨媒体智能描述与生成
用于信息检索
应用:内容自动监管,舆情分析,智能医疗
层次记忆网络:视频问答 跨媒体推理
视频转语言
视频帧 + 时序依赖 -> 动态动作信息
选择ROI帧,时序结构编码(Dual Memory Recurrent Model--LSTM扩充来的),生成句子
层次记忆网络
Image QA: 检查是否真的理解了图片
视频时序推理
最后更新于