> For the complete documentation index, see [llms.txt](https://blog.cweihang.io/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://blog.cweihang.io/ml/papers/overview/cncc2017.md).

# CNCC2017 琐记

大会日程表：<http://cncc.ccf.org.cn/cn/news/schedule_empty>

> 早上的论坛可以在[爱奇艺](http://www.iqiyi.com/a_19rrh1kcs5.html)下载视频
>
> 下午的分论坛是多个同时进行的，我也只去了一部分，这里先按时间顺序写自己的一些收获，之后会从另外的角度做一个总结。
>
> 如果觉得我的整理对你有帮助，欢迎[star](https://github.com/ahangchen/windy-afternoon/blob/master/ml/papers/cncc2017.md)这个项目

## 10-26 am

### 丘成桐 现代几何在计算机科学中的应用

* 从几何学的角度找到优化问题（如GAN）的等价形式，通过解决等价问题加速优化过程

### 沈向洋 理解自然语言 概述，对话和理解

* 自然语言：机器学习（表述）->机器智能（对话）->机器意识（意境）
* 图像表述：微软有一个Image Caption的api可以用
* 检测，分割，识别只是基础任务，对图像进行理解是以后的热点
* 小冰：LSTM端到端，话题引导，有意识的脑补

### 李飞飞 A Quest for Visual Intelligence: Exploration Beyond Objects

* 在图像识别，分类，分割，检测之外，还有更多的东西可以做
* 图像理解，场景理解，问答，场景检索，思维导图生成
* 上一点也适用于视频

### 汤道生 让AI服务于人

* 腾讯的AI产品
  * 微信语音转文字
  * QQ视频挂件，QQ扫码转文字
  * 天天P图：美颜美妆
  * QQ音乐：个性化推荐
  * 企鹅FM：文字转语音
  * 全民K歌：伴奏分离
* 腾讯在方面已经有不错的工具，可以集成到我们想要做的东西中
  * 腾讯云小微三大开放平台
  * 腾讯云智慧交通
  * 腾讯觅影
* 可以做的问题：
  * 手机性能挖掘，模型压缩，内存共享

### 马维英 人工智能和新一代信息与内容平台

* 今日头条：智能内容分发（推荐系统）

## 10-26 pm 深度学习与医疗影像分论坛

### 医疗图像与疾病预警

* 医疗数据结构化，为每个病人提供个性化服务
* 通过对图像进行分析，加上医生判断，实现半自动阅片
* 对图像做异常检测，对异常数据进行预警

### 图像分割

> 图像分割是医疗图像中一个很重要的任务，通常分为分割，配准，可视化几个子任务
>
> * 分割面临的困难：不同目标区域亮度一致，区分度小，不同目标区域边界模糊，图像采集存在噪声
> * 两种分割任务： 区域分割（二维）、曲面分割（三维）
> * 分割步骤：检测识别（定位），边界寻优
> * 当前的一些分割方法：
>   * 按照图像中区域之间的联系，或者图像中的能量，将图像转为图，用图割，图搜索的方法，对图像进行分割
>   * 外观模型：特定的目标区域往往具有特殊的外观，包括轮廓，形状，可以用外观模型进行匹配，做粗粒度的分割，或者对细粒度处理后的图像进行校正，
>   * 多模态图像处理
>     * 融合结构信息和功能信息合起来进行分割
>     * 对准两个模型（结构和功能）的图像，对两个模型的预测结果进行约束（比如希望两个模型的输出相近）
>     * 双模型交互迭代优化
>   * 曲面分割
>     * 对曲面做分层
>     * 建模成三维的图结构，对边权和点权做最大流最小割
>   * 异常区域分割
>     * 先对区域进行矫正，再用原来的方法进行分割
>   * 数据后处理：欠分割，过分割的解决
>     * 添加位置约束
>     * 边缘匹配
>     * 多边形近似
>       * 对于某种目标区域，有着固定的多边形外观，可通过多边形近似的方法，标记出图像中近似的特征点
>       * 实际图像和多边形往往不完全相似，可以用聚类的方法对瓶颈进行校正
>       * 添加像素与边缘的平均几何距离约束，可以使得标记出的边缘更加接近真实边缘
>   * 特征用深度学习的方法提取，距离度量用传统方法

### 基于贝叶斯的视觉信息编解码

* 任务
  * 视觉信息编码：视觉信息->人脑->神经活动（编码）（反之就是解码，解码也可能解码为语义信息）
  * 神经活动可以用仪器测得的脑电波变化表达
* 模型
  * 对图像进行卷积（这是推理网络），得到中间特征，用这种中间特征与神经活动进行关联，从而得到神经活动的编码
  * 将神经活动进行反卷积（这是生成网络），得到图像，
  * 目标信号的生成模型融入相似度分析，即，用两个信号是否属于对同一对象的概率作为学习目标，建立起一个贝叶斯线性模型
* 除了视觉数据之外，还有其他模态的数据，可以根据其他模态的数据构建多视图生成式自编码器

### DL

* 小数据集下的深度学习
  * 数据增广
  * pretrain
  * 传统方法加深度学习做检测
    * faster rcnn提取特征（可能漏选，可以用传统方法预筛选更简单有效）
    * 多尺度卷积分类（LUNA2016第四名）
* 分类
  * 领域知识在特征提取中的作用
    * 领域知识进行预处理，对于不同的输入图片，提取不同的特征，对多种特征融合预测
* 分割
  * 多网络提取特征融合（ensemble）
  * 不同网络提取不同部分或者不同结构的局部的特征，将特征拼接起来
* 多模型投票
* 多模型相互学习（深度协同）
  * identification loss and classification loss
* 贝叶斯推理
* 深度学习影响分析
* 将先验知识设计到网络中
* 模拟数据去除隐私问题
* 脉冲神经网络
* 领域知识最大的作用在于不是直接端到端，而是对问题做分割，对子问题做端到端
* 移动GPU

### 异常检测

* 只有正常数据，如何发现异常数据
* 高斯模型，低概率区域为异常数据
* 高斯过程学习（非参数模型）
* 生成式↑
* 判别式（基于分类）↓
* 单类SVM：将原点作为第二类，让超平面离原点尽可能远
* 分类结果差越多（？？），说明越异常
* GAN做异常检测（如果还原出现异常（异常的局部会还原失败，从而自动完成标注），说明是异常图像）

## 10-27 am

### 物体识别到场景理解

* Face Recognition, Car Recognition
* 单类识别，多类识别
* 可扩展方向：性能，稳定性，可解释性，推广性，与人感知的一致性
* 视觉：什么东西在哪里
* 场景理解-知识图谱
* 属性组合挖掘

## 10-27 pm

### 语音前沿技术

* 港中文
  * Man-Computer Symbiosis:人机共生
  * Microsoft speech-recognition
  * 人机共生三种场景
    * AI competencies
      * Challenge: 语音加情感识别，场景丰富，non-native, dysarthric, personal speaker
    * 人机协作解决困难问题
      * RFID加在电车上，可视化，动态规划车次
    * 人机合作发明新的知识
      * AI进行search,retrieve，cluster,categorize,compare....
  * Challenge: 语音加情感识别，场景丰富，non-native dysarthric speaker
* 李锦辉 ECE
  * 语音识别（ASR），实际错词率比声称的高
  * 语音总是备选项，需要solution，speech app（在用户hands,eye-busy scenarios里）
  * more than WERs
  * 频谱转换（paradigm shift，旧方法应用在新的场景）
  * 降噪，增强，杂音分离，消除回响
  * 信号处理->识别
  * DNN黑箱
    * 属性分析，专业知识，不能盲目分析，不能说只有标签就行，knowledge-driven
    * 例如发音中识别摩擦音，爆破音
    * 将传统模型中里程碑式的东西拿过来用        &#x20;
  * 自动化语音属性抓取
* 搜狗 陈伟
  * 自然交互
  * 知识计算
  * 语音←(asr tts)→语言←(ocr 图像生成)→图像
  * 语音听写（字幕，演讲，采访），语音翻译，语音同传
  * 可穿戴设备，车载，智能家居
  * SeqSequence CNN LSTM
  * 运算平台：单卡3TFlops->1PFlops
  * 基于容器对GPU运算做调度
  * GPU -> FPGA -> RDMA
  * 移动端：模型压缩，轻量化

### 人工智能与机器学习前沿技术论坛

* 朱军：半监督深度学习模型
  * 贝叶斯深度学习
  * 基于贝叶斯推断的深度生成模型
  * 对GAN加中间约束的生成模型
  * ZhuSuan（珠算）：概率编程模型，开源可用
* 演化算法
  * 适用于：解空间不规则，需求不好精确建模的情况
* 视频检索的哈希学习
  * 图像检索
    * 通常的特征太大，检索太慢
    * 用二进制编码的一个哈希值来表达特征
    * 设计一个损失，约束正负样本的相似度误差，用变量绝对值与1的差的一范数等价为二进制约束
  * 视频检索
    * 对两段视频分别切割为帧图片做图像检索的哈希学习

## 10-28 am

* 下一个互联网引爆点
* 十年后的智能机器人

## 10-28 pm 多媒体计算

### 多媒体计算

* AI2.0
  * 大数据智能
  * 群体智能
  * 跨媒体智能
  * 混合增强智能
  * 自主无人系统
* 应用：制造，农业，医疗

### 朱文武 TMM趋势

* TMM介绍
  * IEEE of Transactions on Multimedia
  * 多媒体计算
  * 多媒体社交
  * 多媒体信号处理
  * 多媒体应用和系统
* 趋势：
  * 2.5->3.5,CCF A, 长文
  * 一年900篇提交，接受30%-35%
  * 中了之后半年内出
  * 超过60%是机器学习+图像视频分析，多模态，跨媒体
* 跨媒体智能
  * 文本图像语音视频及其交互属性混合
  * 多源融合+知识演化+系统演化
  * 解决语义鸿沟（机器认识世界是什么）意图鸿沟（机器理解人要达到什么目标）
  * 机器学习助力多媒体目前效果好，多媒体知识助力AI不成熟
  * 跨媒体深度分析和综合推理
    * 浅层到深度
    * 知识图谱指导多媒体分析，属性补全，知识表达理解是以后的趋势，多媒体理解，视频QA之类
    * 难点：跨媒体知识学习推理，多媒体情感分析
    * 知识离散，特征连续，如何转化
    * 知识和数据如何融合
    * 媒体到机器学习近期套路：
      * 深度学习+反馈（知识、规则进行反馈/强化学习）（黑箱）
      * 统计推理，贝叶斯推理（白盒）
    * 数据驱动 && 知识驱动
  * Cross-media analysis and reasoning: advances and directions

### 图像与视频生成的规则约束学习(GAN)

* 已有工作
  * 人脸姿态转换，年龄转换，表情转换
  * 超分辨率，画风转换，字体转换，图片转视频
  * 应用：
    * 动画自动制作（补间），手语生成
    * 视频自动编辑（天气变化）
* WGAN，PPGAN
* 无监督新框架
* 创意：随机性
* 难点
  * 解空间巨大：需要找出解所在的低维子空间
  * 宏观结构的一致性（视频生成需要的像素感受野（pooling）很大，难以预测长期运动变化）
  * 微观结构的清晰度，要同时逼近多模分布，避免单模生成的结果不够精确
* 用领域中的规则去约束GAN，加入破坏规则的代价
* 缩小预测空间，保证宏观结构，加快细节生成
* 工作介绍：
  * 景深风景生成
    * 难点：要求空间结构合理，不能有严重的模糊
    * 约束：从现有风景图像中对景深关系建模（对区域进行标注， 不同区域有不同的远近限制）
    * 建立位置和对象的关系，得到某个位置有某个对象的概率分布
    * Hawkes过程模型
    * 根据对象对图层做分解，由概率约束建立图层约束
    * 层内DCGAN，层间LSTM聚合出整图
  * 骨架约束的人体视频生成
    * 骨架运动有约束
    * 骨架提取很鲁棒，可以得到很多有标签知识（传统方法用来提取知识）
    * 静图+动作序列变动图
    * CNN编码解码，孪生网络双输入进行生成
    * 判别器：对生成和实际帧做Triplet loss优化
    * gan loss和视频相似度loss相加
    * 交互运动视频生成
* 创意+规则约束+复杂场景+复杂交互

### 基于锚图的视觉数据分析

* 图学习
  * 相似度矩阵 -> 图的邻接矩阵 -> 用图的方法对邻接矩阵进行优化
  * 标号建模 标号平滑 标号学习
* 锚图学习（速度+）
  * coarse to fine
  * 利用数据点图，生成锚点图，先采一部分有代表性的数据（例如聚类中心）生成一个图模型，然后推理出其他图
  * 图模型：表示矩阵，邻接矩阵，如何建立，加快相似度计算
* 高效锚图（性能速度+）
  * 数学上优化约束条件
* 层次化锚图（速度++）
  * 锚点是线性增加的，也会增加得很快
  * 对第一层采样的点做再采样，多层采样减少了锚点数目，从最少的锚点的层逐层推理
* 标号预测器（速度+++）
  * 优化对锚点的标号
  * 对最小的锚点层接一个优化器进行标号预测
* 主动学习（样本选择）
  * 减小标号的误差损失
* Google Expander Graph Learning平台：经典方法，并行运算

### 彭宇新 跨媒体智能

* 形式上多源异构，语义上相互关联
* 聚焦于跨媒体统一空间学习，获得多个媒体间共享的潜在子空间
* 跨媒体实体关系，跨媒体知识图谱，跨媒体知识演化和推理
  * 讲了好多篇论文的Motivation和Solution，我会具体整理另一篇文章
* 跨媒体智能描述与生成
* 用于信息检索
* 应用：内容自动监管，舆情分析，智能医疗

### 层次记忆网络：视频问答 跨媒体推理

* 视频转语言
  * 视频帧 + 时序依赖 -> 动态动作信息
  * 选择ROI帧，时序结构编码（Dual Memory Recurrent Model--LSTM扩充来的），生成句子
* 层次记忆网络
  * Image QA: 检查是否真的理解了图片
* 视频时序推理