梦里风林
  • Introduction
  • Android
    • activity
      • Activity四种启动模式
      • Intent Flag
      • 多task的应用
      • Task和回退栈
    • sqlite
      • 【源码】CursorWindow读DB
      • Sqlite在Android上的一个Bug
    • Chromium
    • ListView读取DB数据最佳实践
    • Android Project结构
    • 一个由Proguard与FastJson引起的血案
    • 琐碎的一些tips
  • Computer Vision
    • 特征提取
    • 三维视觉
    • 计算机视觉常用工具
    • 浅谈深度学习数据集设计
    • 随笔
  • Machine Learning
    • 技巧
      • FaceBook: 1 hour training ImageNet
      • L2 Norm与L2 normalize
    • 实践
      • Pytorch实验代码的亿些小细节
    • 工具
      • Tensorflow学习笔记
      • MXNet踩坑手记
      • PyTorch踩坑手记
      • PyTorch模型剪枝
      • Keras踩坑手记
      • mscnn
      • Matlab
        • Matlab Remote IPC自动化数据处理
    • Papers
      • Classification
      • Re-identification
        • CVPR2018:TFusion完全解读
        • ECCV2018:TAUDL
        • CVPR2018:Graph+reid
        • Person Re-identification
        • CVPR2016 Re-id
        • Camera topology and Person Re-id
        • Deep transfer learning Person Re-id
        • Evaluate
      • Object Detection
        • 读论文系列·干货满满的RCNN
        • 读论文系列·SPP-net
        • 读论文系列·Fast RCNN
        • 读论文系列·Faster RCNN
        • 读论文系列·YOLO
        • 读论文系列·SSD
        • 读论文系列·YOLOv2 & YOLOv3
        • 读论文系列·detection其他文章推荐
      • Depth
      • 3D vision
        • 数据集相关
        • 光流相关
      • Hashing
        • CVPR2018: SSAH
      • 大杂烩
        • CNCC2017 琐记
        • ECCV 2016 Hydra CCNN
        • CNCC2017深度学习与跨媒体智能
        • MLA2016笔记
    • 《机器学习》(周志华)读书笔记
      • 西瓜书概念整理
        • 绪论
        • 模型评估与选择
        • 线性模型
        • 决策树
        • 神经网络
        • 支持向量机
        • 贝叶斯分类器
        • 集成学习
        • 聚类
        • 降维与度量学习
        • 特征选择与稀疏学习
        • 计算学习理论
        • 半监督学习
        • 概率图模型
        • 规则学习
        • 强化学习
        • 附录
  • Java
    • java web
      • Servlet部署
      • 琐碎的tips
    • JNI
    • Note
    • Effective Java笔记
  • 后端开发
    • 架构设计
    • 数据库
    • java web
      • Servlet部署
      • 琐碎的tips
    • Spring boot
    • django
    • 分布式
  • Linux && Hardware
    • Ubuntu安装与初始配置
    • 树莓派相关
      • 树莓派3B+无线网卡监听模式
      • TP-LINK TL-WR703N v1.7 openwrt flashing
  • Python
    • django
    • 原生模块
    • 设计模式
    • 可视化
    • 常用库踩坑指南
  • web前端
    • header div固定,content div填充父容器
    • json接口资源
  • UI
  • kit
    • vim
    • git/github
      • 刷爆github小绿点
    • Markdown/gitbook
      • 琐碎知识点
      • gitbook添加disqus作为评论
      • 导出chrome书签为Markdown
      • Markdown here && 微信公众号
    • LaTex
      • LaTex琐记
    • 科学上网
    • 虚拟机
  • thinking-in-program
    • 怎样打日志
  • 我的收藏
  • 琐记
    • 论文心得
    • 深圳买房攻略
  • 赞赏支持
由 GitBook 提供支持
在本页
  • 10-26 am
  • 丘成桐 现代几何在计算机科学中的应用
  • 沈向洋 理解自然语言 概述,对话和理解
  • 李飞飞 A Quest for Visual Intelligence: Exploration Beyond Objects
  • 汤道生 让AI服务于人
  • 马维英 人工智能和新一代信息与内容平台
  • 10-26 pm 深度学习与医疗影像分论坛
  • 医疗图像与疾病预警
  • 图像分割
  • 基于贝叶斯的视觉信息编解码
  • DL
  • 异常检测
  • 10-27 am
  • 物体识别到场景理解
  • 10-27 pm
  • 语音前沿技术
  • 人工智能与机器学习前沿技术论坛
  • 10-28 am
  • 10-28 pm 多媒体计算
  • 多媒体计算
  • 朱文武 TMM趋势
  • 图像与视频生成的规则约束学习(GAN)
  • 基于锚图的视觉数据分析
  • 彭宇新 跨媒体智能
  • 层次记忆网络:视频问答 跨媒体推理

这有帮助吗?

  1. Machine Learning
  2. Papers
  3. 大杂烩

CNCC2017 琐记

上一页大杂烩下一页ECCV 2016 Hydra CCNN

最后更新于6年前

这有帮助吗?

大会日程表:

早上的论坛可以在下载视频

下午的分论坛是多个同时进行的,我也只去了一部分,这里先按时间顺序写自己的一些收获,之后会从另外的角度做一个总结。

如果觉得我的整理对你有帮助,欢迎这个项目

10-26 am

丘成桐 现代几何在计算机科学中的应用

  • 从几何学的角度找到优化问题(如GAN)的等价形式,通过解决等价问题加速优化过程

沈向洋 理解自然语言 概述,对话和理解

  • 自然语言:机器学习(表述)->机器智能(对话)->机器意识(意境)

  • 图像表述:微软有一个Image Caption的api可以用

  • 检测,分割,识别只是基础任务,对图像进行理解是以后的热点

  • 小冰:LSTM端到端,话题引导,有意识的脑补

李飞飞 A Quest for Visual Intelligence: Exploration Beyond Objects

  • 在图像识别,分类,分割,检测之外,还有更多的东西可以做

  • 图像理解,场景理解,问答,场景检索,思维导图生成

  • 上一点也适用于视频

汤道生 让AI服务于人

  • 腾讯的AI产品

    • 微信语音转文字

    • QQ视频挂件,QQ扫码转文字

    • 天天P图:美颜美妆

    • QQ音乐:个性化推荐

    • 企鹅FM:文字转语音

    • 全民K歌:伴奏分离

  • 腾讯在方面已经有不错的工具,可以集成到我们想要做的东西中

    • 腾讯云小微三大开放平台

    • 腾讯云智慧交通

    • 腾讯觅影

  • 可以做的问题:

    • 手机性能挖掘,模型压缩,内存共享

马维英 人工智能和新一代信息与内容平台

  • 今日头条:智能内容分发(推荐系统)

10-26 pm 深度学习与医疗影像分论坛

医疗图像与疾病预警

  • 医疗数据结构化,为每个病人提供个性化服务

  • 通过对图像进行分析,加上医生判断,实现半自动阅片

  • 对图像做异常检测,对异常数据进行预警

图像分割

图像分割是医疗图像中一个很重要的任务,通常分为分割,配准,可视化几个子任务

  • 分割面临的困难:不同目标区域亮度一致,区分度小,不同目标区域边界模糊,图像采集存在噪声

  • 两种分割任务: 区域分割(二维)、曲面分割(三维)

  • 分割步骤:检测识别(定位),边界寻优

  • 当前的一些分割方法:

    • 按照图像中区域之间的联系,或者图像中的能量,将图像转为图,用图割,图搜索的方法,对图像进行分割

    • 外观模型:特定的目标区域往往具有特殊的外观,包括轮廓,形状,可以用外观模型进行匹配,做粗粒度的分割,或者对细粒度处理后的图像进行校正,

    • 多模态图像处理

      • 融合结构信息和功能信息合起来进行分割

      • 对准两个模型(结构和功能)的图像,对两个模型的预测结果进行约束(比如希望两个模型的输出相近)

      • 双模型交互迭代优化

    • 曲面分割

      • 对曲面做分层

      • 建模成三维的图结构,对边权和点权做最大流最小割

    • 异常区域分割

      • 先对区域进行矫正,再用原来的方法进行分割

    • 数据后处理:欠分割,过分割的解决

      • 添加位置约束

      • 边缘匹配

      • 多边形近似

        • 对于某种目标区域,有着固定的多边形外观,可通过多边形近似的方法,标记出图像中近似的特征点

        • 实际图像和多边形往往不完全相似,可以用聚类的方法对瓶颈进行校正

        • 添加像素与边缘的平均几何距离约束,可以使得标记出的边缘更加接近真实边缘

    • 特征用深度学习的方法提取,距离度量用传统方法

基于贝叶斯的视觉信息编解码

  • 任务

    • 视觉信息编码:视觉信息->人脑->神经活动(编码)(反之就是解码,解码也可能解码为语义信息)

    • 神经活动可以用仪器测得的脑电波变化表达

  • 模型

    • 对图像进行卷积(这是推理网络),得到中间特征,用这种中间特征与神经活动进行关联,从而得到神经活动的编码

    • 将神经活动进行反卷积(这是生成网络),得到图像,

    • 目标信号的生成模型融入相似度分析,即,用两个信号是否属于对同一对象的概率作为学习目标,建立起一个贝叶斯线性模型

  • 除了视觉数据之外,还有其他模态的数据,可以根据其他模态的数据构建多视图生成式自编码器

DL

  • 小数据集下的深度学习

    • 数据增广

    • pretrain

    • 传统方法加深度学习做检测

      • faster rcnn提取特征(可能漏选,可以用传统方法预筛选更简单有效)

      • 多尺度卷积分类(LUNA2016第四名)

  • 分类

    • 领域知识在特征提取中的作用

      • 领域知识进行预处理,对于不同的输入图片,提取不同的特征,对多种特征融合预测

  • 分割

    • 多网络提取特征融合(ensemble)

    • 不同网络提取不同部分或者不同结构的局部的特征,将特征拼接起来

  • 多模型投票

  • 多模型相互学习(深度协同)

    • identification loss and classification loss

  • 贝叶斯推理

  • 深度学习影响分析

  • 将先验知识设计到网络中

  • 模拟数据去除隐私问题

  • 脉冲神经网络

  • 领域知识最大的作用在于不是直接端到端,而是对问题做分割,对子问题做端到端

  • 移动GPU

异常检测

  • 只有正常数据,如何发现异常数据

  • 高斯模型,低概率区域为异常数据

  • 高斯过程学习(非参数模型)

  • 生成式↑

  • 判别式(基于分类)↓

  • 单类SVM:将原点作为第二类,让超平面离原点尽可能远

  • 分类结果差越多(??),说明越异常

  • GAN做异常检测(如果还原出现异常(异常的局部会还原失败,从而自动完成标注),说明是异常图像)

10-27 am

物体识别到场景理解

  • Face Recognition, Car Recognition

  • 单类识别,多类识别

  • 可扩展方向:性能,稳定性,可解释性,推广性,与人感知的一致性

  • 视觉:什么东西在哪里

  • 场景理解-知识图谱

  • 属性组合挖掘

10-27 pm

语音前沿技术

  • 港中文

    • Man-Computer Symbiosis:人机共生

    • Microsoft speech-recognition

    • 人机共生三种场景

      • AI competencies

        • Challenge: 语音加情感识别,场景丰富,non-native, dysarthric, personal speaker

      • 人机协作解决困难问题

        • RFID加在电车上,可视化,动态规划车次

      • 人机合作发明新的知识

        • AI进行search,retrieve,cluster,categorize,compare....

    • Challenge: 语音加情感识别,场景丰富,non-native dysarthric speaker

  • 李锦辉 ECE

    • 语音识别(ASR),实际错词率比声称的高

    • 语音总是备选项,需要solution,speech app(在用户hands,eye-busy scenarios里)

    • more than WERs

    • 频谱转换(paradigm shift,旧方法应用在新的场景)

    • 降噪,增强,杂音分离,消除回响

    • 信号处理->识别

    • DNN黑箱

      • 属性分析,专业知识,不能盲目分析,不能说只有标签就行,knowledge-driven

      • 例如发音中识别摩擦音,爆破音

      • 将传统模型中里程碑式的东西拿过来用

    • 自动化语音属性抓取

  • 搜狗 陈伟

    • 自然交互

    • 知识计算

    • 语音←(asr tts)→语言←(ocr 图像生成)→图像

    • 语音听写(字幕,演讲,采访),语音翻译,语音同传

    • 可穿戴设备,车载,智能家居

    • SeqSequence CNN LSTM

    • 运算平台:单卡3TFlops->1PFlops

    • 基于容器对GPU运算做调度

    • GPU -> FPGA -> RDMA

    • 移动端:模型压缩,轻量化

人工智能与机器学习前沿技术论坛

  • 朱军:半监督深度学习模型

    • 贝叶斯深度学习

    • 基于贝叶斯推断的深度生成模型

    • 对GAN加中间约束的生成模型

    • ZhuSuan(珠算):概率编程模型,开源可用

  • 演化算法

    • 适用于:解空间不规则,需求不好精确建模的情况

  • 视频检索的哈希学习

    • 图像检索

      • 通常的特征太大,检索太慢

      • 用二进制编码的一个哈希值来表达特征

      • 设计一个损失,约束正负样本的相似度误差,用变量绝对值与1的差的一范数等价为二进制约束

    • 视频检索

      • 对两段视频分别切割为帧图片做图像检索的哈希学习

10-28 am

  • 下一个互联网引爆点

  • 十年后的智能机器人

10-28 pm 多媒体计算

多媒体计算

  • AI2.0

    • 大数据智能

    • 群体智能

    • 跨媒体智能

    • 混合增强智能

    • 自主无人系统

  • 应用:制造,农业,医疗

朱文武 TMM趋势

  • TMM介绍

    • IEEE of Transactions on Multimedia

    • 多媒体计算

    • 多媒体社交

    • 多媒体信号处理

    • 多媒体应用和系统

  • 趋势:

    • 2.5->3.5,CCF A, 长文

    • 一年900篇提交,接受30%-35%

    • 中了之后半年内出

    • 超过60%是机器学习+图像视频分析,多模态,跨媒体

  • 跨媒体智能

    • 文本图像语音视频及其交互属性混合

    • 多源融合+知识演化+系统演化

    • 解决语义鸿沟(机器认识世界是什么)意图鸿沟(机器理解人要达到什么目标)

    • 机器学习助力多媒体目前效果好,多媒体知识助力AI不成熟

    • 跨媒体深度分析和综合推理

      • 浅层到深度

      • 知识图谱指导多媒体分析,属性补全,知识表达理解是以后的趋势,多媒体理解,视频QA之类

      • 难点:跨媒体知识学习推理,多媒体情感分析

      • 知识离散,特征连续,如何转化

      • 知识和数据如何融合

      • 媒体到机器学习近期套路:

        • 深度学习+反馈(知识、规则进行反馈/强化学习)(黑箱)

        • 统计推理,贝叶斯推理(白盒)

      • 数据驱动 && 知识驱动

    • Cross-media analysis and reasoning: advances and directions

图像与视频生成的规则约束学习(GAN)

  • 已有工作

    • 人脸姿态转换,年龄转换,表情转换

    • 超分辨率,画风转换,字体转换,图片转视频

    • 应用:

      • 动画自动制作(补间),手语生成

      • 视频自动编辑(天气变化)

  • WGAN,PPGAN

  • 无监督新框架

  • 创意:随机性

  • 难点

    • 解空间巨大:需要找出解所在的低维子空间

    • 宏观结构的一致性(视频生成需要的像素感受野(pooling)很大,难以预测长期运动变化)

    • 微观结构的清晰度,要同时逼近多模分布,避免单模生成的结果不够精确

  • 用领域中的规则去约束GAN,加入破坏规则的代价

  • 缩小预测空间,保证宏观结构,加快细节生成

  • 工作介绍:

    • 景深风景生成

      • 难点:要求空间结构合理,不能有严重的模糊

      • 约束:从现有风景图像中对景深关系建模(对区域进行标注, 不同区域有不同的远近限制)

      • 建立位置和对象的关系,得到某个位置有某个对象的概率分布

      • Hawkes过程模型

      • 根据对象对图层做分解,由概率约束建立图层约束

      • 层内DCGAN,层间LSTM聚合出整图

    • 骨架约束的人体视频生成

      • 骨架运动有约束

      • 骨架提取很鲁棒,可以得到很多有标签知识(传统方法用来提取知识)

      • 静图+动作序列变动图

      • CNN编码解码,孪生网络双输入进行生成

      • 判别器:对生成和实际帧做Triplet loss优化

      • gan loss和视频相似度loss相加

      • 交互运动视频生成

  • 创意+规则约束+复杂场景+复杂交互

基于锚图的视觉数据分析

  • 图学习

    • 相似度矩阵 -> 图的邻接矩阵 -> 用图的方法对邻接矩阵进行优化

    • 标号建模 标号平滑 标号学习

  • 锚图学习(速度+)

    • coarse to fine

    • 利用数据点图,生成锚点图,先采一部分有代表性的数据(例如聚类中心)生成一个图模型,然后推理出其他图

    • 图模型:表示矩阵,邻接矩阵,如何建立,加快相似度计算

  • 高效锚图(性能速度+)

    • 数学上优化约束条件

  • 层次化锚图(速度++)

    • 锚点是线性增加的,也会增加得很快

    • 对第一层采样的点做再采样,多层采样减少了锚点数目,从最少的锚点的层逐层推理

  • 标号预测器(速度+++)

    • 优化对锚点的标号

    • 对最小的锚点层接一个优化器进行标号预测

  • 主动学习(样本选择)

    • 减小标号的误差损失

  • Google Expander Graph Learning平台:经典方法,并行运算

彭宇新 跨媒体智能

  • 形式上多源异构,语义上相互关联

  • 聚焦于跨媒体统一空间学习,获得多个媒体间共享的潜在子空间

  • 跨媒体实体关系,跨媒体知识图谱,跨媒体知识演化和推理

    • 讲了好多篇论文的Motivation和Solution,我会具体整理另一篇文章

  • 跨媒体智能描述与生成

  • 用于信息检索

  • 应用:内容自动监管,舆情分析,智能医疗

层次记忆网络:视频问答 跨媒体推理

  • 视频转语言

    • 视频帧 + 时序依赖 -> 动态动作信息

    • 选择ROI帧,时序结构编码(Dual Memory Recurrent Model--LSTM扩充来的),生成句子

  • 层次记忆网络

    • Image QA: 检查是否真的理解了图片

  • 视频时序推理

http://cncc.ccf.org.cn/cn/news/schedule_empty
爱奇艺
star