随笔记-深度强化学习:理论与应用学术研讨会

会议时间:2018.08.04

Robust and Efficient Reinforcement Learning

报告人:秦涛

基础回顾

  • MDP 五元组(s_t,a_t,p_t,r,discout_factor)
    S/A不可数
    举例说明:立竿子/atairi/的五元组?state/action/reawrd

  • model P(s_t|s,a), r_t(s,a)
    不同于SL部分

  • policy

    • 确定 a=pi(s). bad in POMDP/对抗场景
    • 随机 pi(a|s)=P[a|s]. if on-policy, get exploration.
  • Value

    • V(s),Bellman 等式
    • Qpi(s,a)=E(r(t+1)+gama*r_t+2+…+|s,a)
  • learning
    state/reward在开放环境未知,sampling

  • planning

  • 系统已知,线性方程组,求不动点, 收敛条件小于eps

  • 最优控制,Bellman最优方程,作用到s,a的Q,推导出pi.

  • RL 分类

    • MDP-(bellman or bellman opt,关心模型)
      • value
      • policy based
      • AC/DDPG/PPO
    • Block-box optimization(不关心模型)

      • 进化算法
    • Q-learning

Alt text

  • Policy Gradient

  • 融合AC,actor is policy, critic is value

算法稳定性

问题
  • 不同种子
  • 不同任务的表现 TRPO/DDPG,not like resnet
思想驱动
  • 比如集成的思想,bagging?
  • 怎么挑选算法? random or UCB(看历史的算法)
  • Policy update:gradient更新和累加, norm

样本有效性

  • 什么是有效?需要大量?百万和千万
  • toward evolution stratagy

    • sample
    • evaluation
    • perform
      鲁棒、效率低,依赖sample?
  • importance sampling, reuse historical data,数值稳定性。

    • Value function
    • Advantage function:新旧的差异
    • 一些问题及解决
    • 求期望:鸡生蛋,蛋生鸡。
    • Approximation,求期望分解,旧的期望分解
    • 新的使用新的参数,相对差一个bound的确定, lower bound
    • trust region evolution, 太近做近似,太远不能这样做。

强化学习理论概述

报告人:郭宪

  • RL,来自于行为心理学,解决一种智能决策问题,来自于深度思考
  • DL,解决感知的问题,比如图像类别,深度表示的问题

神经导航、RNN与强化学习

报告人:许铁

  • RL vs SL
    老虎来了,SL就是老虎,RL决定跑还是战斗
  • 强化学习分类
    • DP:value/q function
    • Policy:
  • 星际争霸- 局部信息解决不了?alpha-go
    • PG
    • 引入记忆的方法?局部的都记到
    • RNN引入记忆,多了cell,就是lstm
  • Meta RL:学习如何学习

基于生成对抗网络和隐层属性交换的人脸属性迁移

报告人:洪佳鹏

Paper:DNA-GAN: Learning Disentangled Representations from Multi-Attribute Images

  • 图像(人脸属性)-图像(人脸的ID)
  • 对抗的设计在于判别器的设计
    • 判断是否落在某个域,比如CycleGan,不必要样本的标签,但要域标签。比如知道一个人的带眼镜,不必要需要不带眼镜的情况。但是需要其它域的带眼镜
    • UNIT
    • DTN
    • StarGAN,CycleGan的拓展,针对多个域,ACGAN图像域的信息预测出来
    • Pix2Pix,需要
    • 判别器在隐层特征面对抗,FadeNet
  • DNA-GAN , ICLR 2018
    • 多属性
    • 多模态
    • 高分辨率
  • ELEGANT

生成式对抗网络与人脸属性编辑

报告人:张刚

  • 生成式对抗网络与人脸属性编辑
  • GAN做数据增强/增广
  • GAN基础的平衡点
  • AcGAN:用一个label去控制图片
  • IcGAN进行编辑
  • CycleGAN/ResGAN/StarGAN

空间注意力机制- 分割/分类中

深度学习的自动驾驶的礼让系统

技术回顾

  • A3C
  • DDPG: AC的机制,学习的policy好,采用的reply buffer的形式
  • TRPO:采用importance sample
  • PPO:分别n各actor,同时进行work,试图每一步小。
  • HER:事后诸葛亮,
  • DPG 对连续状态与连续动作空间进行探索

无人驾驶

感知–决策–控制

  • google waymo、阿波龙、
  • 福特、博世、大众、宝马

mobile-eye RSS模型

一些方法

  • wayve团队,learn to drive a day, paper, 2018.07,单目
  • 本田研究院,TTC, time to collision
  • DDPG+TRPO+A3C
  • 韩国汉阳大学

强化学习在机器翻译中的实践与探索

报告人:吴郦军

  • NMT的问题

    • train vs inference
    • word level train vs sentence-level evalution
  • 解决方法:

    blue as reward, for sampling

  • Reward function learning

  • D is reward, smoth,dynamic.

  • GAN is RL

强化学习在展示广告实时竞价中的应用

报告人:靳骏奇

核心关键词:CPC;广告主的bid;防止它们出现囚徒困境问题;优化目标,纳什均衡

CEM基于PG方法的一种,选择众多参数的最好几组,off-policy, 并行,Derivate Free,样本利用率低.