会议时间:2018.08.04
Robust and Efficient Reinforcement Learning
报告人:秦涛
基础回顾
MDP 五元组(s_t,a_t,p_t,r,discout_factor)
S/A不可数
举例说明:立竿子/atairi/的五元组?state/action/reawrdmodel P(s_t|s,a), r_t(s,a)
不同于SL部分policy
- 确定 a=pi(s). bad in POMDP/对抗场景
- 随机 pi(a|s)=P[a|s]. if on-policy, get exploration.
Value
- V(s),Bellman 等式
- Qpi(s,a)=E(r(t+1)+gama*r_t+2+…+|s,a)
learning
state/reward在开放环境未知,samplingplanning
系统已知,线性方程组,求不动点, 收敛条件小于eps
最优控制,Bellman最优方程,作用到s,a的Q,推导出pi.
RL 分类
- MDP-(bellman or bellman opt,关心模型)
- value
- policy based
- AC/DDPG/PPO
Block-box optimization(不关心模型)
- 进化算法
Q-learning
- MDP-(bellman or bellman opt,关心模型)
Policy Gradient
融合AC,actor is policy, critic is value
算法稳定性
问题
- 不同种子
- 不同任务的表现 TRPO/DDPG,not like resnet
思想驱动
- 比如集成的思想,bagging?
- 怎么挑选算法? random or UCB(看历史的算法)
- Policy update:gradient更新和累加, norm
样本有效性
- 什么是有效?需要大量?百万和千万
toward evolution stratagy
- sample
- evaluation
- perform
鲁棒、效率低,依赖sample?
importance sampling, reuse historical data,数值稳定性。
- Value function
- Advantage function:新旧的差异
- 一些问题及解决
- 求期望:鸡生蛋,蛋生鸡。
- Approximation,求期望分解,旧的期望分解
- 新的使用新的参数,相对差一个bound的确定, lower bound
- trust region evolution, 太近做近似,太远不能这样做。
强化学习理论概述
报告人:郭宪
- RL,来自于行为心理学,解决一种智能决策问题,来自于深度思考
- DL,解决感知的问题,比如图像类别,深度表示的问题
神经导航、RNN与强化学习
报告人:许铁
- RL vs SL
老虎来了,SL就是老虎,RL决定跑还是战斗 - 强化学习分类
- DP:value/q function
- Policy:
- 星际争霸- 局部信息解决不了?alpha-go
- PG
- 引入记忆的方法?局部的都记到
- RNN引入记忆,多了cell,就是lstm
- Meta RL:学习如何学习
基于生成对抗网络和隐层属性交换的人脸属性迁移
报告人:洪佳鹏
Paper:DNA-GAN: Learning Disentangled Representations from Multi-Attribute Images
- 图像(人脸属性)-图像(人脸的ID)
- 对抗的设计在于判别器的设计
- 判断是否落在某个域,比如CycleGan,不必要样本的标签,但要域标签。比如知道一个人的带眼镜,不必要需要不带眼镜的情况。但是需要其它域的带眼镜
- UNIT
- DTN
- StarGAN,CycleGan的拓展,针对多个域,ACGAN图像域的信息预测出来
- Pix2Pix,需要
- 判别器在隐层特征面对抗,FadeNet
- DNA-GAN , ICLR 2018
- 多属性
- 多模态
- 高分辨率
- ELEGANT
生成式对抗网络与人脸属性编辑
报告人:张刚
- 生成式对抗网络与人脸属性编辑
- GAN做数据增强/增广
- GAN基础的平衡点
- AcGAN:用一个label去控制图片
- IcGAN进行编辑
- CycleGAN/ResGAN/StarGAN
空间注意力机制- 分割/分类中
深度学习的自动驾驶的礼让系统
技术回顾
- A3C
- DDPG: AC的机制,学习的policy好,采用的reply buffer的形式
- TRPO:采用importance sample
- PPO:分别n各actor,同时进行work,试图每一步小。
- HER:事后诸葛亮,
- DPG 对连续状态与连续动作空间进行探索
无人驾驶
感知–决策–控制
- google waymo、阿波龙、
- 福特、博世、大众、宝马
mobile-eye RSS模型
一些方法
- wayve团队,learn to drive a day, paper, 2018.07,单目
- 本田研究院,TTC, time to collision
- DDPG+TRPO+A3C
- 韩国汉阳大学
强化学习在机器翻译中的实践与探索
报告人:吴郦军
NMT的问题
- train vs inference
- word level train vs sentence-level evalution
解决方法:
blue as reward, for sampling
Reward function learning
D is reward, smoth,dynamic.
GAN is RL
强化学习在展示广告实时竞价中的应用
报告人:靳骏奇
核心关键词:CPC;广告主的bid;防止它们出现囚徒困境问题;优化目标,纳什均衡
CEM基于PG方法的一种,选择众多参数的最好几组,off-policy, 并行,Derivate Free,样本利用率低.