活動内容

  1. 毎週水曜に東京駅近郊で勉強会(教科書輪読または論文紹介)
  2. その他不定期での勉強会
  3. 勉強会での議論から派生したアウトプット活動(書籍・論文の出版)

1.の毎週水曜の勉強会が主な活動内容になります。

教科書輪読

Algorithms for Reinforcement Learning” の輪講をしています。3週目以降は未定です。

  1. 1周目: 2015/11/20〜
  2. 2週目: 2016/04/06〜
  3. 3週目: 2017/03/01〜

論文紹介

発表担当者が自分の好みで紹介したい論文を一本紹介してもらいます。 資料の作成は任意になります。 資料の作成よりは論文自体の理解を優先してもらい、 当日の発表はホワイトボード等を使って説明して頂く形でも問題ありません。 1〜2時間かけて一本をじっくり読みます。

活動履歴

# 日付 担当 内容 資料
1 2015/10/22 @sotetsuk / @RodeoBoy24420 キックオフ: @sotetsukから趣旨の説明と@RodeoBoy24420から強化学習概要 pdf
2 2015/11/02 @smochi 教科書: p.3-p.6  
3 2015/11/12 @nnnnishi 教科書: p.7-p.12  
4 2015/11/17 @RodeoBoy24420 教科書: p.12-p.17  
5 2015/11/24 @takayukisekine 教科書: p.17-p.23  
6 2015/12/02 @ikki407 教科書: p.23-p.29 pdf
7 2015/12/08 @sotetsuk 教科書: p.29-p.35  
8 2015/12/16 @fullflu 教科書: p.35-p.40 pdf
9 2016/01/18 @smochi 教科書: p.40-p.45  
10 2016/01/27 @nnnnishi 教科書: p.45-p.50  
11 2016/02/08 @RodeoBoy24420 教科書: p.50-p.56  
12 2016/02/22 @takayukisekine 教科書: p.56-p.62  
13 2016/02/29 @sotetsuk 教科書: p.62-p.67  
14 2016/03/28 @ikki407 教科書: p.68-p.74  
15 2016/04/06 @sotetsuk 教科書: p.3-p.6  
16 2016/04/13 @muupan 論文: Mastering the game of Go with deep neural networks and tree search pdf
17 2016/04/20 @smochi 教科書: p.7-p.12  
18 2016/04/27 @takayukisekine 論文: Deep Reinforcement Learning with Attention for Slate Markov Decision Processes with High-Dimensional States and Actions pdf
19 2016/05/11 @smochi 教科書: p.7-p.12(続き)  
20 2016/05/18 @RodeoBoy24420 論文: Algorithms for Inverse Reinforcement Learning pdf
21 2016/05/25 @nnnnishi 教科書: p.12-p.17  
22 2016/06/01 @sotetsuk 論文: Dopamine Cells Respond to Predicted Events during Classical Conditioning: Evidence for Eligibility Traces in the Reward-Learning Network slideshare
23 2016/06/08 @YuriCat 教科書: p.17-p.23  
24 2016/06/15 @ikki407 論文: A Contextual-Bandit Approach to Personalized News Article Recommendation pdf
25 2016/06/22 @fullflu 教科書: p.23-p.29  
26 2016/06/29 Ueki-san 論文: True Online TD(λ)  
27 2016/07/06 @muupan 教科書: p.29-p.35  
28 2016/07/20 @smochi 論文: Dynamic pricing policies for interdependent perishable products or services using reinforcement learning  
29 2016/08/03 @takayukisekine 教科書: p.35-p.40  
30 2016/08/10 @nnnnishi 論文: Ensemble Contextual Bandits for Personalized Recommendation slideshare
31 2016/08/24 @RodeoBoy24420 教科書: p.40-p.45  
32 2016/08/31 @sotetsuk 論文: Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation slideshare
33 2016/09/14 @ikki407 教科書: p.45-p.50  
34 2016/09/21 @YuriCat 論文: Unifying Count-Based Exploration and Intrinsic Motivation slideshare
35 2016/09/28 @shiba24 教科書: p.50-p.56  
36 2016/10/05 @takayukisekine 論文: SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient slideshare
37 2016/10/19 @shiba24 教科書: p.50-p.56  
38 2016/10/26 @shiba24 論文: Hybrid computing using a neural network with dynamic external memory pdf
39 2016/11/02 @muupan 教科書: p.56-p.62  
40 2016/11/09 @fullflu 論文: DCM Bandits: Learning to Rank with Multiple Clicks pdf
41 2016/11/30 @fullflu 教科書: p.62-p.67  
43 2016/12/07 @shiba24 教科書: p.68-p.74  
44 2017/01/11 @muupan 論文: Safe and Efficient Off-PolicyReinforcement Learning pdf
45 2017/01/18 @RodeoBoy24420 論文: Application of fuzzy Q-learning for electricity market modeling by considering renewable power penetration pdf
46 2017/02/01 @STRatANG 論文: Sample Efficient Actor-Critic with Experience Replay pdf
47 2017/02/08 @ororoku 論文: The Dynamics of Reinforcement Learning in Cooperative Multiagent Systems pdf
48 2017/02/15 @smochi 論文: Artist Agent: A Reinforcement Learning Approach to Automatic Stroke Generation in Oriental Ink Painting pdf
49 2017/03/01 @sotetsuk 教科書: p.3-p.12  
50 2017/03/08 @nnnnishi 論文: Optimal Asset Allocation using Adaptive Dynamic Programming / Enhancing Q-Learning for Optimal Asset Allocation pdf
51 2017/03/15 @STRatANG 教科書: p.12-p.17  
52 2017/03/22 @YuriCat 論文: Combining policy gradient and Q-learning slideshare
53 2017/03/29 @pacocat 教科書: p.17-p.23  
54 2017/04/05 @takayukisekine 論文: Evolution Strategies as a Scalable Alternative to Reinforcement Learning pdf
55 2017/04/12 @kiyukuta 教科書: p.23-p.29  
56 2017/04/19 @sotetsuk 論文: Reward Augmented Maximum Likelihood for Neural Structured Prediction slideshare
57 2017/04/26 Kume-san 教科書: p.29-p.35  
58 2017/05/10 Yamada-san 論文: Overcoming catastrophic forgetting in neural networks pdf
59 2017/05/17 @ororoku 教科書: p.35-p.40  
60 2017/05/24 @smochi 論文: Prioritized Experience Replay google slide
61 2017/05/31 @eratostennis 教科書: p.40-p.45  
62 2017/06/07 @sotetsuk 論文: Bridging the Gap Between Value and Policy Based Reinforcement Learning Dropbox paper
63 2017/06/14 @STRatANG 教科書: p.45-p.50 当日メモ
64 2017/06/21 @YuriCat The Predictron: End-To-End Learning and Planning Dropbox paper
65 2017/06/28 @fullflu 教科書: p.50-p.56 当日メモ
66 2017/07/05 @shiba24 Trust Region Policy Optimization google slide / 当日メモ
67 2017/07/12 Kume-san 教科書: p.56-p.62 当日メモ
68 2017/07/19 @ikki407 Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games pdf
69 2017/07/26 @kiyukuta 教科書: p.62-p.67  
70 2017/08/02 Kohno-san TBA  
71 2017/08/09 Kawajiri-san 教科書: p68-p74  

お問い合わせ

github.com/rl-tokyo/rl-tokyo.github.io/issues にて承ります。 参加者は随時募集しております。ただし持ち回りでの勉強会の発表の担当をご負担頂ける方だけになります。その点だけご了承下さい。