3A2-02　POMDP 環境中でのTD-Networkの自動獲得: 単純再帰構造による拡張

6月13日(金) 10:40～12:00　A会場
強化学習 2

演題番号	3A2-02
題目	POMDP 環境中でのTD-Networkの自動獲得: 単純再帰構造による拡張
著者	牧野貴樹 (東京大学総括プロジェクト機構)
時間	6月13日(金) 11:00～11:20
概要	TD-Network は、強化学習において部分観測問題に対する適切な状態表現を生成する方式 Predictive State Representation を一般化した枠組みである。しかし、従来は、TD-Network の構造は研究者が明示的に与えなければならなかった。本発表では、TD-Network を自動的に獲得する方法を提案し、Ring-world における実験結果を示す。
論文	PDFファイル