演題番号 | 3A2-02 |
---|---|
題目 | POMDP 環境中でのTD-Networkの自動獲得: 単純再帰構造による拡張 |
著者 | 牧野 貴樹 (東京大学 総括プロジェクト機構) |
時間 | 6月13日(金) 11:00〜11:20 |
概要 | TD-Network は、強化学習において部分観測問題に対する適切な状態表現を生成する方式 Predictive State Representation を一般化した枠組みである。しかし、従来は、TD-Network の構造は研究者が明示的に与えなければならなかった。本発表では、TD-Network を自動的に獲得する方法を提案し、Ring-world における実験結果を示す。 |
論文 | PDFファイル |