/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2017ホーム /

4D1-OS-37c-2 確率変数変換の学習によるノンパラメトリックな確率的方策の獲得

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2017 このエントリーをはてなブックマークに追加

05月26日(Fri) 12:10〜13:50 D会場(ウインクあいち-9F 903会議室)
4D1-OS-37c オーガナイズドセッション「OS-37 記号創発ロボティクス(3)」

演題番号4D1-OS-37c-2
題目確率変数変換の学習によるノンパラメトリックな確率的方策の獲得
著者横山 裕樹(玉川大学脳科学研究所)
岡田 浩之(玉川大学脳科学研究所)
時間05月26日(Fri) 12:30〜12:50
概要Actor-critic法や方策勾配法は行動や制御値として連続値を生成する方策の獲得を得意とするが,
その方策空間は正規分布などに限定されることが多い.
本研究では,確率分布をパラメトリックに表現する代わりに,既知のノイズ分布からの変数変換によって間接的に表現し,ノンパラメトリックな確率的方策を獲得する強化学習手法を提案する.
論文PDFファイル