/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2015ホーム /

1F3-2 Actor-criticアルゴリズムにおけるactorの効率的学習のためのcriticの学習

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2015 このエントリーをはてなブックマークに追加

05月30日(Sat) 13:20〜15:00 F会場(5F北-中講義室 (594))
1F3 「強化学習(1)」

演題番号1F3-2
題目Actor-criticアルゴリズムにおけるactorの効率的学習のためのcriticの学習
著者横山 裕樹(大阪大学大学院工学研究科知能・機能創成工学専攻)
浅田 稔(大阪大学大学院工学研究科知能機能創成工学専攻)
時間05月30日(Sat) 13:40〜14:00
概要TD学習は価値関数の学習に広く用いられているが,状態空間が連続である場合や環境が非マルコフ的である場合における最適性について,多くの解析がなされていない.本研究では,木村ら(2000)の提案したactor-criticアルゴリズムをもとにして,criticの学習にTD誤差ではなく新たな基準を用いることで,より頑健性の高いアルゴリズムを提案する.また,その有用性について実験的,解析的に評価する.
論文PDFファイル