/ プログラム/ 発表一覧/ 著者一覧/ 企業展示一覧/ jsai2009ホーム /

1D2-OS6-5 状態行動集合価値関数を用いた時間推移対象向け強化学習手法の研究

06月17日(Wed) 13:10〜17:50 D会場(ホール棟5F-54−2室)
1D2-OS6 オーガナイズド・セッション6「社会におけるAI 研究会特別セッション」

演題番号1D2-OS6-5
題目状態行動集合価値関数を用いた時間推移対象向け強化学習手法の研究
著者若原 拓己(公立はこだて未来大学大学院)
三上 貞芳(公立はこだて未来大学)
時間06月17日(Wed) 14:30〜14:50
概要強化学習で扱う状態が時間推移で変化するもの,つまり同一試行において状態の再現性がなく,また制御に対し報酬が大きな時間遅れを持つものを対象とした場合,従来の強化学習手法では最適解が得るのが困難であると考え,このような対象向けの強化学習手法を考案した.その適用例として,植物工場システムにおける養液供給制御への適用例を報告する.
論文PDFファイル