凸リスク尺度に基づく再帰的強化学習

比留木 幹人; 中川 慧

doi:10.11517/jsaisigtwo.2023.FIN-032_57

抄録

再帰的強化学習は価値関数を用いずに方策を更新する強化学習ｱﾙｺﾞﾘｽﾞﾑであり､方策の更新をある目的関数の勾配に基づいて行う手法がﾄﾚｰﾃﾞｨﾝｸﾞ戦略に応用されている｡しかしながら､それらは少数の具体的な目的関数に基づくものであり､柔軟な目的関数の選択が可能であるとは言えない｡そこで本論文では､再帰的強化学習における目的関数を劣微分が1点集合となる凸ﾘｽｸ尺度と､2つの時間整合的な動的凸ﾘｽｸ尺度に設定し､それらの勾配の計算方法を提案する｡これにより複数のﾘｽｸ尺度から柔軟に目的関数を選択することが可能となり､さらにﾘｽｸの時間整合的な評価が可能となる｡実証分析では､人工ﾃﾞｰﾀおよび実際の市場ﾃﾞｰﾀを用いて提案手法の有効性を検証する｡

著者関連情報

お気に入り & アラート

閲覧履歴

[title in Japanese]

発行機関からのお知らせ

第二種研究会の全記事は認証なしでアクセス可能です．また，各記事の著作権は原則として著者に帰属します．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）