2024 Volume 2023 Issue FIN-032 Pages 57-64
再帰的強化学習は価値関数を用いずに方策を更新する強化学習アルゴリズムであり、方策の更新をある目的関数の勾配に基づいて行う手法がトレーディング戦略に応用されている。しかしながら、それらは少数の具体的な目的関数に基づくものであり、柔軟な目的関数の選択が可能であるとは言えない。そこで本論文では、再帰的強化学習における目的関数を劣微分が1点集合となる凸リスク尺度と、2つの時間整合的な動的凸リスク尺度に設定し、それらの勾配の計算方法を提案する。これにより複数のリスク尺度から柔軟に目的関数を選択することが可能となり、さらにリスクの時間整合的な評価が可能となる。実証分析では、人工データおよび実際の市場データを用いて提案手法の有効性を検証する。