凸リスク尺度に基づく再帰的強化学習

比留木 幹人; 中川 慧

doi:10.11517/jsaisigtwo.2023.FIN-032_57

Abstract

再帰的強化学習は価値関数を用いずに方策を更新する強化学習ｱﾙｺﾞﾘｽﾞﾑであり､方策の更新をある目的関数の勾配に基づいて行う手法がﾄﾚｰﾃﾞｨﾝｸﾞ戦略に応用されている｡しかしながら､それらは少数の具体的な目的関数に基づくものであり､柔軟な目的関数の選択が可能であるとは言えない｡そこで本論文では､再帰的強化学習における目的関数を劣微分が1点集合となる凸ﾘｽｸ尺度と､2つの時間整合的な動的凸ﾘｽｸ尺度に設定し､それらの勾配の計算方法を提案する｡これにより複数のﾘｽｸ尺度から柔軟に目的関数を選択することが可能となり､さらにﾘｽｸの時間整合的な評価が可能となる｡実証分析では､人工ﾃﾞｰﾀおよび実際の市場ﾃﾞｰﾀを用いて提案手法の有効性を検証する｡

Content from these authors

Favorites & Alerts

Corresponding author

Conference information

Register with J-STAGE for free!