内在的強化学習の理論 報酬に質を導入する

高橋 達二

doi:10.11517/pjsai.JSAI2023.0_2Q1OS27a01

抄録

強化学習はマルコフ決定過程と動的計画法を元に、報酬の最大化という最適化原理により理論的に整理され、今日では数々の産業的応用を持つ。本発表では、質を持たない単なる「スカラー量」として扱われる報酬について、人間や動物の価値付けや生存、学習や探索の仕方を参考に、単なる全順序集合である報酬の範囲を、原点・基準点を持つよう変換し、プラスマイナスという符号を導入する。符号は良い/悪いという質を意味し、変換後の報酬の累積は、（理論家ではなく）エージェントの目の高さの「主観的リグレット」となる。ここから、従来の満足化 satisficing を包括する理論とモデルが導かれる。これにより、強化学習のタスクを最適化問題から判定問題へと転換することが可能となる。また、社会学習においてより「深い探索」も可能となり、近代科学を可能としたとされる「メタ情報」を通じた社会のモデリングに繋がる。非定常性に強く、場合により（通常の客観的）リグレットを発散させず有界にとどめられる、内在的強化学習または自然強化学習の理論の現状を概観し、今後の課題を述べる。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）