主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
動物には、好ましい報酬がもたらされると同様の状況下で同じ行動を選択する頻度が増加するという学習様式が存在する。これは人工知能の分野で強化学習と呼ばれており、そのアルゴリズムの多くは報酬予測誤差を用いたものである。 動物の脳内にも、このアルゴリズムを実現できる神経回路が存在するはずである。実際、報酬予測誤差を表現する神経細胞は中脳黒質で発見されており、中脳黒質の投射先である大脳基底核線条体を中心とした神経回路が強化学習に関連した情報処理を行っている可能性が示唆されている。しかし、脳における神経回路レベルでの強化学習アルゴリズムは解明されていない。 本研究では、ドーパミン神経細胞からの報酬予測誤差を利用し、大脳皮質-大脳基底核の神経回路を並列にタイリングしたネットワークモデルの構築を試みた。マルコフ決定過程の強化学習課題である迷路課題とCartPoleを用いて、従来のTD学習との比較を行った。その結果、動物の学習時に観察されるようなドーパミン神経細胞の活動様式を再現しつつ、TD学習と遜色ない学習効率を示すことが確認されたので報告する。