日本神経回路学会誌
Online ISSN : 1883-0455
Print ISSN : 1340-766X
23 巻 , 1 号
選択された号の論文の10件中1~10を表示しています
巻頭言
解説
  • 内部 英治
    2016 年 23 巻 1 号 p. 2-13
    発行日: 2016/03/05
    公開日: 2016/05/06
    ジャーナル フリー
    連続時間系での順強化学習では最適制御則を求めるためには非線形の偏微分方程式であるハミルトン・ヤコビ・ベルマン方程式を解く必要があるが,ほとんどの場合解析的に解くことは困難である.離散時間系の定式化の場合も同様で,このことが強化学習を実問題に適用する上での問題の一つとなっている.近年,線形可解マルコフ決定過程と呼ばれる問題のクラスが提案され,目的関数を規定する即時コスト関数の一部をカルバックライブラーダイバージェンスによって表現することで,ハミルトン・ヤコビ・ベルマン方程式を線形化できることが示された.この解説では,線形可解マルコフ決定過程のロボット制御への適用について説明し,この枠組みにおいて,学習済みの制御則の合成理論に基づいた学習の高速化と観測された状態行動系列からコスト関数を推定する逆強化学習問題が実現できることを紹介する.
  • 瀧山 健
    2016 年 23 巻 1 号 p. 14-34
    発行日: 2016/03/05
    公開日: 2016/05/06
    ジャーナル フリー
    腕の到達運動と外乱を用いた実験パラダイムにより,身体運動学習に関わる脳内メカニズムの理解が進められてきた.特に,実験と理論の融合的アプローチが広く進められ,様々な理論的枠組が提案されるに至っている.しかしながら,様々な理論的枠組が場当たり的に提唱され,詰まるところ身体運動学習に関わる脳内メカニズムにおける最も重要な要素は何か,という問題は未解決なままである.著者は近年,“我々は運動する前に暗黙の内に運動誤差を予測している”と想定する誤差の予測モデルを提案した.この誤差の予測モデルは既存の理論的枠組では再現することができなかったランダム学習を再現するための数学的要請に基づいたモデルであり,誤差の予測モデルのみが予測できる現象を行動実験に基づき実証することができ,別々の既存モデルで再現されてきた様々な現象を同一パラメータで再現することが可能であった.興味深いことに,著者は意思決定の知見を一切考慮せずに誤差の予測モデルを提案したものの,この誤差の予測モデルは意思決定の分野でしばしば用いられる価値関数を運動学習の分野に応用したモデルとして解釈できることを本稿にて示す.また,誤差の予測モデルを意思決定へと応用することで,意思決定に関する様々な現象を統一的に解釈できる可能性に対しても言及する.
  • 疋田 貴俊
    2016 年 23 巻 1 号 p. 35-40
    発行日: 2016/03/05
    公開日: 2016/05/06
    ジャーナル フリー
    我々は,大脳基底核の直接路と間接路のそれぞれに特異的な可逆的神経伝達阻止法を開発し,直接路は報酬行動に,間接路は忌避行動と行動柔軟性にそれぞれ関与していることを示した.腹側被蓋野からのドーパミン入力が側坐核の直接路D1受容体と間接路D2受容体を介してスイッチングを行う,意思決定行動における大脳基底核神経回路の制御機構を概説する.
  • 坂本 一寛, 川口 典彦, 虫明 元
    2016 年 23 巻 1 号 p. 41-45
    発行日: 2016/03/05
    公開日: 2016/05/06
    ジャーナル フリー
    Exploration-exploitation trade-off is one of the big problems in reinforcement learning. Our recent study suggested that “surprise” neurons in the supplementary eye field of the cerebral cortex are involved in switching between exploratory and exploitive modes of oculomotor behavior.
報告
書評
会報
編集後記
feedback
Top