本論文では、人間レベルのAIの実現時期の見積もるために、人間レベルの能力を合理的な粒度でマッピングし、現在の技術範囲を明らかにし、未踏の領域を踏破するための技術課題を論じ、そのすべてが克服される時期を予測する「総合技術マップアプローチ」を提案する。ここでは、特にEntityにおいて日常的な直感と科学的実践に合致する形で包含する存在論的セクステッドを、包括的な技術地図として捉えるという新しい論証の選択肢を提示するものである。知的主体による世界の解釈方法という意味でのモデリングは、遠距離にある実体の認識とその時間的推移の予測がほとんどであるため、すべての遠距離実体を扱えるようにすることは合理的な目標であると言える。哲学や工学の認知技術の知見から、比較的近い将来、AIが人間と同程度に様々な実体を認識できるようになると予測される。
In my talk I will advocate that in spite of great improvements in NLP, the Large Language Models might be only partially advancing the path to AGI.
2021年頃に登場したFoundation Modelという単語は,従来のように個別のタスクに仕立てたモデルを作るのではなく,単一のモデルを多様な後続タスクに適用可能となっている深層学習のパラダイムを表した言葉である.この傾向が特に顕著なのは言語(GPT-3,PaLMなど)であるが,マルチモーダル領域におけるImagenやCLIP,強化学習領域におけるGatoなど多様な領域で同様のアプローチを取った研究が行われている.Foundation Modelは一般にデータ・モデル両面のスケールと同時に語られることも多く,モデルサイズ・計算量・データサイズと性能の関係に関する経験則(Scaling Law)や,モデル規模が拡大した際にのみ発現する能力の存在などが報告されている.本公演ではこれらの技術的な動向について概観し,今後の展望について述べる.
事前学習済み言語モデルは、テキストマイニング、機械翻訳、情報検索、情報推薦、言語理解、対話システムなど計算機による言語処理のあらゆるタスクで使われている。特にトランスフォーマー(Transformer)と呼ばれる深層学習モデルの登場以来、大規模化が急速に進み、数千億オーダーのパラメタを持つものも登場している。また画像や文書画像など、多様なモダリティへの言語モデルの拡張も盛んに行われている。これらの大規模言語モデルは多様な言語処理タスクにおいて優れた性能を上げる一方で、その複雑さからモデル自体のふるまいも未解明であるなど、解決するべき問題も多い。それぞれのタスクへの適用においては、ドメイン適応やバイアスの問題などが指摘され、様々な角度からモデルのふるまいや訓練・評価に用いるデータセットの分析などが行われている。本発表ではこれらを概観しながら、言語モデルの汎用性について考察する。
この発表では、AGIの定義を振り返るとともに、ヒトのような機能を持つAGIに関し、2022年時点において実現できていない機能を整理する。事例ベースAIの原理的問題として生成的規則の扱いに触れ、未実現課題として流動性知能、実世界対応、社会知能、言語獲得、数学に言及する。
大規模言語モデルの登場は画像生成AIの高性能化を実現し,世間を多いに驚かせているものの,これによりAI研究が完結するわけではなく,System1側の能力を向上させたに過ぎず,完成したAIとしての汎用AI実現にはSystem2の実現と統合が必要であり,System2の実現においても大規模言語モデルの登場は極めて重要である.ただし,人を超える汎用AIの実現には大規模言語モデルでも不十分であり,この部分について議論したい.
深層学習の大規模モデルはヒトの脳における言語野・感覚連合野・運動野が受け持つ機能を実現しつつある。しかし前頭前野と前部帯状回という2つの重要な部位の機能はカバーしていない。前頭前野は思考や行動の制御、前部帯状回は情動・動機に関与し、運動野とともに3つの独立した皮質-基底核ループを構成する。この特徴的なアーキテクチャの機能を再現するデモが動けば、多くの人が脳型AGIの実現可能性を確信し、AGI研究が一気に加速すると考えている。
マッキンゼーの2017年のレポート「A future that works: AI、自動化、雇用、生産性」において、仕事に関わる人間の能力は18種類あるとされています。これらをEntification観点から整理します。Physical、NLP、Socialなど13の領域に依存した認知・表現能力は、Entityの種類に依存すると考えられます。一方、領域非依存的なReasoning, Optimization, Creativityなどの5つの能力は、Entityの種類に依存した知識は使わないと考えられる。
プログラム合成対象言語 Pro5Lang の行動価値関数圧縮アルゴリズムを提案する。将来は AGIエージェントの経験履歴を圧縮することにより、 Pro5Lang プログラムを自律的に獲得させる計画である。アルゴリズムは K-means 法に似ているが、距離やクラスタ中心の計算方法が、入力データの特徴と我々の用途に特化しており、強力な汎化能力をもたらす。経験履歴を模した人工データを用いて、プロトタイプ実装の動作を確認した。
現在、多様なノーコードプログラミングや自動プログラミングのインプリメントが既に存在するが、然しそれらは概ね人間が要件や目的、仕様などを設定するモノが殆どでである。人工知能自身が自発的に対象や目的、解決方法等を定めて、ロジックを創造するようなモノは殆ど目にしない。本書はノーコードプログラミング等の入力となる、その上位概念である要件定義、即ちそれを汎化した課題の認識と解決についての検討を行う。アプローチとしては、ネゲントロピー(ネガティブ エントロピー)の変化量を抽出し、その特異点を以て違和感やストレス(課題)が有るのと等価とする。また変化量の収束を以て違和感やストレス(課題)の解消と等価とする。また事象、知識の組合せの選択肢から適用対象を探索し、適切な組合せを評価をする事を、思索、検討と等価とする。
Hebbが1949に提唱したphase sequencerをコンピューター上に実装し、概念すなわちcell assemblyが自動生成される条件を報告する。実装では、ニューロンはIzhikevichモデルを、シナプス結合強度変更はSTDPを利用した。
この論考では、時系列の記憶と想起(リプレイ)にもとづく規則(ポリシー・解法)発見のモデルを提案する。知能テストで測定されるいわゆる流動性知能は、1つまたは少数の事例から課題解決のためのポリシー(解法)を発見する能力と捉えられる。過去の少数の時系列サンプルから共通の規則を発見するには、それらの時系列の記憶と想起が役に立つであろうと想定される。提案モデルは、想起された時系列サンプル(リプレイ)を「吟味」し、時系列から得られる要素(入力要素の属性と入力要素属性間の関係、エージェントの行為など)を抽出して系列(仮説ポリシー)を生成する。
様々な団体、組織が汎用人工知能の実現に向け、アプローチの異なる様々な研究を繰り広げている。また、そのような知能が実現した場合の社会のあり方、倫理についても議論がなされている。しかし、汎用人工知能が実現された場合において、誰がどのようなビジネスを構成しうるのかという観点での議論はあまり見られない。そこで、汎用人工知能についていくつかの仮定を置き、ビジネスモデルの考察を行った。さらに、汎用人工知能とビジネスモデルの強力さから引き起こされる社会の歪に対する対策案を紹介する。
In this talk I will describe how our team at Sony AI trained agents for Gran Turismo that can compete with the world's best e-sports drivers.