実世界において自律学習する分散知能アーキテクチャ

Distributed Intelligent Architecture for Real World Autonomous Learning

 

山川 宏 岡田 浩之 渡部 信雄 松尾 和洋

Hiroshi Yamakawa Hiroyuki Okada Nobuo Watanabe Kazuhiro Matsuo

 

RWC自律学習機能富士通研究室

Autonomous Learning Functions Fujitsu Laboratory, RWC

yamakawa@flab.fujitsu.co.jp

 

Abstract

To realize real world autonomous learning function, we are developing distributed intelligent architecture called cognition based intelligent transaction architecture (CITTA). Main points for introduce learning ability is (1) Maintaining real world pattern information directly, (2) Strong formalization to reduce learning space. Firstly, we introduce a bidding mechanism on CITTA to combines distributed knowledge on each agent. The simulation of tracking task demonstrates the ability of system based on CITTA. Secondly, we developed attention mechanism on CITTA based on physiological knowledge. Proposed model can adapt to change of effective input modality using reinforcement learning and can explain the results of cognitive experiment called Wisconsin card sorting test (WCST).

1. はじめに

 複雑で多様性に富む実世界における知能システムでは、外界とのアクティブなインタラクションを通じて必要な処理の枠組みや知識を自律的に獲得する柔軟な自律学習能力が必要である。自律学習機能富士通研究室では、これを実現するための分散知能アーキテクチャとそれに適した学習アルゴリズムの開発を進めている。本稿では、その一方の分散知能アーキテクチャを中心に説明する。

分散知能アーキテクチャがニューラルネットワークのような柔軟な学習能力を持つためには、(1)パターン情報を主体に扱うことで自律学習不可能な設計者やエージェント間で共有されるセマンティクスの利用を最小限にとどめること[1]、(2)学習空間を小さくするためにエージェント間接続や内部処理構造を可能な限りタイトに定式化すること、の二つが必要である。

比較的タイトに定式化しながら共有セマンティクスをを多用するマルチエージェントシステムエージェントとしてADIPS[2]がある。一方、比較的緩やかに定式化されたパターン主体の分散知能アーキテクチャとしては包摂アーキテクチャ[3]ANA[4]をはじめとするリアクティブアーキテクチャやロボットへ応用したBeNet[5]、エージェントネット[6]などがある。しかし多くのこの種のアプローチでは、高機能のアーキテチャを作った後に学習機能を追加しようとする。そのため学習を取り込める部分が限定され勝ちで、柔軟な学習機能の実現は困難である。

これに対して我々は、はじめから柔軟性の高い構造全体の学習機構を前提とした分散知能アーキテクチャCITTAの開発を進めており、既に手渡しロボットシステムに適用[7,8]してきた。

本稿ではCITTAに基づくシステムにおいて、入札機構を導入することでエージェント毎の部分的な知識を統合してタスクを実行し得ること、状況に応じたモダリティへの注意の切替えを学習できることを示す。2節ではCITTAの基本構成と動作について説明し、3節では分散した知識を組み合わせて利用する入札機構のCITTAへの導入について述べる。4節では注意の切替えを強化学習により獲得するモデルについて述べる。5節でまとめを行う。

2. 分散知能アーキテクチャ: CITTA

 我々は外部環境からの認識を通して自律的に内部構造を獲得する分散知能アーキテクチャとして、認識に基づく知的処理アーキテクチャ(Cognition based InTelligent Transaction Architecture : CITTA)を提案している。

2.1 構成

CITTAによるシステムは相互に通信しあう複数のエージェントにより構成される。各エージェントから見ると、その周りのエージェントも外部環境である。

各エージェントは通信バッファとしてノードのベクトルを持ち、ノード毎に設定された接続に従ってエージェント間で実数値が交換される。その実数値毎にその有効性を示す有効値(0.0〜1.0)が付加されている。エージェント間の接続関係は短時間では固定的であるが学習により緩やかに変化する。

ノードには機能の異なる以下の3種類がある。

  1. B-node:自身で生成管理する情報(共有セマンティクス無)
  2. L-node: 他エージェントのB-nodeに接続(共有セマンティクス無)
  3. S-node:活性度など(共有セマンティクス有)

ノード間の接続は以下に説明する3層のレイヤ構造を持つ。

  1. State layer: 現在の状態を表わす
  2. Goal layer: 実現したい状態を表わす
  3. Contract layer: 契約成立を表わす(有効値のみ)
  4.  

図1 認識に基づく知的処理アーキテクチャ
Cognition based Intelligent Transaction Architecture : CITTA

 

各エージェントの典型的な内部構造としては図2に示すような構成を仮定している。

図2典型的なエージェントの内部構造

2.2 動作

各エージェントは非同期に動作し続け、その内部の要素動作には以下の4つである。なお、全てのエージェントに共通な定型の要素動作については、ユーザの設計や学習は不要である。

(1)読込み(定型):L-nodeに接続されたエージェントの全てレイヤの情報を読込む

(2)活動度監視(定型):活動度に応じたサイクルの切替え

(3)条件付き状態変換:内部の変換関数を用いてL-node stateの情報を変換してB-node stateに書込む

(4)即応ゴール探索:読込んだ部分ゴールを実現できる他の部分ゴールが探索でたら、その部分ゴールをL-node に書込むと同時にゴールを与えられたノードのContractレイヤを有効にして接続しているエージェントに送る

(5)入札要請(定型):未契約ゴールを持つB-nodeに接続するエージェントへ入札処理の起動を要請する

システムにゴールが与えられると、上記の各エージェントの動作が組み合わされて全体として動作が行われる。そして、この過程において分散して保持された知識が統合される。

各エージェントの要素動作の呼び出しは4種類の動作サイクルにより切り替わり、これはS-node上の監視活性度、出力活性度、入札活性度により制御される。サイクルの切替えは〔〕内に示すよう自動的に為される場合と、他のエージェントによる活動度の操作による場合がある。

(1)休止サイクル:L-nodeの読込みと活動度監視〔外部から活性化されなければ休止する〕

(2)監視サイクル:休止サイクル→条件付き状態変換〔B-node stateが読まれると起動される〕

(3)出力サイクル:監視サイクル→即応ゴール探索→入札要請(探索が失敗したら)〔L-node goalが書き込まれると起動される〕

(4)入札サイクル:監視サイクル→即応ゴール探索

既に述べた有効値が交換される情報にが付加されている理由の一つには、不活性エージェント上の情報が無効であることを示すことがある。

2.3 アーキテクチャに対する考察

CITTAでは自律学習に不向きな明示的な共有セマンティクスの導入を少なくするために、以下のような点を考慮している。第一に、環境の情報構造は明示的なセマンティクスではなく、ネットワークの接続構造に保持される。そのためシステム内のB-nodeはすべてユニークな存在とし、同じ情報を複数存在させないことでその対応を保っている。ちなみに、その唯一性のためにB-nodeL-nodeと異なり、B-node同志、L-node同志の接続が不可能となる。第二に人為的な命令信号の利用により共有セマンティクスが導入されるのを防ぐため、命令にはすべてゴールを利用した。第三に情報構造を環境の認識を通じて獲得するために、ネットワーク構造は全体として認識システムの構成をとる。そのため、センサ入力のノードと行動出力のノードとを区別せず、状態レイヤとゴールレイヤで認識と行動を区別している。このため認識用のエージェントにもゴールを書き込めるので一見不自然に見える。ところが、本稿で説明する入札機構により、認識エージェントのB-nodeに書き込まれたゴールに対応することが可能となるのである。

 

3. CITTAにおける入札機構

CITTAにおいて分散した知識を統合するために、入札機構[9]を導入する。

3.1 入札機構とその動作

全てのエージェントの基本構造は同じだが、入札発生時には、依頼、仲介、入札の役割分担が起こる。典型的な入札の発生状況を図3に示す。まず、(1)出力サイクルにある依頼者がゴールを生成し接続先に送る。(2)B-nodeにゴールが書込まれた仲介者は出力サイクルとなり即応ゴール探索を呼び出してゴールを実現することを試みるが失敗する。(3)仲介者はゴールが存在するB-nodeに接続しているエージェント(入札者)に入札要請を行う。(4)今まで休止または監視サイクルにあった入札者は入札サイクルとなり即応ゴール探索を呼び出す。(5)入札者1は探索に成功したので部分ゴールを生成し、仲介者からの部分ゴールには契約成立を示すためにContractレイヤを有効化する。(6)入札者2は未契約なゴールが無くなったので入札サイクルを抜ける。このため契約可能な入札者が複数存在した場合には早く契約した方が優先される。

図3 CITTAによる入札動作

3.2シミュレーションによる検証

計算機実験で中心付近のみに視野をもつカメラとマニピュレータを持つシステムが、標的を追従するタスクをシミュレートした(図4参照)。

 外部から出力サイクルに活性化されたTrackエージェントは、両カメラエージェントを監視サイクルに活性化する。M-CameraエージェントはTrackエージェントから目標位置のゴールを受け取るが、即応ゴール探索には失敗するので入札要請を行う。この時にマニピュレータが視野外に在るならば実行可能なApproachエージェントがマニピュレータを視野内に移動するように絶対位置のゴールをManipulatorエージェントに送信する。マニピュレータが視野内に在るならば実行可能なCA-Transエージェントがマニピュレータのカメラ上の位置をマニピュレータ自身の絶対位置に変換したゴールをManipulatorエージェントに送信する。ここで、Manipulatorエージェントは絶対位置によっては動作できないが、GA-Transエージェントの入札により相対位置に変換されたゴールを取得して移動命令を環境に返すことができる。

図4 計算機実験環境とエージェントネットワーク(標的に追従するマニピュレータ)

4. CITTAによる注意の強化学習

知的アーキテクチャにおいては、強化信号による学習と注意の切り替えは重要な機能である。そこで、CITTAにおいてこれを実現するための基本機構を開発した。ここでは認知的知見、生理的知見、情報処理の3点からの要請を考慮してモデル化を行った[10]。

具体的なタスクとしては前頭葉損傷患者がウイスコンシンカード課題[11]において分類基準への固執性を示す現象を強化学習による注意の切替えモデルにより説明した。なおシミュレーションの結果については別記[12]する。

4.1 ウイスコンシンカード課題

この課題は色、形、数の4種類の組み合わせからなる128枚のカードを用いて行われる(5参照)。被験者は反応カードを4枚の分類カードの何れかの下に置くように指示される。被験者に望まれる行動は、色、形、数の何れかの正しい分類基準からみて同じカード下に置くことであるが、被験者にはこの分類基準が知らされない。そこで被験者は与えられる当否情報のみから正しい刺激カードを選択する必要がある。そして10回続けて正解すると、被験者には知らされずに分類基準が変更される。

図5ウイスコンシンカード課題

健常者は分類基準が変化に追従することができるが、前頭葉損傷患者は以前に憶えた分類基準に固執するので分類基準の変化に追従できない。前頭葉損傷患者においてもカードを分類する能力は正常なので、我々はこのような症状が分類基準へ注意の切替機能の脱落によるものであると仮定して強化学習モデルを構築した。

分類基準の切替えに固執性が発生するのは、不正解時に与えられる嫌悪性刺激を利用して注意すべきモダリティを切り替える機構に障害が発生しているためだと考えられる。なぜなら、課題の初期段階では正解した際に得られる報酬性刺激から注意の切替えを行えるが、分類基準の変更に追従するには不正解時に得られる嫌悪性刺激を用いて注意の切替えを行う必要があるためである。

4.2 注意の学習機構のCITTAによるモデル化

色、形、数を認識するエージェントとその情報を統合するエージェントおよび注意生成エージェントによってCITTAに基づくシステムを構成し、さらに評価機構を設置する。認識エージェントは、分類基準に対応したモダリティ毎に認識結果を出力する、例えば数エージェントは画像中のオブジェクト数を出力する。タスク状況エージェントは各認識エージェントの出力に対して、フィルターリングを行う。比較結果を利用する行動系のエージェントなどの説明は省略する。

(A)認識行動系

(A-1)タスク状況エージェント

認識エージェントの出力の有効性を制御し、評価が上昇したときの注意の与え方を強化する。

(A-2)比較判別エージェント

各認識エージェントの結果を統合して、認識中のカードの変化を検出する、無効な認識情報に関しては無視する。

(A-3)画像エージェント

(A-4)色認識エージェント

(A-5)形認識エージェント

(A-6)数認識エージェント

(B)評価系

環境や他のエージェントの情報から評価信号を生成する。今回は評価信号が環境から直接得られるものとする。

図6 CITTAによる注意のメカニズム

4.3ヒトの脳との比較

CITTAによる注意の学習モデルとヒトの脳機能との比較を行う。このモデルの基本的なアイデアは注意の機構に関する次のような生理学からの知見による。

大脳皮質は外的なシステムで、複雑な環境における複数のモダリティに対応するために機能分化した領野の集まりとして構成される。一方、辺縁系は内的な価値判断システムで、主に身体状況への適応を担う。Edelman [13]はこれら二つの異なるシステムが進化の過程でリンクすることによってヒトの学習機能が発達したと述べている。これはシステム全体としての学習機能が辺縁系で生じる価値を満足するように行動を適応的に変化させることであるとも言える。

 

図7 大脳皮質-大脳基底核-視床を巡る回路

図7にはヒトにおける大脳皮質、大脳基底核および視床を結ぶ信号の流れを図示した。大脳皮質−大脳基底核−視床を結ぶ回路は閉回路になっており、視床は皮質を抑制し、大脳基底核は皮質領野に投射する視床を選択的に脱抑制するので、結果として大脳基底核は皮質を活性化する。この大脳基底核による視床の脱抑制には大脳基底核に強く結合している前頭皮質と辺縁系の役割が重要であり、大脳基底核はドーパミン神経細胞から放出される強化信号を利用して、強化学習を行っているとの報告もある。今回提案した注意の学習モデルでは、皮質と大脳基底核の両方を含む。大脳基底核はLeaf goal Branch attention goal Branch attention state Branch state validity の経路上に相当する。

5. おわりに

実世界における自律学習を実現するにはシンボルグラウンディング問題を避けるためにパターンベースでありかつ、学習空間を小さくするためにの強く定式化された分散知能アーキテクチャが必要である。我々はこれを目的として認識に基づく知的処理アーキテクチャ(CITTA)の開発を進めている。本稿ではCITTAの基本構成と動作の説明に引き続き、契約ネットワークと同様に入札機構を導入し、この機構を利用してエージェント毎の部分的な知識を統合してタスクを実行し得ることを示した。また状況に応じて分類基準の変化に応じたモダリティへの注意を切り替える強化学習モデルを提案しCITTAに融合した。

今後は、状況に応じた注意を利用することで情報統合を行う知的学習システムの研究を進める。このために、これまで開発を進めているMatchabilityによる情報構造化技術[14, 15]CITTAに統合する予定である。

参考文献

[1] 山川宏、パターンベースド知能システム ? 学習から見たシンボルグラウンディング問題の検討 -、RWC情報統合ワークショップ '95, pp.167-175.、1995.

[2] 藤田、菅原、木下、白鳥、分散処理システムのエージェント指向アーキテクチャ、情報処理学会, Vol.37, No.5, pp.840-852, 1996.

[3] Brooks, R. A., "Intelligence without representation," Artificial Intelligence, 47:139-159, 1991.

[4] Maes, P., "The agent network architecture (ANA)," SIGART Bulletin, 2(4):115-120, 1991.

[5] 岡哲資、稲葉雅幸、井上博允、ビヘービアネットによる自律ロボットの階層的運動システムの設計.日本機会学会ロボティクス・メカトロニクス講演会'96講演論文集,pp.1361-1364,1996.

[6] 宮本、熊谷、エージェントネットによる自律分散型生産システムのモデル化と制御.日本ロボット学会, Vol.15,No.6, pp.823-826, 1997.

[7] Suehiro, T., Takahashi, H. and Yamakawa, H., "Research on Real World Adaptable Autonomous Systems - Development of a Hand-to-Hand Robot -," RWC'97, pp.398-405, 1997.

[8] 末広尚士、高橋裕信、山川宏, "エージェントネットワークによる手渡しロボットシステムの構築," 第15回ロボット学会学術講演会、2C24、1997.

[9] 山川宏 他, "学習のためのマルチエージェントシステムとその入札機構",第6回マルチ・エージェントと協調計算ワークショップ (MACC'97), Vol. F7, No. 8, 1997.

[10] 岡田浩之、山川宏、渡部信雄、松尾和洋:"注意のモデルと強化学習 -前頭葉−大脳基底核における注意の学習メカニズム-",人工知能学会第2種研究会「SIG-CII」, 1997.

[11] Milner, B. Some effects of frontal lobectomy in man, The Frontal Granular Cortex and Behaviors, pp.313-334, McGraw-Hill, 1964

[12] Okada, H., Yamakawa, H. and Omori, T., "Neural network model for the preservation behavior of frontal lobe injured patients," ICONIP'98, To be appeared

[13] G. M.エーデルマン,“脳から心へ,”新曜社, 1995.

[14] 山川宏、認識システムの内部構造獲得のためのMatchability指向の特徴選択、信学技報、PRMU96-12、vol.96, no.41, pp.1-8, 1996.

[15] H. Yamakawa, "Proposing Matchability Criterion for Situation Decomposition - Extracting situations each of which contains a rule," ICONIP'98, To be appeared