Modified: 96.5.23, Owner: Hiroshi Yamakawa, e-mail:yamakawa@trc.rwcp.or.jp

CITTA (認識に基づく知的処理アーキテクチャ)

- Cognition based InTelligent Transaction Architecture -

# MACC97のPosterもわかりやすい

(この当時はエージェントネットワークと呼んでいた)

1. 概要

 複雑で多様性に富む実世界における知能システムでは、外界とのアクティブなインタラクションを通じて必要な処理の枠組みや知識を自律的に獲得する柔軟な自律学習能力が必要である。RWC自律学習機能富士通研究室では、これを実現するための分散知能アーキテクチャとそれに適した学習アルゴリズムの開発を進めている。本稿では、その一方の分散知能アーキテクチャを中心に説明する。

分散知能アーキテクチャがニューラルネットワークのような柔軟な学習能力を持つためには、(1)パターン情報を主体に扱うことで自律学習不可能な設計者やエージェント間で共有されるセマンティクスの利用を最小限にとどめること[1]、(2)学習空間を小さくするためにエージェント間接続や内部処理構造を可能な限りタイトに定式化すること、の二つが必要である。

比較的タイトに定式化しながら共有セマンティクスをを多用するマルチエージェントシステムエージェントとしてADIPSがある。一方、比較的緩やかに定式化されたパターン主体の分散知能アーキテクチャとしては包摂アーキテクチャやANAをはじめとするリアクティブアーキテクチャやロボットへ応用したBeNet、エージェントネットなどがある。しかし多くのこの種のアプローチでは、高機能のアーキテチャを作った後に学習機能を追加しようとする。そのため学習を取り込める部分が限定され勝ちで、柔軟な学習機能の実現は困難である。

これに対して我々は、はじめから柔軟性の高い構造全体の学習機構を前提とした分散知能アーキテクチャCITTAの開発を進めており、既に手渡しロボットシステムに適用してきた。

2.CITTAの構成

CITTAによるシステムは相互に通信しあう複数のエージェントにより構成される。各エージェントから見ると、その周りのエージェントも外部環境である。各エージェントは通信バッファとしてノードのベクトルを持ち、ノード毎に設定された接続に従ってエージェント間で実数値が交換される。その実数値毎にその有効性を示す有効値(0.0〜1.0)が付加されている。エージェント間の接続関係は短時間では固定的であるが学習により緩やかに変化する。

ノードには機能の異なる以下の3種類がある。

  1. B-node:自身で生成管理する情報(共有セマンティクス無)
  2. L-node: 他エージェントのB-nodeに接続(共有セマンティクス無)
  3. S-node:活性度など(共有セマンティクス有)

ノード間の接続は以下に説明する3層のレイヤ構造を持つ。

  1. State layer: 現在の状態を表わす
  2. Goal layer: 実現したい状態を表わす
  3. Contract layer: 契約成立を表わす(有効値のみ)
図1 認識に基づく知的処理アーキテクチャ
Cognition based Intelligent Transaction Architecture : CITTA
 

各エージェントの典型的な内部構造としては図2に示すような構成を仮定している。

  • 記憶装置 (Memory): エージェントがL-node(場合によってはB-nodeも含む)から得た情報と評価の経験を蓄積する。
  • 変換装置 (Transform function):L-nodeのStateをB-node のStateに変換するための装置、Goalに関しては連想的に機能するので、できれば連想メモリが好ましい。
  • ゴール生成装置 (Goal generator): 現状のState, Goal入力に応じてGoalを実現するための新たなGoalを生成する装置。記憶装置に蓄えられた経験を利用しても良い。
図2典型的なエージェントの内部構造

3. CITTAの動作

各エージェントは非同期に動作し続け、その内部の要素動作には以下の4つである。なお、全てのエージェントに共通な定型の要素動作については、ユーザの設計や学習は不要である。

  1. 読込み(定型):L-nodeに接続されたエージェントの全てレイヤの情報を読込む
  2. 活動度監視(定型):活動度に応じたサイクルの切替え
  3. 条件付き状態変換:内部の変換関数を用いてL-node stateの情報を変換してB-node stateに書込む
  4. 即応ゴール探索:読込んだ部分ゴールを実現できる他の部分ゴールが探索でたら、その部分ゴールをL-node に書込むと同時にゴールを与えられたノードのContractレイヤを有効にして接続しているエージェントに送る
  5. 入札要請(定型):未契約ゴールを持つB-nodeに接続するエージェントへ入札処理の起動を要請する

システムにゴールが与えられると、上記の各エージェントの動作が組み合わされて全体として動作が行われる。そして、この過程において分散して保持された知識が統合される。

各エージェントの要素動作の呼び出しは4種類の動作サイクルにより切り替わり、これはS-node上の監視活性度、出力活性度、入札活性度により制御される。サイクルの切替えは〔〕内に示すよう自動的に為される場合と、他のエージェントによる活動度の操作による場合がある。

  1. 休止サイクル:L-nodeの読込みと活動度監視〔外部から活性化されなければ休止する〕
  2. 監視サイクル:休止サイクル→条件付き状態変換〔B-node stateが読まれると起動される〕
  3. 出力サイクル:監視サイクル→即応ゴール探索→入札要請(探索が失敗したら)〔L-node goalが書き込まれると起動される〕
  4. 入札サイクル:監視サイクル→即応ゴール探索

既に述べた有効値が交換される情報にが付加されている理由の一つには、不活性エージェント上の情報が無効であることを示すことがある。

4. アーキテクチャに対する考察

CITTAでは自律学習に不向きな明示的な共有セマンティクスの導入を少なくするために、以下のような点を考慮している。第一に、環境の情報構造は明示的なセマンティクスではなく、ネットワークの接続構造に保持される。そのためシステム内のB-nodeはすべてユニークな存在とし、同じ情報を複数存在させないことでその対応を保っている。ちなみに、その唯一性のためにB-nodeはL-nodeと異なり、B-node同志、L-node同志の接続が不可能となる。第二に人為的な命令信号の利用により共有セマンティクスが導入されるのを防ぐため、命令にはすべてゴールを利用した。第三に情報構造を環境の認識を通じて獲得するために、ネットワーク構造は全体として認識システムの構成をとる。そのため、センサ入力のノードと行動出力のノードとを区別せず、状態レイヤとゴールレイヤで認識と行動を区別している。このため認識用のエージェントにもゴールを書き込めるので一見不自然に見える。ところが、本稿で説明する入札機構により、認識エージェントのB-nodeに書き込まれたゴールに対応することが可能となるのである。柔軟な学習能力を実現するために、一般化状態を用いることを特徴とする、パターンベースのエージェントネットワーク型の分散知能アーキテクチャ。

5.開発の進行と現状

 

 

6.関連資料など

●他の研究機関との連携

  1. 行動知能ラボ(電総研)での紹介

●外部発表文献

  1. 山川 宏, 岡田浩之, 渡部信雄, 松尾 和洋. (1998). "一般化状態における協調と競合のためのエージェント内部機構," Proc. MACC'98. 富山.27-02,オンラインプロシーディングス. [Abstract(txt)/Paper(pdf)/Poster(html/ppt)]
  2. 山川 宏, 岡田浩之, 渡部信雄, 松尾 和洋. (1998). "実世界で自律学習を行うための分散知能アーキテクチャ -CITTA-," 1998年度人工知能学会全国大会(第12回)(JSAI-98), 27-02, pp.455-456. [List/Abstract]
  3. 山川 宏, 岡田浩之, 渡部信雄, 松尾 和洋. (1998). "実世界において自律学習する分散知能アーキテクチャ," 1998 Real World Computing Symposium (RWC'98), pp.253-258. [List/Abstract/Paper]
  4. 山川宏, 高橋裕信, 末広尚士.(1997). " 学習のためのマルチエージェントシステムとその入札機構 ," Proc. MACC'97. 神戸. [List/Abstract/Paper/Poster]
  5. 末広尚士, 高橋裕信, 山川宏.(1997) "エージェント・ネットワークによる手渡しロボットシステムの構築."第15回日本ロボット学会学術講演会予稿集、Vol.2, pp. 373-374.[List/Abstract]
  6. Suehiro, T., Takahashi, H., Yamakawa, H. (1997)"Research on Real World Adaptable Autonomous Systems - Development of a Hand-to-HandRobot,"Proc. 1997 Real World Computing Symposium (RWC'97),pp.398-405, Tokyo,Japan.[List/Abstract/Paper]
  7. 山川宏, 岡田 浩之, 渡部 信雄, 松尾和洋.(1997)."注意のモデルと強化学習 - 前頭葉-大脳基底核における注意の学習メカニズム -."人工知能学会第2種研究会「情報統合(SIG-CII)」,つくば.[List/Abstract/Paper/Poster]