学習のためのマルチエージェントシステムとその入札機構

 

山川宏*1 高橋裕信*1 末広尚士*2

yamakawa@flab.fujitsu.co.jp hironobu@rwcp.or.jp suehiro@etl.go.jp

*1新情報処理開発機構 *2電子技術総合研究所

 

概要:知能システムにおいて設計者が与えるセマンティクスを伴うシンボルを主体に情報処理を行うと自律的な学習能力に限界がある。そこで筆者らはこれまでに、主にパターンを用いるマルチエージェントシステムを提案してきた。本稿ではこのシステムに入札機構を導入し、これにより分散した部分知識を統合して利用できることを、マニピュレータがカメラで捉えた物体に追従するシミュレーションを通じて示した。

Keyword:エージェントネットワーク、契約ネットワーク、自律学習、シンボルグラウンディング、物体追跡、分散人工知能、ニューラルネットワーク、リアルワールドコンピューティング

 

1. はじめに

評価を共有するマルチエージェントシステムにおいて柔軟な自律学習能力を研究する目的でエージェントネットワークは開発された。ニューラルネットワークのように部分システム間の自律学習を可能とするには、(1)自律的には獲得不可能な設計者やエージェント間で共有されるセマンティクスの利用を限定してパターン情報を主体に扱うこと[1]、(2)学習空間を小さくするためにエージェント間接続や内部処理構造を可能な限りタイトに定式化すること、の二つが必要である。

以上の要請を満たすエージェントシステムとしてエージェントネットワークモデルを提案し、これまでのところ、手渡しロボットシステムに適用[2]してきた。本稿ではエージェントネットワークに契約ネットワークと同様の入札機構を導入して簡単なシミュレーションを行ったので紹介する。2節では入札機構を中心にエージェントネットワークについて説明し、3節では簡単なシミュレーションの結果を示し、4節で今後の課題を述べる。

なお、セマンティクスを多用するネットワークエージェントの研究例の中で、我々のモデルに近いのは比較的タイトに定式化されたADIPS[3]がある。セマンティクスを用いないモデルはロボット応用の研究例としてBeNet[4]、エージェントネット[5]などがある。

2. エージェントネットワーク

2.1 構成

このモデルにおいてエージェント間で交換される情報は実数値のベクトルのみであり、各要素毎に値の有効性を示す有効値(0.0〜1.0)が付加されている。エージェント間の接続関係は短時間では固定的であるが学習により比較的緩やかに変化する。

エージェント間の接続を通した情報交換はレイヤ構造により多線化された3種類のノードを通して行われる。

ノード毎の3種類のレイヤは以下の通りである。

エージェントのモデル化においては、以下のような点が考慮されている。第一に、明示的なセマンティクスを用いる代わりに情報の対応関係は構造に埋め込まれる。すなわちレイヤ毎に意味付けが有ると同時に同じノード上の異なるレイヤの情報は対応関係を持つ。またシステム内のB-nodeはすべてユニークな存在とし、同じ情報を複数存在させないことでその対応を保っている。ちなみに、その唯一性のためにB-nodeはL-nodeと異なり、B-node同志、L-node同志の接続が不可能となる。第二に人為的な命令信号の利用によりセマンティクスが導入されるのを防ぐため、命令にはすべてゴールを利用した。第三にセンサ入力のノードと行動出力のノードとを区別せず、状態レイヤとゴールレイヤで区別している。すると認識用のエージェントにもゴールを書き込めるので不自然とも思えるが、認識イメージを通した目標設定はむしろ有用である。本稿で説明する入札機構は、このように認識エージェントが自身のB-nodeに書き込まれたゴールに対して行動を起こせない問題を解決する。この性質のためにネットワーク構造は全体として認識システムの構成をとることになる。

2.2 動作

各エージェントは非同期に動作しており、内部で実行される要素動作の組み合わせが異なる3種類の動作サイクルがある。サイクルの切替えは必要に応じて行われるが、外部から活動度を直接に操作しても制御できる。既に述べたように交換される情報に有効値が負荷されている理由の一つは、不活性エージェントにおける情報の無効性の表示である。

エージェントの動作サイクルの遷移は他のエージェントからの読み出し・書き込み・入札要請などによる。

エージェント毎に共通な定型の要素動作については、学習したりユーザが設計する必要が無い。

2.3入札機構の動作

全てのエージェントの基本構造は同じだが、入札発生時には、依頼、仲介、入札の役割分担が起こる。

典型的な入札の発生状況を図1に示す。まず、(1)出力サイクルにある依頼者がゴールを生成し接続先に送る。(2)B-nodeにゴールが書込まれた仲介者は出力サイクルとなり即応ゴール探索を呼び出してゴールを実現することを試みるが失敗する。(3)仲介者はゴールが存在するB-nodeに接続しているエージェント(入札者)に入札要請を行う。(4)今まで休止または監視サイクルにあった入札者は入札サイクルとなり即応ゴール探索を呼び出す。(5)入札者1は探索に成功したので部分ゴールを生成し、仲介者からの部分ゴールには契約成立を示すためにContractレイヤを有効化する。(6)入札者2は未契約なゴールが無くなったので入札サイクルを抜ける。

このため契約可能な入札者が複数存在した場合には早く契約した方が優先される。

 

3. シミュレーション

図2に示すように計算実験では中心付近のみに視野をもつカメラとマニピュレータを持つシステムが、標的を追従するタスクをシミュレートした。

Trackエージェントが外部から出力サイクルに活性化されると、両カメラエージェントを監視サイクルに活性化してM-Cameraエージェントに目標位置のゴールを伝達する。M-Cameraエージェントの入札要請を行うが、マニピュレータが視野外の時は実行可能なApproachエージェントはマニピュレータを視野内に移動できるように絶対位置のゴールをマニピュレータエージェントに送信し、視野内の時は実行可能なCA-Transエージェントがマニピュレータのカメラ上の位置をマニピュレータ自身の絶対位置に変換してゴールを送信する。マニピュレータエージェントは絶対位置では動作できないが、GA-Transエージェントの入札により相対位置に変換されたゴールを取得し、具体的な移動命令を環境に返すことができた。

4. おわりに

柔軟な学習を目指すにはシンボルグラウンディング問題の起きないパターンベースのシステムが有望であり、その実現システムとしてエージェントネットワークを開発した。本稿では契約ネットワークと同様に入札機構を導入し、この機構を利用してエージェント毎の部分的な知識を統合してタスクを実行し得ることを示した。

今後パターンベースドシステムの有効性を高めるためには、競合解消、プランニングなどの機能充実とともに、エージェント内部の学習を可能とするための内部構造の定式化の推進、Matchability技術[6]を利用したエージェント間の接続構造の自律的学習が課題となる。

参考文献

[1] 山川宏、パターンベースド知能システム - 学習から見たシンボルグラウンディング問題の検討 -、RWC情報統合ワークショップ '95, pp.167-175.、1995.

[2] 末広、高橋、山川、エージェントネットワークによる手渡しロボットシステムの構築、第15回ロボット学会学術講演会、2C24、1997.

[3] 藤田、菅原、木下、白鳥、分散処理システムのエージェント指向アーキテクチャ、情報処理学会, Vol.37, No.5, pp.840-852, 1996.

[4] 岡哲資、稲葉雅幸、井上博允、ビヘービアネットによる自律ロボットの階層的運動システムの設計.日本機会学会ロボティクス・メカトロニクス講演会'96講演論文集,pp.1361-1364,1996.

[5] 宮本、熊谷、エージェントネットによる自律分散型生産システムのモデル化と制御.日本ロボット学会, Vol.15,No.6, pp.823-826, 1997.

[6] 山川宏、認識システムの内部構造獲得のためのMatchability指向の特徴選択、信学技報、PRMU96-12、vol.96, no.41, pp.1-8, 1996.