Abstract: The mobile robot that has infrared sensor to all directions is simulated. The partial situation that detects near the wall is autonomously acquired by the situation decomposition technique based on matchability criterion.
Key Words: Situation Decomposition, Matchability, Mobile Robot, Learning
RWCP自律学習機能富士通研究室では、RWCP実世界知能領域として、移動エージェントを題材とした自律学習機能の研究を進めている。自律学習機能の一つとして、予測能力を向上するために情報を再利用しやすい規則性の高い部分情報に分解する技術が必要である。そこで我々はMatchabilityという新しい評価基準と特徴量の選択を含む状況分解手法の提案を行っている[1]。
一方、事務室内の移動ロボットにおいてはナビゲーション等のために、ロボット自身が「壁の近くにいる」、「ドアの近くにいる」などの状況を把握する必要があるが、状況の分割自体は設計されることが多い。そこで近年は強化学習やリカレントニューラルネットを用いて状況の分割を自律的に行う研究例がある[2][3][4]。我々はこの課題にに対して特徴選択を同時に行う上記のMatchabilityに基づく状況分解技術を適用する。
本報告では全方位に赤外線センサを備えた移動ロボットNomad200が計算機実験において壁に囲まれた室内を移動して収集したセンサ情報を分析して壁際の状況を抽出する基礎的な実験を行ったので紹介する。
Matchability基準は「経験は常にマッチングを通して利用されるので、マッチング機会の多さを利用して再利用性を見積もる」というモデル選択基準である。
状況分解は図1に示すように与えられたイベントと特徴量のマトリックスである全体状況から、後述するMatchability基準が極大値となる複数の規則性の高いMatchable状況を抽出する。
図1: 状況分解は複数のMatchable状況を抽出する
まずN個の特徴量からなるイベントをD個保持する全体状況を考え、この中から任意の特徴量とイベントを選択するベクトルをd, nとする。
d = (d1, d2,…,dD): 特徴量選択ベクトルn = (n1, n2,…,nN): イベント選択ベクトル
ベクトル要素di,niは選択/非選択の二値情報であり、選択された特徴量の数をd、選択されたイベントの数をnとする。また、全ての特徴量が選択するベクトルをDとし、全てのイベントを選択するベクトルを Nとする。
状況分解は与えられた全体状況J=(D, N)に含まれる2D+N個の部分状況J=(d, n)の中から、特定の性質を持つ複数の部分状況を抽出する処理である。今回の定式化では、各特徴量はsi個のセグメントに分割されるものとし、そのセグメント数のベクトルをs=(s1, s2,…,sD)とする。
特徴量選択ベクトルdにより指定する部分特徴量空間内には、選択された特徴量毎のセグメント数の積である個のセグメントが存在する。この部分特徴量空間内における任意のセグメントの選択を表わすベクトルをrdとする。
rd=(rd1,rd2,…,rdSd): セグメント選択ベクトル
ベクトル要素rdiは選択/非選択の二値情報であり、選択するセグメント数をrd(0 < rd ≦ Sd)とする。よって部分状況はJ=(d, rd)として指定する。ここで選択したセグメントに含まれるイベントは全て選択する(そうしない場合は必ずMatchability基準による評価を減少させるので)。
Matchability基準は以下の3因子を含む。[イベント数増加因子]マッチングするイベントの数が多いほど信頼性が高い、これより選択イベント数nを増加させる。[特徴量数増加因子]特徴量間の相互予測性を高めるために、多くの特徴量を含んでいる部分状況が良い、これより全セグメント数Sdを増加させる。[構造化因子]多くのイベントが局在するエントロピーが小さい部分状況が良い、これより選択セグメント数rdを減少させる。
C1, C2, C3 は正の定数
n/N :部分状況に含まれるイベント数の比率 n/rd:セグメント毎の選択イベント数の平均値
rd/Sd:部分特徴量空での選択セグメント数の空間占有率
移動ロボットに対する課題は図2に示すように、左側に壁がある部屋で収集した赤外線センサ情報から壁際状況を抽出することである。
[壁際状況]壁が見えるイベントと壁方向の特徴量の組み合せからなる部分状況
環境のシミュレーションにはNomad200に付属するシミュレータ(Nserver)を利用した。ロボットの全周には16個の赤外線センサが配置され、各ビーム方向に存在する対象物体までの距離を測定する。距離が 0〜762mm のレンジでは50.8mm毎に0〜14の整数値が得られ、それ以上の距離に関しては15が得られる。移動ロボットは図2に示す壁から離れる975mmの区間の直線上に存在する40個の測定点上で方向を変えずに10回づつセンサデータを取込む。これにより400個のイベントが収集される。
本実験では16個のセンサ中で3〜12番目の10個を利用する。壁に対向していない8〜12番目の5つのセンサには外乱を仮定して[0,15]の一様乱数を与える。また、実験状況とは全く関連のないセンサ情報を受け取る場合を想定した全てのセンサに一様乱数を与える20個のイベントを追加し、合計420個のイベントを作成した。
以下に実験条件を示す。カット処理の場合には、既に抽出したイベントを無視して状況分解処理を繰り返す。
|
カット処理無 |
カット処理有 |
C1=1.0 C2=0.3 C3=0.7 |
|
|
C1=0.5 C2=0.2 C3=0.1 |
|
|
図2: 実験設定 (距離の単位はmm)
2(420 + 10)個存在する部分状況の組み合わせ中から表2に示すように数個のMatchable状況が抽出された。実験1において壁際状況は抽出されない。実験2では壁際状況が2つに分裂した。実験3では壁が見えない110個のイベントを含む不完全な壁際状況が抽出された。
実験4では図3にも示すように壁際状況の抽出に成功した。その他の4つの状況は一つのセグメントを選択する(rd=1)起こり易い静的な状況である(デフォルト状況)。この状況も知識の一部だが、行動に直接に利用するのは難しい。 またこれらの状況間にはイベントと特徴量の包含関係を相互に逆向きに持つ階層関係が存在する。
|
|
|
|||
|
|
|
|
||
実験1 |
|
|
|
|
|
実験2 |
|
|
|
|
|
|
|
|
|
||
実験3 |
|
|
|
|
|
実験4 |
|
|
|
|
|
図4 実験4で抽出された5つのMatchable状況
我々が研究を進めているMatchability基準による状況分解手法を実世界に適用可能なレベルに高めるための最初のステップとして、移動ロボットにおいて状況の分割を自動的に行う課題の計算機実験を行い、単純化された環境では壁際状況を自動的に抽出できることを確認した。
今後は壁以外の方向からのセンサ情報の外乱をより現実的にシミュレートすること、左側の以外の壁も同一の壁際状況として分類すること、などを検討する。
本研究の推進にあたりRWC自律学習機能WGの松井氏(電総研)、浅田氏(阪大)、稲葉氏(東大)、油田氏(筑波大)、Zelinski氏(ANU)らとの有意義な議論に感謝いたします。
2) J. Tani, S. Nolfi: Self-Organization of Modules and Their Hierarchy in Robot Learning Problems: Dynamical Systems Approach. Sony CSL Technical Report, SCSL-TR-97-008, 1997.
3) 浅田,野田,細田,: ロボットの行動獲得のための状態空間の自律的構成, 日本ロボット学会誌,Vol.15,No.6,pp.886-892,1997.
4) 鮫島,大森:,: 強化学習における分割による自律的状態空間構成法, 日本神経回路学会第8回全国大会講演論文集,pp.73-74,1997.