注意のモデルと強化学習

- 前頭葉-大脳基底核における注意の学習メカニズム -

山川宏岡田浩之渡部信雄松尾和洋

（新情報処理開発機構自律学習機能富士通研究室）

概要

前頭葉の一部を損傷した患者はウィスコンシンカード課題のようなカード分類課題において状況の変化に対して強い固執性を示すことが知られている。我々は、このような症状が分類基準の変更という状況の変化に応じて、適切な色や形、数といったモダリティへ注意を変更する機能が損なわれた結果であると考え、状況に応じてモダリティへの注意を切り替える強化学習モデルを提案し、前頭葉損傷患者における固執性を説明する。

キーワード

注意、状況、強化学習、嫌悪性刺激、ウィスコンシンカード課題、固執性、前頭葉、大脳基底核、エージェントネットワーク、マッチアビリティ

1. はじめに

次世代情報処理基盤技術開発(RWC: Real World Computing)では従来の情報処理技術に情報統合・学習型情報処理能力（実世界知能）を付加するための基盤技術を開発し、情報処理の応用分野の拡大を図ることを目的に実世界情報知能技術 (RWI: Real World Intelligence)の研究を進めている。RWIが掲げる目標は実世界の情報をそのままの形で受け取り、環境や状況を認識または推測し、自律的に応答する事ができる情報統合・学習型情報処理システムに必要な要素技術の開発であり、それには、情報統合技術と学習・自己組織化技術が重要であると考えている。

我々は実環境を自律的に移動し、センシングや対話等を通じて環境と自らをとりまく情報を収集し、学習することのできるシステムの実現を目指している。自律的な情報収集によって学習するシステムは、実世界からの情報を受け、行動の計画を立案し、自発的に次の情報源を探索する、というサイクルを繰り返し実行する。このようなシステムにとって複数のモダリティの統合的学習機能と自律的な情報収集が重要である。

ヒトは複数のモダリティの情報を常に取り込み、その場その場で適切な情報へ注意を向ける自律的な情報収集能力を有している。つまり、異種情報統合などに見られる注意の機能がヒトの高度な知的活動を実現していると言うことができる。我々は、ヒトの脳における知見から、特に状況に応じて利用する情報を切替えるためのスイッチング機構が重要であると考え、注意を用いてこれを実現する強化学習モデルの研究を行っている。

以下では、初めに2章でウィスコンシンカード課題で観察される、前頭葉損傷患者の状況の変化に対する固執性について延べる。3章ではマッチアビリティを利用した状況の抽出、注意および強化学習について述べ、状況に応じた注意の切り替えとその学習の重要性を論じる。4章ではエージェントネットワークを利用したモデル化について説明し、提案する学習モデルとヒトの脳との比較を行う。最後に5章でまとめを行い、今後の研究方針について述べる。

2. 前頭葉損傷患者に見られる状況の変化に対する固執性

前頭葉の一部を損傷した患者はウィスコンシンカード課題のようなカード分類課題において状況の変化に対して強い固執性を示すことが知られている。[1]

ウィスコンシンカード課題ではFig.1に示すような色、形、数の４種類の組み合わせからなる１２８枚のカードを用意し、被験者は手持ちの反応カードを4枚の分類カードの何れかの下に置くよう指示される。被験者は実験者から与えられる分類の当否の情報だけで、色、形、数の何れかの分類基準に従って正しい刺激カードを選択するように学習をする。たとえば、Fig.1の場合、青い三角が二つある反応カードを形で分類すれば１の刺激カードが正解となり、数で分類すれば２の刺激カードが正解になる。また、色で分類すれば4の刺激カードが正解になる。10回続けて正解すると、実験者は分類の基準を色から形、あるいは数のように変える。その時、被験者には分類の基準を変えたことは示さないので、被験者は以前の分類基準でカードを選択するため正解と思って選択したカードが不正解であると判定されてしまう。

前頭葉損傷患者は実験開始直後の初めの分類基準は学習することができ、実験者の決めた正しい基準に従ってカードを分類することができるようになる。しかし、10回連続して正解した後、実験者が分類基準を変更すると一般の被験者が新しい分類基準を新たに獲得することができるのに対して、前頭葉損傷患者は以前の分類基準に固執し、正しくカードを分類することができない。

ウィスコンシンカード課題において初めの分類基準は獲得できることから考えて、前頭葉損傷患者がカードを分類する能力自体を失ったのではないことは明らかである。では、患者は何が障害されたためにタスクの途中で切り替わった新しい分類基準を獲得できなくなったのであろうか。

我々は、このような症状が分類基準の変更という状況の変化に応じて、適切な色や形、数といったモダリティへ注意を変更する機能が損なわれた結果であると考え、状況に応じてモダリティへの注意を切り替える強化学習モデルを提案し、前頭葉損傷患者における固執性を説明する。

Figure 1. ウィスコンシンカード課題

モダリティへの注意を変更するには不正解による嫌悪性刺激が重要である。課題遂行の初期段階においてどの分類基準も獲得していない場合は、偶然の選択によって正解した際に得られる報酬性刺激の繰り返しで学習が進み、分類基準を獲得する事が可能である。それに対し、途中で分類基準が変更された時は不正解したことによる嫌悪性刺激がモダリティへの注意を変更する動機付けとなる。つまり、前頭葉損傷患者に対するウィスコンシンカード課題からの知見から前頭葉は注意の学習において、嫌悪性刺激に関係が深いと考えられる。

3. 状況、注意、強化学習 - 状況に応じた注意の切替えとその学習－

ウィスコンシンカード課題などのように、状況に応じて異なる行動選択を行う必要があるシステムにおいては、状況毎に対応する部分システムを融合したほうが設計・学習などの点からみて効率が良いと思われる。我々は、機能モジュール、大脳皮質領野、エージェントなどと呼ばれる部分システムの集合体として機能する知的システムを前提として研究を行う。

3.1 Matchable状況を選択する

状況を事例と特徴量の全体集合の中から、特定の部分事例と部分特徴量を選び出した部分集合であると考る。すると、ウィスコンシンカード課題において、部分システムが扱うべき状況とは、環境からの入力と報酬とに特定の関係が存在するモダリティーに付随した状況であろう。行動決定に有用な状況とは、予め蓄積した情報と新たに入ってきた情報とがマッチングする機会を増大させるような状況である。つまり、このような状況を選択すれば知的エージェントが過去の経験を推論や行動決定に再利用しやすくなる。

我々は、このような性質を持つ状況をMatchable状況と呼ぶことにし、この抽出手法をMatchability指向の特徴選択［2］を発展させることで研究中している。Matchableな状況においては、その内部において学習すべき冗長度が高く、しかもできるだけ多くの特徴数と事例数を含むことで利用価値が高まるだろう。なお、状況の選択は特徴量の選択も含むので複数のモダリティー間を結合するインターモダールな構造生成の学習アルゴリズムであると考えることもできる。

以下に、現状におけるMatchable状況の定義についてまとめる。

状況＝事例と特徴量の任意のサブセット

文脈状況＝相対エントロピーが小さい(冗長度が高い)状況

Matchable状況＝エントロピーが小さく、特徴数が大きく、事例数が大きい状況

＝相対エントロピーが小さく(冗長度が高く)、事例数が大きい状況

＝できるだけ事例数が大きい文脈状況

＝ Matchabilityの極大点となる状況

Matchability ＝エントロピー、特徴数、事例数を統合した評価量

3.2 注意について

3.2.1 なぜ注意が必要なのか（その導入目的）

認知科学において注意の機能が情報の選択である点については議論はほぼ一致するが、その必要性の起源として、「脳の処理能力が限界容量」と、「行動のための選択」の何れかについては別れている。

今回の我々の立場は後者であり、注意の必要性は、状況に応じて利用する情報を切替えるためのスイッチング機構の必要性に基づく。

スイッチング(情報選択)機構の必要性

この課題ではカードの同一性の判断を状況に応じてモダリティを切替えつつ、最終的にカードを置くという一定の行動に結び付る。このように異なる入力を同一の動作に結び付るには内部機構の何れかの段階に状況に依存する認識機構から依存しない動作機構へのスイッチングが必要となる。

スイッチング無しでは動作部分を再利用できないので、例えば色によって分けるための手と形によって分けるための手を独立に用意することになり、あまりにも非効率的である。

差し替えによるスイッチング機構とその問題点

ある部分システムが他の複数部分システムの異なる内部表現への接続を差し替えるスイッチング機構を考えることができる(Fig.2 参照)。人為的に設計された分散処理システムでは内部表現にセマンティクスが与えられるので差し替えを行うことは容易である。

Figure 2. スイッチング機構の実現形態

しかし、学習能力を高めるためにセマンティクスを極力排除したパターンベースのシステム［3］では、内部情報が標準化されないので、異なる内部表現を同一視できない。(例えば色が同じという内部表現と、形が同じという内部表現は異なる)

よって、この種のシステムでは、差し替えによるスイッチングは想定不能である（エージェントネットワークにおいても同じ）。ちなみに生体の脳を考えた場合はおそらく部品の性質上短時間で接続を差し替えるることは難しいであろう。

同時参照とフィルターリングによるスイッチング

そこで、ある部分システムが他の複数の部分システムに同時に接続する(同時参照)と共に、それらを状況に応じてフィルターリングする方法でスイッチング機構を実現する。つまり、我々は、注意はスイッチング機構のフィルターリング制御のために必要であると考える。

3.2.2 注意信号の性質

我々が取り扱う注意信号の性質について述べる。ここでは外界からの入力それ自体、および、それが変化を受けた情報を状態情報と呼ぶことにする。

(1)注意の機能は状態情報をフィルターリングすることである

(2)注意は内的な行動である

(3)注意の粒度は状態の各要素毎または部分システム毎に与えられる(詳しくは後述)

(4)注意は状態のように変換されて伝播されることはない(予測は伝播する)

(5)注意同志の競合はWinner take allなどの局所的な処理により解消される

ウィスコンシンカード課題において、ここでの注意は、モダリティの選択という内的な行動であり、各認識エージェントの出力の有効性を制御することでフィルターリングする。

3.3 評価の機構と注意の学習

本稿での興味は、状況の変化に応じて注意するモダリティを切替える機能を強化学習により獲得することにある、よってタスクの成否に応じて報酬／罰を与える評価機構も付け加えられている。本稿では評価の機構は与えられたものとし、タスクの成否に併せて直ちに評価が行われる単純なものを仮定する。

注意生成エージェントが注意を与える行動は学習前にはランダムに行われるが、評価に基づいて成功した注意行動が強化される。つまり課題遂行の初期段階では、偶然に正しいモダリティに注意を向けて正解した際に得られる強化信号の繰り返しで学習が進み、妥当な注意行動が獲得される。よって、選択基準のモダリティが変化しない単一状況のもとでは（たとえば、色にだけ注目して選びつづければ良いような場合）、次第に正しい注意およびそれに基づく行動を学習する。

3.4 後向きの強化学習

ウィスコンシンカード課題において、前頭葉損傷患者ははじめの一度だけ状況に適応することに成功するが、状況の変更に追従できない強い固執性を示すことを詳しく検討してみる。

一度目の状況に対して正しい注意行動獲得するには評価が増加した直前の行動を強化できれば可能であるが、変化した状況に適応するにはすでに獲得した注意行動を評価の減少時に変更させることが必要となる。つまり、前頭葉損傷患者のモダリティに対する固執性は、評価の減少に伴う学習における障害と考えられる。

そこで、我々は評価が減少したときに起きる逆向きの強化学習に注目して研究を進めることにする。評価が増大するときには単純に直前の行動を強化すれば良いのに比べ、評価が減少する際の強化規則は単純には定義できない。

ここでは、すでに検討した評価減少時のにおける強化規則について羅列するに留める。

(1)脱強化（忘却)

評価減少時に行う行動のランダム性を増大させて、強化された行動を忘却する。

(2)逆強化（逆のパターンを強化する）

評価減少時の直前行動に対するパターン的な反対行動を強化する。

(3)失敗否定（失敗した行動だけを否定する）

評価減少時の直前行動の選択確率を減少させて、同じ失敗を避ける。

4. エージェントネットワークを利用したモデル化

4.1 エージェントネットワーク

エージェントネットワークはニューラルネットワークのように接続された高機能のエージェントによるネットワークモデルで、これまで筆者らが知的ロボットシステムなどに適用してきた［4］。

柔軟な学習能力の実現を目指すエージェントネットワークでは設計者が外部から与えるセマンティクスを極力減らしているので、エージェント間の通信は実数値のベクトルのみとした環境に対する認識システムの構成をとっている。また、通常システム内の一部のエージェントのみが動作するので、非動作時の情報は無効である。これを表わすために通信される情報には有効値(Validity)が付加されている。

各エージェントの通信単位となるノードには以下の3種類がある。

Special node(S-node) 活動度など予め意味付けされた情報のノード。

Branch node (B-node) そのエージェントが生成、管理している情報のノード。

Leaf node (L-node) 他のエージェントが生成、管理している情報の入出力用のノード。

これらのノードはそれぞれ、レイヤをもっており、

State layer: 外界からの入力それ自体、および、それが変換を受けた情報

Goal layer: 実現したい状態を表わす

Attention state layer: B-nodeにおける注意の現状

Attention goal layer: B-nodeにおいて実現したい注意の状態

Figure 3. エージェントの構造

エージェント間の接続はB-node(S-node)とL-nodeとの間でなされる。各エージェントは、他のエージェントから与えられたGoalを実現するように動作を行う。

4.2 ウィスコンシンカード課題に対するモデル化

ウィスコンシンカード課題をシミュレートするモデルとして色、形、数を認識するエージェントとその情報を統合するエージェントおよび注意生成エージェントによってエージェントネットワークを構成し、さらに評価機構を設置する。認識エージェントは、モダリティー毎に認識結果を出力する、例えば数エージェントは画像中のオブジェクト数を出力する。タスク状況エージェントは各認識エージェントの出力に対して、フィルターリングを行う。注意により状況を切替える部分を中心にモデル化を行っている。比較結果を利用する行動系のエージェントなどは省略している。

Figure 4. エージェントネットワークによる注意のメカニズム

(A)エージェントネットワーク

(A-1)タスク状況エージェント

認識エージェントの出力の有効性を制御する、評価が上昇したときの注意の与え方を強化する。

(A-2)比較判断エージェント

各認識エージェントの結果を統合して、認識中のカードの変化を検出する、無効な認識情報に関しては無視する。

(A-3)画像エージェント

(A-4)色認識エージェント

(A-5)形認識エージェント

(A-6)数認識エージェント

(B)評価系

環境や様々なエージェントの情報から評価信号を生成するが、今回の課題では環境から直接報酬が与えられるものとする。

4.3 注意とその粒度

注意の粒度としては２つのレベルを考えている。一つ目には状態の各要素毎に注意を与える細かい注意、二つ目にはエージェント(部分システム)毎にあたえる注意である。細かい注意を与える必要があるのか、逆に注意の粒度を大きくして不都合が無いか等の議論を含めての検討は、今後の検討課題とし、今回は両方のモデルについて紹介する。

何れの場合でも、注意によりマスキングされた部分の状態情報の有効値が0となることで、その状態情報が無効化される。例えば色認識エージェントがマスキングされた場合には比較判断エージェントから見るとナトリウムランプの下で見ているように色の情報が無くなってしまうのである。

(A) 注意レイヤを導入する(荒い注意)

Figure 5. 2種類のウィスコンシンカード課題

左図: 注意レイヤを用いた場合、右図: 活動度を用いた場合 (A:活動度)

あるエージェントの活動度のゴールレイヤが、他のエージェントのL-nodeゴールからの書き込みにより低下させられると、その活動度の状態レイヤは直ちに低下してエージェント自体が停止サイクルになる。停止サイクルではB-nodeの状態情報はすべて無効化される。

　

(B) エージェントの活動度を制御する（細かい注意）

あるエージェントのB-nodeにおける注意のゴールレイヤが、他のエージェントのL-nodeゴールからの書き込みにより活性化されると、同じノードの注意の状態レイヤは直ちに活性化される。引き続き同じノードの状態レイヤの情報が無効化される(有効値が０となる)。

　

4.4ヒトの脳との比較

ここでは、提案する学習モデルとヒトの脳の機能との比較を行う。提案するモデルの基本的なアイデアは注意の機構に関する次のような生理学からの知見による。

特定のモダリティに対応する大脳皮質領野が存在する

注意は皮質領野の選択的な活性化である

辺縁系で価値判断を行っている

大脳皮質は特定のモダリティに関して領野毎に機能分化し、外界の複雑な環境変化に対応する外的なシステムであり、一方、辺縁系における価値判断システムは主に身体状況への適応を担っている内的なシステムであると考えることができる。

Edelman[2]はこれら二つの異なるシステムが進化の過程でリンクすることによってヒトの学習機能が発達したと述べている。すなわち、学習は辺縁系で生じる価値を満足するように行動を適応的に変化させることと考えられる。

Figure 6. 大脳皮質・大脳基底核・視床を巡る回路

Fig.6はヒトにおける大脳皮質、大脳基底核および視床を結ぶ信号の流れを図示したものである。大脳皮質－大脳基底核－視床を結ぶ回路は閉回路になっており、視床は皮質を抑制し、大脳基底核は皮質領野に投射する視床を選択的に脱抑制するので、結果として大脳基底核は皮質を活性化する。この大脳基底核による視床の脱抑制には大脳基底核に強く結合している前頭皮質と辺縁系の役割が重要であり、大脳基底核はドーパミン神経細胞から放出される強化信号を利用して、強化学習を行っているとの報告もある。

今回提案した注意の学習モデルでは、エージェントネットワークは、皮質と大脳基底核の両方を含む。注意のレイヤ有りの場合、大脳基底核はLeaf goal → Branch attention goal → Branch attention state → Branch state validity の路上に相当する。注意レイヤ無しの場合でも同じように対応させることもできるが、むしろ、各エージェントの活性ノードが大脳基底核に終結していると考えることも可能である。

5.まとめ

本稿では状況に応じて適切なモダリティへの注意を切り替える強化学習モデルを提案した。当モデルは状況毎に対応する部分システムの集合体であり、モダリティに付随して環境から得られる報酬性刺激と嫌悪性刺激との関連により適切な行動を行うように学習することが可能である。さらに、前頭葉損傷患者のウィスコンシンカード課題びおける固執性からの知見により、評価が減少したときに起きる逆向きの強化学習の重要性について述べた。我々は、引き続きMatchable状況抽出のアルゴリズムを開発するとともに、提案したモデルをインプリメントしてシミュレーションする予定である。

今後も我々グループは実世界情報処理発展への貢献を目指して研究を進めるにあたり、当面は特に、状況に応じた注意を利用することで情報統合を行う知的学習システムをターゲットとする予定である。

知的システムにおいて状況に応じた行動を行う能力は情報統合技術の一角を担う重要なテーマである。状況を利用するために、まずは異なる状況を自動的に分類する必要があるが、このセグメンテーションの機能を実現する手段として、我々がこれまでに研究を進めてきたMatchability技術を発展させて利用する予定である。特に制御対象情報と、状況切替え刺激が異なるモダリティに含まれるような場合には、マルチモダルな状況判定が本質的に重要な意味を持つだろう。

さらに、抽出された状況を利用した行動の制御としては表層的な行動のみならず、今回我々が提案したように注意を内部的な行動とみなして制御することも知的能力の実現に貢献すると思われる。注意の制御により選られる主な効果としては、情報のスイッチング、部分機能の処理能力の調整などがあるだろう。

さらにこれらの情報処理機構を環境の変化に対して柔軟なものとするためには、様々な学習機能を盛り込むことが不可欠である。現在我々が主に検討を進めている学習機能は、(1)抽出された状況に対応するエージェント生成を行う学習、(2)注意行動の評価に基づく強化学習、などである。

一方、提案したモデルはシステム構築を目指す多くのニューラルネットワーク研究と同様に、汎用的な知能システムの構築を目指しているので。機能的に構成したモデルから生理学研究に何らかの示唆を与えることも目指している。

参考文献

Milner, B. “Some effects of frontal lobectomy in man”, The Frontal Granular Cortex and Behaviors, pp.313-334, McGraw-Hill, 1964
山川宏、認識システムの内部構造獲得のためのMatchability指向の特徴選択、信学技報、PRMU96-12、vol.96, no.41, pp.1-8, 1996.
山川宏、パターンベースド知能システム ? 学習から見たシンボルグラウンディング問題の検討 -、RWC情報統合ワークショップ '95, pp.167-175.、1995.
末広尚士、高橋裕信、山川宏、エージェントネットワークによる手渡しロボットシステムの構築、第15回日本ロボット学会学術講演会予稿集、Vol.2, pp. 373-374, 1997.
G. M.エーデルマン“脳から心へ”