予測と現実:ロボットが経験に基づいて行動を変更する仕組み

ロボットの思考を探ることで私たちの予測の基底にある神経ネットワークを解明している谷淳教授は、日常生活の予測不可能な状況から、私たちが未来に関してどのような予測をしているかが分かると述べています。

この度、谷淳教授の研究に対して、Google Asia Pacific社より使途の制約を設けない3万米ドルの寄付が行われました。沖縄科学技術大学院大学(OIST)より、Google Asia Pacific社に感謝申し上げます。

人類は常に、自己を定義するものが何であるか、何が私たちの意思決定、世界認識、自己意識の原動力となるのかを問い続けてきました。これらの疑問に対する確固とした答えはありませんが、それを探究する方法は多岐に渡ります。沖縄科学技術大学院大学(OIST)の谷淳教授の研究は、このような疑問に基づいています。非常に哲学的に聞こえる研究ですが、神経科学、コンピュータサイエンス、数式、そしてなんと、ロボットまでもが関わっています。谷教授は、身体性認知と心の原理を理解することを目的とする認知脳ロボティクス研究ユニットを率いています。そしてその研究手段として、人間を模倣したロボットを作製し、それによって自己を定義する基盤となる神経力学を理解できるようになるのではないかと考えています。

ロボットを使用して意思決定の基底にある神経ネットワークを解明しようとしているOISTの認知脳ロボティクス研究ユニットのチーム。

谷教授は、日常生活において、私たちは予測を裏切られるような状況によく遭遇すると述べ、次のように説明しています。「私の研究ユニットでは、このような予測不可能性に対処できるロボットのモデルを開発しています。私たちの研究によって、ロボットはお互いの行動をより正確に予測する方法を学び、より現実的な形で相互作用するようになる可能性があります。また、同研究では人間が観察に基づいてどのように行動を変更するのかにも注目しています。さらに、同研究によって自閉症スペクトラム(ASD)の根底にある認知的要因が明らかになる可能性もあります。ASDの人は、誤りや不慣れな社会的相互作用を避けるために、同じ環境に繰り返し接することを好むことが多いからです。」

本研究の根底にあるのは、カール・フリストン博士が提唱する「自由エネルギー原理」で、「すべての生き物は、予測と現実の誤差を最小化する必要性に突き動かされている」というものです。言い換えれば、自由エネルギーとは、私たちが予測する状態と、自身の感覚器によって知覚する状態との間に起こる誤差のことです。この誤差を最小にすることで、驚きの度合いを最小限に留めることができます。この誤差の最小化は、何千年にもわたる自然淘汰によって行われる場合もあれば、何ミリ秒で個人の認識において行われる場合もあります。そしてそれは、最も小さな単細胞生物から人間社会に至るまで、すべての生体系で発生します。

谷教授はこの概念に基づき、私たちがボトムアップで知覚するものと、それをトップダウンで予測するものとの間では、常に押し引きの調整が行われているのではないかと推測しています。これは、一方が強く出ると、もう一方が引くことで調整するということです。私たちの予測が非常に強いときには、自分が知覚しているものを無視し、逆に、知覚するものが強すぎるときには、予測に変更が生じます。

谷教授は、次のように述べています。「予測と知覚する情報が一致しているときは、すべてがうまくいきます。しかし、両者の間に対立が生じると、その調和は崩れてしまいます。このとき、その系における自由エネルギーに関する対立を最小限に抑える必要があります。この自由エネルギーを最小化する労力によって、その系に「意識」が生まれるのではないでしょうか。意識の中では、私たちの予測と外界から知覚する情報は、分離可能なものとみなして分析することができます。」

この概略図は、世界に予知的に行動を伴い作用するトップダウンの経路(青い線)とその結果を知覚認識するボトムアップの経路(赤い線)を示しています。 これらの2つの経路は、それらの密な相互作用によって交じり分離不可能になります。Tani (1998)より引用。

自由エネルギー原理の認知的基盤を解明するため、谷教授と研究ユニットは、抽象的な脳モデルを開発しました。「PV-RNN」と呼ばれる同モデルは、広範な空間と時間におけるパターンを学習し、予測し、認識する際の自由エネルギーを最小化するもので、AppleのSiriやGoogleの音声検索など、さまざまなディープラーニング(深層学習)アプリケーションで使用されているモデルに類似しています。

研究チームが同モデルにw(meta-priorとも呼ばれる)というパラメータを追加で組み込むと、予測に興味深い影響が出ることを発見しました。Wの値を高く設定すると、ネットワークは次に知覚する情報(または動作)を決定的なものとして予測する傾向がありますが、wを低く設定すると、予測は非決定的なものとしてなされます。つまり、wによって世界は決定論に従う確実なもの、または非決定論に従う不確実なものと、その認識が変わります。これは、私たちの日常生活において、自己を含む世界に対する確信度が、神経化学物質によって調節されている可能性を示唆しています。

本ユニットではこれまでに、wの値を変えることで、2台のロボット間の相互作用や、結論を出し行動を変更する方法においてどのような影響が出るかを調査してきました。実験では、2台のロボットに、規則性もランダム性もある、それぞれ異なる動きのパターンを学習させました。その結果、ロボットが自己の学習したパターンに従うのか、相手の動きを観察して予測して合わせようとするのか、あるいはその中間なのかが、wの値によって決定づけられることを発見しました。wの値が大きいとき、ロボットは相手を無視して自信を持って自己の動作を行います。wの値が低いと、ロボットは自分の意図するパターンに自信も持たず、相手の動きを真似ようとします。このように、追加パラメータは、社会的認知環境にいて先導的または追従的行動を取るタイプに発達するのかを左右します。

これを踏まえて、同じモデルを実装したヒューマノイドロボットを使って、人間とロボットの相互作用についても研究を進めてきました。これにより谷教授と研究チームは、人間の心理状態とロボットの「神経状態」の両方を調査することができました。

博士課程学生であるナディン・ウィルクティスさんと谷教授は、ロボットの相互作用を調査する3つの実験を用意し、その学習プロセスに追加のパラメータwを導入した。その結果、meta-priorと呼ばれるwの値によって、ロボットが自身の意思に基づいて動作を行うか、知覚による観察に基づいて動作を行うかが決定されることが分かった。wの値を高く設定すると、ロボットは自身の意図だけに従うようになり、逆にwを低く設定すると、観察した相手の動きに従うようになったという。研究チームは、両者のwをある範囲内での同じ値に設定した場合、ロボット達が自発的に先導と追従を互いに切り替える状況が生まれることを観察した。
元ポスドク研究員のHendry Chame博士がヒューマノイドのToroboと物理的に相互作用する。

谷教授は、次のようにまとめています。「これらのシミュレーション実験の結果などから、PV-RNNは、wの設定に応じて内省のための認知メカニズムを発達させることができることがわかりました。このモデルは、ロボットにメタ認知能力を与えます。つまりロボットは、自身の身体性認知や社会的認知の知覚情報を予測する際のその確信度をモニターすることができるのです。」

広報・取材に関するお問い合わせ:media@oist.jp

シェア: