適応システムグループ

研究の目的

ncu_Adaptive Systems Group 1
ncu_Adaptive Systems Group 2
ncu_Adaptive Systems Group 3

近年の人工ニューラルネットワークや機械学習の発展により、 学習能力を持ったロボットや人工エージェントなどが開発されるようになりました。 しかしロボットにうまく学習させるためには、(1) メタパラメータ、(2) 報酬関数、 (3) 状態表現、(4) 学習アルゴリズムなどを注意深く設計しなければなりません。

実現されている人工システムでは、 それらのパラメータを設計者が試行錯誤を通して設定していましたが、 人間やそれ以外の動物は多様に変化する環境化においても新しい行動を次々と学習しているように思えます。

適応システムグループの目的は、 実際の生物と同じ制約条件を持つ人工エージェントに必要な神経メカニズムを解明することです。

サイバーローデントとは

ncu_Adaptive Systems Group 4

実際の生物と同じ自己保存と自己複製という条件のもとで、 生存し交配するロボット「サイバーローデント」を開発しました。 体長 22 センチ、重さ 1.75 キログラムのロボットで、 全方位視覚システム、近接距離センサ、加速度センサ、 ジャイロセンサなど多様なセンサを持っています。

車輪による移動機構のほかに、三色 LED を用いて内部状態を外部に表出することができます。 サイバーローデントには二つの大きな特徴があります。 一つは自己保存能力で、 前方正面に取り付けられた電極と環境中におかれた電池パックを接触させることで、 自身のバッテリを充電することができます。 もう一つの特徴として、 サイバーローデントは赤外線通信を用いてロボット間で制御プログラムを交換することが可能です。 これは実際の生物における交配行動に対応します。

研究課題

ncu_Adaptive Systems Group 5

私たちはロボティクス、機械学習、統計学習、 計算論的神経科学などの知見をもとにさまざまな事柄を研究しています。 テーマは

  1. 学習器の構造の獲得、
  2. 強化学習におけるメタパラメータの学習および進化、
  3. 報酬関数の学習および進化、
  4. 並列強化学習システム、
  5. 方策勾配強化学習における自然勾配の利用。

出版物

出版物のページを参照ください。

Reinforcement Learning Algorithms

We are developping model-free and model-based reinforcement algorithms for robust and efficient learning.

Tadashi Kozuno, Paavo Parmas, Dongqi Han

Collaborators: Jun Tani, Remi Munos (DeepMind Paris), Masashi Sugiyama (RIKEN AIP)

Deep neural networks achieved remarkable successes in the computer games, where unlimited amount of data can be sampled by simulation, and language and image generation, where huge sample data can be collected from the internet. However, data-efficiency remains a major issue, especially in application of reinforcement learning in robotic control, where physical interactions in nonstationary environments are required. In collaboration with Dr. Remi Munos at Google DeepMind, we performed theoretical analysis of convergence speed of reinforcement learning algorithms and proposed a novel regularization method that realizes stable and efficient convergence (Viellard et al., 2020).

In collaboration with Prof. Masashi Sugiyama at RIKEN AIP, we developed a unified theory of different ways of computing gradients in probabilistic models (Parmas and Sugiyama, 2021) and proposed a new method, total propagation algorithm (Parmas et al. 2018). Based on the theory, we developed a software tool `Proppo` for easy use of the algorithm (Parmas and Seno, 2022).

We further developed a novel architecture combining model-based and model-free reinforcement learning in the variational Bayesian framework (Han et al., 2024) and demonstrated how goal-directed and habitual actions can help each other.

Origins and Designs of Reward Functions

Farzana Rahman, Yuji Kanagawa, Tojoarisoa Rakotoaritina

Collaborators: Eiji Uchibe (ATR)

In reinforcement learning, how to design an appropriate reward/cost functions remain as an open issue. We previously showed that reward functions to facilitate survival and reproduction can be acquired through embodied evolution in a population of “Cyber Rodent” robots (Elfwing et al. 2011).

While survival and reproduction are fundamental properties required for actively persistent creatures, we appear to have rewards that are not directly linked with survival and reproduction, such as curiosity. Understanding the nature of “intrinsic motivation” in humans and animals and formulating a principle for designing “intrinsic reward” for artificial agents are subjects of active research.

We are now exploring how different types of rewards evolve in different environmental conditions in embodied evolution framework including survival, death, and reproduction based on internal energy levels (Kanagawa & Doya, 2024).

Inverse reinforcement learning (IRL) can be a helpful tool for estimating the reward functions used by human subjects and transferring skills to robots. We proposed entropy-regularized imitation learning (ERIL) that combines forward and inverse reinforcement learning (Uchibe and Doya, 2021).

Simulation of survival and reproduction
ncu_Adaptive Systems Group 1

Cyber Rodent

Based on the theories of reinforcement learning and evolutionary computation, we exlored parallel learning mechanisms using a colony of small rodent-like mobile robots, Cyber Rodents.

The Cyber Rodent robot has an omnidirectional vision system as its eye, infra-red proximity sensors as its whiskers, two wheels for locomotion, and a three-color LED for emotional communication. Especially the Cyber Rodent has the specific capabilities of surviving by recharging from external battery packs and reproduction in software by exchanging genes (programs or data) via an infrared communication ports.

Smartphone robots copying genes by showing QR code

Smartphone Robots

Christopher Buckley

Recent smartphones have high computation performance and various sensors in the small body. We developed two-wheeled robots that can achieve dynamic standup and balancing behaviors (Wang et al. 2017) as well as survival by charging from wireless charging bases and software reproduction by showing QR codes.  We are now redesigning the hardware for more reliable operation and efficient energy management.