生成AIがロボットを進化させる フィジカルAIと世界モデルの現在地

SMBCグループの日本総合研究所は、シンクタンク、コンサルティング、ITソリューションを提供する企業だ。その中でも先端技術ラボは、いち早く金融システムに先端技術トレンドを取り入れるべく、中立的・実践的かつ金融地域に限定しないテクノロジー面からの情報発信と提言を行うほか、社会的に発信する価値の高いリサーチ成果を「先端技術リサーチ」として発表している。今回は同社が発表した「生成AIがもたらすロボット技術の進化　-フィジカルAIの動向-」の内容を基に、フィジカルAIの今とこれからを見ていこう。

自然言語でロボットの指示が可能に

　労働人口が減少する中、その解決策として期待が高まっているのがロボットだ。すでに工業や倉庫における作業の自動化や効率化を目的に、産業用途を中心に普及してきたロボットだが、近年は家事や介護といった人々の生活を補助するサービスロボットにも注目が集まっている。

　これらの産業用ロボットやサービスロボットは、同じ動作を繰り返し、精密に行うことに特化しているケースが多い。人間であれば疲労してしまうような作業を24時間継続して行えるという点において、こういったロボットの耐久性には高い価値がある一方で、汎用性は低いという欠点があった。

　そこで注目されているのが生成AIとロボットの組み合わせだ。日本総合研究所先端技術ラボ次長エキスパート近藤浩史氏は「生成AIの登場以降、その能力をロボットに生かすことで、ロボットの能力向上および活用領域の拡大が期待されています。例えば産業用ロボットの場合、固定された環境で目的の動作を行うことがメインですが、LLMの進化によって、自然言語によるさまざまな指示に従って動けるようになりました。将来的には自律的に状況を判断しながら、現実世界と相互作用する形でものづくりを行うことも可能になるでしょう。またサービスロボットの場合、家事を手伝うヒューマノイドロボットのように、人と一緒に共生するロボットも今後生活の中に実装される可能性があります」とその可能性を語る。

ロボット基盤モデルの進化

　こうした生成AI（基盤モデル）の中でも、近年はロボットに特化した「ロボット基盤モデル」（Robotics Foundation Model）が開発され、一つのモデルの中でさまざまなロボットのタスクに対応できる。そのロボット基盤モデルの中でも近年研究が進んでいるのがVLA（Vision-Language Action Model）と呼ばれるモデルで、データを入力するとロボットが次に取るべき行動を出力する。

　近藤氏は「例えば、カメラ映像と自然言語による指示を入力して、ロボットの部位をどれくらい動作させるかを生成し、出力できます。従来、ロボットを動かすには事前にプログラミングしたり、決まった動作を教え込んだりといった事前学習が非常に重要だったため、特定の動作以外の動きを行わせるのは難しかったのです。しかしVLAの進化により、曖昧な指示でも動けるようになりました」と語る。

　こうしたロボット基盤モデルの進展に伴い、注目が集まっているのがフィジカルAIだ。フィジカルAIは、AIをロボットなどの物理的なハードウェアに実装することで、物理的な法則など、実世界を認識および理解し、周囲の環境変化に対応して柔軟かつ適応的にタスクを実行する能力を持つ。

「一般的には賢いロボット＝フィジカルAIのようなイメージがありますが、実態は異なります。フィジカルAIはあくまで物理法則を理解し、その環境を理解して動くことができるソフトウェアです。そのため代表的なヒューマノイドロボットだけでなく、自動運転なども、物理法則を理解して動作すればフィジカルAIが搭載されているといえるでしょう」と日本総合研究所先端技術ラボスペシャリスト伊藤蓮氏は指摘する。

　フィジカルAIや生成AIを搭載したロボットの活用事例として、近藤氏は「例えば工場のラインなどで使われているアームロボットがありますが、従来であれば特定のものしかラインに流せなかったところを、フィジカルAIを活用することで多品種が混在する環境でも適切にその物体を認識し、どのようにつかんだらいいかを理解してピッキングできたそうです。また、食材はそれぞれ柔らかさや形状、水分量が異なるためロボットがつかむ作業が行いにくいのですが、ある食品加工会社で導入されたChef Roboticsのロボットは、フィジカルAIを活用することでこのような食材のばらつきに対して、適切な力ですくったりつかんだりといった作業が可能になったそうです」と語る。特に製造業ではもともと産業ロボットの活用が進んでいたこともあり、フィジカルAIの活用が他の業種よりも先行して進む傾向にあるようだ。

　フィジカルAIによる周囲の環境に応じた適応的なタスク実行能力は、製造業の主流になっている多品種少量生産に向いている。多品種少量生産は、一つの工場の中で多種多様な製品を少量ずつ、顧客のニーズに合わせて製造する方式のことを指すが、多様な品種の製品を作るためには、それぞれの製品に最適化されたプログラミングが求められるなど、負担も少なくない。しかし、フィジカルAIが実装されたロボットアームが使われるようになることで、異なる製品が流れてきてもそれぞれの製品に適した動作を自律的に行えるようになり、作業効率を向上できる可能性があるだろう。

出所：日本総合研究所先端技術ラボ「生成AIがもたらすロボット技術の進化-フィジカルAIの動向-」

世界モデルと行動判断

　フィジカルAIの活用用途として伊藤氏は、警備・巡回ロボットを挙げた。「Boston Dynamicsなどが開発しているSpotのような四足歩行ロボットは、工場などの施設の定期巡回や警備などの用途で用いられています。四足歩行のロボットは階段や段差を超えられるため、タイヤなどで走行するロボットと比較してさまざまな場所の警備に向いていますし、人間が入れないようなところの警備も行いやすいでしょう。フィジカルAI実装を期待されているのはヒューマノイドロボットのような二足歩行の人型ロボットですが課題も多いため、当面は四足歩行ロボットやアームロボットなどへの実装が先行するでしょう」（伊藤氏）

　今後のフィジカルAI実装に向けて期待されているのがロボット基盤モデルの性能向上だ。一方で課題もある。「ロボット基盤モデルの性能向上に欠かせない生産ラインのデータは工場の中に閉じられているため、学習データが集めにくいという課題があります。ロボット基盤モデルの性能向上においてこのデータは欠かせない要素の一つです。このデータの収集元として一番注目されているのはシミュレーションの活用です。仮想環境でロボットを動作させ、データを収集することで、実環境のロボットの動きに転用する手法です。仮想環境上での物理的な特性の再現には限界もあるため、そのギャップを埋めるための研究も続けられています。また、世界モデルを活用する研究も進められています。今のAIの課題の一つに、現実世界をきちんと認識していないことが挙げられています。この世界モデルは『外界（世界）から得られる観測情報に基づき、外界の構造を学習によって獲得するモデル』です。例えばボールが落ちると次はこう跳ねるといったような、現実世界の物理法則をAIが理解できるようにすることを指します。この世界モデルを用いることで現時点での観測情報を元に、周囲の環境の物理的な構造を理解し、未来や未知の事象を予測できるようになると期待されており、現在注目が集まっています」と近藤氏は語った。

　将来的にはフィジカルAIの進展によって、ロボットが複雑な判断を下すことが可能となり、また複雑な機能を実現可能となると想定されている。これにより、従来のロボットが多用されていた産業用途での利用のみならず、医療・介護、家庭など多様なユースケースでの活用が期待されている。