インサイト

⑥ Google Gemini RoboticsとNVIDIA Newton：フィジカルAI革新の最前線

Superb AI Japan

2026/03/16 | 7 min read

近年、GoogleやNVIDIAをはじめとするグローバルテクノロジー企業の発表は、単なる新製品の公開にとどまらず、「フィジカルAI（Physical AI）」時代の本格的な到来を示す重要な転換点となっています。これは、知能を備えたロボットや自律システムを大規模に開発するための基盤が整いつつあることを意味しており、フィジカルAIが研究段階の技術から、産業構造を変革する新たな潮流へと発展していることを示しています。

では、フィジカルAIとは何でしょうか。

フィジカルAI（体現型AI、Embodied AI）とは、単にデジタル空間で動作するAIではなく、ロボット、ドローン、自動運転車など物理的な「身体」を持つシステムが現実世界と直接相互作用する技術を指します。カメラやLiDARなどのセンサーによって環境を認識し、高度なAIモデルによって状況を推論し、モーターやロボットアームといったアクチュエータによって行動を実行します。この認識・推論・行動の循環によって、機械は現実世界の複雑で予測困難な課題に対応することが可能になります。

この市場の潜在力は非常に大きいものです。ゴールドマン・サックスはヒューマノイドロボット市場が2035年までに380億ドルに達すると予測しており、モルガン・スタンレーは2050年には5兆ドル規模に成長する可能性があると見ています。これは、今後のフィジカルAI分野における技術競争の規模がいかに大きいかを示しています。

GoogleとNVIDIAの最近の発表は、直接的な競争というよりも、フィジカルAIエコシステムを支える二つの基盤を構築する取り組みと捉えることができます。一方はロボットの「知能」を担う基盤を提供し、もう一方はロボットが学習し成長するための「環境」を提供しています。

1. Google Gemini Robotics：二つの頭脳で動作するロボット

Google DeepMindは2025年9月、ロボット向けAIモデル Gemini Robotics 1.5 を発表しました。このシステムの特徴は、二つのAIモデルを組み合わせた構造にあります。

第一のモデルである Gemini Robotics-ER 1.5 は、ロボットの高次計画と推論を担当します。自然言語による指示を理解し、必要に応じてインターネットから関連情報を取得することも可能です。

例えば「ここにある物を地域の規定に従ってリサイクル、一般ごみ、生ごみに分類してください」という指示を受けた場合、ERモデルはまず地域のリサイクル規則を検索し、周囲の物体を分析したうえで作業計画を立てます。

次に Gemini Robotics 1.5 がこの計画を受け取り、視覚情報と指示内容を実際の動作へと変換します。このモデルは VLA（Vision-Language-Action）モデルとして機能し、行動を実行する前に内部の推論過程を自然言語として生成することで、人間が理解できる形で判断根拠を説明します。

（Gemini Robotics 1.5の動作システム（出典：DeepMind））

特に注目されるのは、異なるロボット間でスキルを共有できる点です。あるロボットで学習したタスクを、別のロボットにほぼそのまま適用することが可能になります。

例えば、ALOHA 2ロボットで学習した作業を、ヒューマノイドロボット Apollo や Franka ロボットでも再学習なしで実行できます。これはロボットごとにモデルを個別に再訓練する必要があったエンボディメント問題の解決につながる技術とされています。

このようなクロスプラットフォームの一般化能力は、ロボット開発のサイクルを大きく短縮すると期待されています。Googleは、Gemini Robotics 1.5によってロボットが単純な反復作業を超え、文脈理解、ツール利用、自律的な計画立案が可能な段階へ進んだと説明しています。

2. NVIDIA Isaacプラットフォーム：ロボットのための学習環境

一方、NVIDIAはロボット研究を加速させるための基盤技術を継続的に公開しています。2025年に開催された CoRL 2025 では、新しい物理シミュレーションエンジン Newton が公開されました。このエンジンはディズニー・リサーチおよびGoogle DeepMindと共同開発されたもので、NVIDIA Isaac Lab プラットフォームに統合されています。Newtonにより、雪上や砂利道での歩行、物体を把持する繊細な操作など、従来の物理エンジンでは再現が難しかった複雑なロボット動作を高精度にシミュレーションすることが可能になります。現在、ETHチューリッヒ、ミュンヘン工科大学、北京大学などの研究機関やロボティクス企業がNewtonエンジンを採用し、現実環境に近いデジタルツイン環境の構築を進めています。

またNVIDIAは、ロボット向けのオープン基盤モデル Isaac GR00T N1.6 も発表しました。このモデルは、人間レベルの推論能力をロボットに付与することを目標としています。GR00Tは曖昧な自然言語の指示を理解し、常識や事前知識を活用して複雑な作業を段階的に計画することができます。例えば「重いドアを開ける」といった指示に対しても、ロボットの腕の動きだけでなく身体のバランスを含めた動作計画を立てることが可能になります。

GR00T N1.6には Cosmos Reason と呼ばれるビジョン・言語モデルが統合されており、新しい状況に直面した際に必要な情報を生成したり、合成データを生成・注釈して学習に活用することを支援します。

3. ロボット学習を支えるCosmosワールドモデル

NVIDIAはさらに、ロボット学習用データの生成を支援する Cosmosワールド基盤モデル（World Foundation Model）も公開しています。Cosmos Predict 2.5 および Cosmos Transfer 2.5 は、テキスト・画像・動画プロンプトから仮想データを生成するモデルです。これにより、

最大30秒のマルチビュー動画生成
3Dシミュレーション環境からのリアルな合成画像生成

などが可能になります。

（NVIDIA Cosmosモデルの適用事例）

この技術は、ロボット学習における最大の課題の一つであるデータ不足問題を解決する手段として期待されています。実環境で収集することが難しい大量の学習データを、仮想環境で効率的に生成することが可能になるためです。

フィジカルAI時代に向けた技術基盤

GoogleとNVIDIAの取り組みを総合すると、フィジカルAIの発展を支える新しい構図が見えてきます。Googleはロボットの推論層（知能）を構築し、NVIDIAはロボットの物理環境および学習基盤を構築しています。この二つの技術基盤が相互に補完することで、ロボティクス産業の参入障壁は下がり、イノベーションがさらに加速すると考えられます。

数年前までロボットは、決められた動作を繰り返す自動化機械に近い存在でした。しかし現在では、環境を認識し、学習し、人間と協働できる知能エージェントへと進化しつつあります。GoogleのGemini RoboticsとNVIDIAのロボット基盤技術は、いずれも同じ方向を目指しています。それは、現実世界の複雑性を理解し対応できるフィジカルAIの実現です。

この技術革新は、生産性や安全性の向上に加え、新たなビジネス機会の創出にもつながると期待されています。同時に、AI開発インフラの重要性も高まっています。大規模モデルの学習やデータ処理、運用を支える MLOps基盤がなければ、この急速な技術進展に対応することは容易ではありません。

Superb AIは、Vision Foundation Model ZERO と MLOpsプラットフォームを通じて、このフィジカルAIエコシステムの発展に貢献しています。ロボットの認識能力、推論能力、そして仮想学習環境が整備されるにつれ、ロボットアシスタントや自律型スマートファクトリーといった未来像も現実味を帯びてきています。今後のフィジカルAI時代において、「考え、行動するロボット」は私たちの社会や産業を支える重要な存在となっていくでしょう。