Google DeepMind は、クラウドに縛られずにロボットが完全に自律的に動作できるようにする新しい AI モデルを発表しました。 Gemini Robotics On-Device と名付けられたこの新しいシステムは、ロボットのローカル ハードウェア上で完全に実行されます。これは、ロボット システムの高速化、信頼性の向上、インターネット接続が断続的またはまったくない環境でも機能することを約束する重要な開発です。これは、汎用ロボットを現実世界のアプリケーションで実用化するための重要な一歩となります。
Google DeepMind は、双腕ロボット用に設計されたこの新しいモデルは効率的であるだけでなく、適応性が高く、必要な計算リソースが最小限になるように設計されていると説明しています。これは、同社のビジョン・言語・アクション (VLA) モデルの中で微調整が可能になった最初のモデルであり、開発者はわずか 50 ~ 100 回のデモンストレーションで、高度に器用な新しいタスクに適応させることができます。少量の新しいデータから一般化できるこの機能により、複雑な環境でのロボットの導入が大幅に加速される可能性があります。
これを促進するために、同社はジェミニ ロボティクス SDK、GitHub で選択的に入手可能トラステッドテスタープログラム、開発者は Google 経由で申請できます。大手技術研究所間でより高性能な物理 AI システムを構築する競争が激化する中、この制御された展開は、このモデルの戦略的重要性を浮き彫りにしています。
Googleの動くこれは、ロボット工学の未来を形作る極めて重要な議論、つまり知能をクラウドに置くべきか、マシン上に直接置くべきかという重要なエントリーとなる。オンデバイス処理は、クラウド コンピューティングに固有のネットワーク遅延を排除するため、リアルタイム ロボット工学にとって非常に重要です。物理世界と対話するロボットの場合、意思決定における一瞬の遅れが成功と失敗の分かれ目となる可能性があります。そのため、即時応答が求められるアプリケーションにはローカル AI が不可欠になります。
ただし、オンデバイス AI の主なトレードオフは、巨大なクラウド サーバーに比べてコンピューティング能力とストレージが少ないローカル ハードウェアの固有の制限です。この課題は、業界全体でさまざまな戦略的賭けにつながりました。たとえば、Figure AI は、ロボット工学に最適化された Helix AI モデルを 2 月に発表しました。これは、Google の新しいシステムと同様、完全に組み込み GPU で実行されます。
対照的に、Microsoft の Magma AI モデルは、Azure クラウド プラットフォームとの緊密な統合を目的として設計されており、接続の信頼性がより高いエンタープライズ オートメーションをターゲットとしています。 Google 独自の戦略は進化してきました。 3 月に導入された同社の主力プラットフォームである Gemini Robotics プラットフォームは、ハイブリッド アプローチを採用しています。新しいオンデバイス モデルは、自律性が最優先されるシナリオに専用のソリューションを提供します。
物理的知性の混雑した分野
産業用ヒューマノイドロボットへのベンチャーキャピタル投資2024年には3倍の12億ドルに、激しい競争を示唆しています。国際ロボット連盟によると、産業用ロボット設置の世界市場はすでに 165 億ドルという史上最高額に達しており、2025 年の主要トレンドは「フィジカル AI」、つまり厳密なプログラミングではなく経験から学習するシステムです。
この競争環境には、独自の哲学を追求する大手企業が含まれています。 Google と Figure AI はデバイス上の速度を重視していますが、Meta は最近、ビデオから物理的な常識を学習するオープンソースの「ワールド モデル」である V-JEPA 2 をリリースしました。これらのモデルにより、AI は内部シミュレーションを実行して行動する前に「考える」ことができ、機械が物理世界でそれを試みる前に「シミュレートされた空間での動作とインタラクションを計画」できるようになります。
このアプローチにより、コストのかかる試行錯誤が大幅に削減され、産業組立や物流におけるタスクの学習が加速されます。この方法は、物理学の内部理解を構築することに焦点を当てており、予測不可能な人間の環境をナビゲートできるロボットを作成するための別の道を提供します。
ロボットに人間と同じように学習するよう教える
Google の新しいモデルの中心となるのは、一般化、つまり最小限のトレーニングで新しいタスクを実行できる機能に重点を置いているということです。これは、モデルが非常に少数の例から学習できるようにする、フューショット学習 (FSL) として知られる手法によって実現されます。このアプローチが目指すのは、人間の能力を真似るこれは、多くの場合数百万のデータポイントを必要とする従来の AI モデルとはまったく対照的です。考えられるすべてのタスクに対して膨大なラベル付きデータセットを収集することが現実的ではないロボット工学にとって、FSL は状況を一変させます。
Google は、Gemini Robotics On-Device はわずか 50 ~ 100 回のデモンストレーションで適応できると主張しています。同社は、この適応性の具体的な証拠を提供し、このモデルは当初 ALOHA ロボット用にトレーニングされたが、Apptronik の双腕 Franka FR3 ロボットと Apollo ヒューマノイド ロボットにうまく適応できたことを指摘しました。
この機能により、システムの幅広い可能性が可能になります。 Google DeepMind のロボット工学責任者であるカロリーナ パラダ氏は次のように説明しています。アルステクニカからのレポート、モデルの生成力は単純なコマンドを超えて拡張されます。 「これは、まったく新しいタスクを実行するために、ジェミニのマルチモーダルな世界の理解を活用しています…それによって可能になるのは、同じ方法でジェミニがテキストを作成したり、詩を書いたり、記事を要約したり、コードを書いたり、画像を生成したりすることもできます。また、ロボットのアクションを生成することもできます。」
オープンサイエンスからガードアドバンテージへ
限られたプログラムを通じて新しいロボット SDK をリリースするという Google の決定は、DeepMind 内でのより広範な戦略的転換を浮き彫りにしています。この研究所は、かつてはオープンな科学出版物の砦であったが、現在は Google の競争上の優位性を守るために、コア技術をより選択的に公開している。この変化は社内で軋轢を引き起こしていると伝えられており、ある研究者はこう言っています。フィナンシャル・タイムズに語った, 「現在、出版はデフォルトではなくなっていると言われています。」
この独自のスタンスは、コミュニティのイノベーションを加速するために設計された戦略である Llama モデルを使用したオープンソース AI における Meta の役割とは明らかに対照的です。このオープン性は称賛されていますが、オープン モデルのパフォーマンスは、歴史的にクローズド ソースのモデルに後れをとっています。最良のオープンソース モデルはプロプライエタリ モデルに比べて数か月遅れていますが、その差は縮まりつつあります。このパフォーマンスの違いは、Google のような企業が、開発者に最先端のテクノロジーを構築するためのツールを提供しているにもかかわらず、その最先端テクノロジーを保護する理由を説明するのに役立ちます。
もっと詳しく知る:タイムラインと主要機能を備えた All One UI リリース (2018 ~ 2025)
Google の Gemini Robotics On-Device のリリースは、次世代のインテリジェント マシンを構築する一か八かの競争における計算された動きです。これは、低遅延の自律システムに対する業界の重要なニーズに直接対応すると同時に、人間のような迅速な学習における目覚ましい進歩を示しています。しかし、このモデルの最終的な影響は、その技術的能力だけでなく、オープンな研究の協力精神と商業競争の厳重な現実との間の戦略的緊張によっても形作られるだろう。













