ロボットが夜通し自己改善＝NVIDIAのフィジカルAI「ENPIRE」

#フィジカルAI #ロボット

公開日

2026.06.19

更新日

2026.06.20

AIが自らのコードを書き換え、性能を自動で高めていく「再帰的自己改善（RSI）」の議論は、これまでもっぱらソフトウェアの世界、すなわちデジタルの領域の話だった。その自己改善のループが、ロボットという物質の世界でも回り始めた。

半導体大手の米NVIDIAでロボット研究組織「GEAR」を率いるLinxi “Jim” Fan氏らの研究チームは2026年6月、現実世界でロボットが自ら試行錯誤してスキルを磨く仕組み「ENPIRE」を発表した。Fan氏は自身のX投稿で「物理世界で初めてオートリサーチ（自動研究）を実現した」と宣言している（Jim Fan氏のX投稿）。研究は米NVIDIAに加え、米カーネギーメロン大学（CMU）、米カリフォルニア大学バークレー校（UC Berkeley）の共同で進められた（NVIDIA GEAR公式プロジェクトページ）。

「ハーネス」が物理世界に降りてきた

ENPIREが本質的に何であるかは、公式の定義に明確に示されている。それは「コーディングエージェントのためのハーネス（harness）フレームワーク」だ（NVIDIA GEAR）。ハーネスとは、もともと馬に荷や車を引かせるための馬具のことだ。馬の力を最大限に引き出す道具であることから、AIの分野では、AIモデルの性能を引き出すためのツールやデータ、改善ループといった実行基盤を指すようになった。一方、物理世界でも賢さを担うのはAIモデル本体だが、その賢さを使ってロボットを安全に動かし、結果を測り、失敗から立ち直らせるには、実行基盤が欠かせない。ENPIREが設計したのはまさにこの実行基盤だ。新しいのは、その実行基盤を、AIエージェント自身が回す自己改善のループに仕立てた点にある。

ENPIREは四つのモジュールで構成される。シーンの自動リセットと結果の自動検証を担う環境モジュール（Environment）、報酬や映像・失敗事例からロボットの制御プログラムを生成・改訂する改善モジュール（Policy Improvement）、単体または複数のロボットを並列で動かしてその出来を評価するロールアウトモジュール（Rollout）、そしてログを分析し文献を参照して訓練インフラやアルゴリズムを改良する進化モジュール（Evolution）である（NVIDIA GEAR）。

これまで現実世界でロボットに作業を覚えさせるには、一回試すたびに人間が作業台を片付け、結果を確かめ、アルゴリズムを手作業で調整する必要があった。汎用的な能力には膨大な試行回数が要るのに、人手が一回ごとに張り付いていては数をこなせない。この規模の壁が、フィジカルAIの最大の課題だった。NVIDIAチームによれば、この壁を越えるのに欠けていたのは、現実世界で何度も回せる一つの改善ループだったという。毎回の試行前に作業台を同じ初期状態に整え直し、ロボットに制御プログラムを試させ、結果を確かめ、その学びを次の試行に活かす。この一連の手順を機械が自力で繰り返せるようにすればよい、というわけだ。ENPIREは、まさにこのループをハーネスとして形にしたものだと同社は説明している（NVIDIA GEAR）。

人間が寝ている間に、ロボットが研究する

では、実際にどう動くのか。NVIDIAのチームは、人間の研究者の代わりに研究を進める8体の米OpenAI製Codexエージェントに、実際のロボット群と、計算資源であるGPU、そしてその思考コストにあたるトークンの潤沢な予算を与え、「タスクを最速で解け、ロボットを安全に動かし続けろ、計算資源を無駄にするな」というシンプルな目標だけを与えて手を引いた。するとロボット群が動き出した。視覚的な手がかりを探し、新しいスキルを練習しては、作業台を毎回リセットした。そこからの学びをベースに制御プログラムを手直しし、オンラインで論文を読み、議論し、行き詰まり、そして再び挑戦する。この自律的な研究サイクルが回り始めたという（Jim Fan氏のX投稿）。

こうして自己改善を重ねたロボットは、人間でも気をつかう精密な手作業をこなせるまでになった。机上のT字ブロックを押し棒で目標位置に揃える操作（Push-T）、細いピンの整列、カッターでの結束バンド切断、パソコンの基板へのグラフィックボードの挿し込み。いずれも99%（pass@8）という高い成功率に達したとされる（NVIDIA GEAR）。

新しいスケール則「物理スケーリング」

ENPIREはさらに、研究の自動化を、ロボットの集団へと拡張できることも示した。Fan氏は、8体のロボットが並列で探索すると、1体のときと比べて研究の進捗が大幅に速くなる「物理スケーリング（physical scaling）」とも呼ぶべき新しい現象を発見したと報告している（Jim Fan氏のX投稿）。

計算資源を投じるほど性能が上がるという、大規模言語モデルでおなじみのスケール則。それが今、ロボットの台数という物理的な軸でも観測され始めたことは、フィジカルAIの開発競争がいよいよ資本集約の段階に入る兆しと読める。

速さはトークンコストとの引き換え

もっとも、物理世界のRSIにはソフトウェアにはない固有の難しさが伴う。NVIDIAチーム自身も限界を率直に認めている。コーディングエージェントはログを読み、コードを書き、デバッグする。こうした思考タスクを行なっている間は、ロボットを動かさない。つまりロボットという高コストの機械を効率よく使えていないことになる。さらに、ロボットの台数を増やすほど、エージェント同士の調整やログ要約のためにトークン消費がかさみ、成功までに必要な総トークン量が増えていくという（NVIDIA GEAR）。台数を増やせば早く成功に届くが、その加速は高いトークンコストとの引き換えなのだ。

そこでチームは、この効率を測る二つの物差しを提案している。ロボットがどれだけ手待ちせず稼働したかを示すロボット平均稼働率（MRU）と、消費したトークンがどれだけ実際の前進に結びついたかを示すトークン平均利用率（MTU）だ（NVIDIA GEAR）。高価なロボットと膨大なトークンという二つの資源を、いかに無駄なく自己改善に振り向けるか。フィジカルAIのオートリサーチは、性能だけでなくコスパもまた問われる段階に入っている。

デモの先に見えるもの

ENPIREは現時点では4〜5種類の机上タスクに絞った研究デモであり、論文も、研究者が広く公開に使う論文サイト「arXiv」ではなく限定公開の段階にある。「自律研究が完成した」と早合点するのは早計だ。それでも、この発表が示す方向性は明確だ。これまでソフトウェアの内側で完結していたRSIの方法論が、現実のロボットの上でも回せることを実証してみせた。

NVIDIAチームはこの一式をすべてオープンソース化する方針だ（Digg）。デジタルの世界で先行したRSIが、ロボットの台数とトークン予算という物量を伴って物質の世界へ移ってくる。今回の発表は、その入り口に私たちが立っていることを告げている。フィジカルAIの競争が、いよいよ資源を注ぎ込んだ者が速く前進する局面へ入るのだとすれば、日本の製造業やロボット各社にとっても、見過ごせない転機となりそうだ。