「2027年オンプレ回帰説」=ハード・中国モデル・分散ソフトの3要素で
米起業家・投資家のJason Calacanis氏が司会を務めるスタートアップ系ポッドキャスト「This Week in Startups」で、ある予測が飛び出した。「2027年、AIは巨大データセンターから企業の机の上へと移っていく」というものだ。クラウド集中型のAI開発の流れに、真っ向から異を唱える主張だ。
Calacanis氏はこう語る。全社員が1万ドルのワークステーションを持ち、1テラバイトのRAMと10テラバイトのストレージを積んで、すべてをローカルで保存・処理する。全社のPCをネットワーク化したスーパーコンピューターに束ねれば、データセンターは要らなくなる。誰にも自社のデータを渡さずに済む。さらに同氏は「分散ソフトのExoLabsを使えばMac StudioやMac miniを数珠繋ぎにできる」「ハッカーたちは、このやり方をもう始めている」「これが2027年のトレンドになる」と続けた。
こうした「脱クラウド・自社PC分散型AI」へのシフトは、本当に進んでいるのか。
二つの限界が生んだ「脱クラウド」の動機
この予測が説得力を持つのは、企業が抱える二つの切実な課題に正面から応えているからだ。一つはコスト、もう一つはデータ主権である。
トークン従量課金の暴走は、もはや無視できない規模に達している。コンサルティングの仏Artefactは、トークン単価が前年比75%下落しているにもかかわらず請求総額は前期を上回るという事態が、今まさに各企業で起きていると指摘する。調査会社ICONIQの2026年リポートによれば、AI関連企業の推論コストは売上の平均23%を占める。AIエージェントが多段階でモデルを呼び出すようになり、コストは利用量に比例して膨張する。
もう一つの限界がデータ主権だ。米OpenAIや米Anthropicといった外部のプラットフォームに機密データを預けることへの不安があり、規制対応の負担も重い。処理をすべて自社のネットワーク内で完結できれば、こうした懸念は根本から払拭できる。
トークン課金を崩す三点セット
ここ数年、この「脱クラウド」は願望にすぎなかった。だが2026年、状況を一変させる三つの要素が同時に出揃った。ハードウェア、オープンソースモデル、そして分散ソフトである。
第一に、ハードウェアが変わった。Calacanis氏が言及した実機は、半導体大手の米AMDが投入した開発者向けミニPC「Ryzen AI Halo」である。「Ryzen AI Max+ 395」というプロセッサーを搭載し、128GBのユニファイドメモリを備える。価格は3,999ドル、単行本より小さい筐体に収まる。従来はデータセンターでしか動かせなかった2000億パラメータ級のモデルが、この机の上の一台で動く。次世代の400シリーズは最大192GB RAM、300Bモデル対応を予告している。米Nvidiaも同種の製品を投入済みで、この勢いなら、1万ドルで1テラバイトのRAMを積んだAI専用機が登場するのも、そう遠い話ではなさそうだ。
第二は、中国製オープンソースモデルの逆転である。品質やセキュリティが不安だから割高でも米国製を使うという前提が、少なくとも米国企業の間では2026年前半に崩れた。中国Moonshot AIの「Kimi K2.6」は、エージェント型のコーディングとツール拡張推論で、米国AI大手の非公開モデルと肩を並べた。中国系モデルは実際の利用量で見ると、AIモデルの中継基盤OpenRouterのトークン消費の6割超を占め、米国製モデルの1/10から1/20の価格で、コーディング性能の指標SWE-Bench Proで米OpenAIのGPT-5.4や米AnthropicのClaude Opus 4.6を上回る。これらは無償で入手でき、そのまま自社の分散環境に組み込める。
第三が、バラバラのハードとモデルを束ねる分散ソフトである。Calacanis氏が名を挙げた英ExoLabsは、複数のMacやPCを一つの推論クラスタに連結するオープンソースソフト「exo」を公開している。実際にMac mini M4を4台にMacBook Pro 1台を加えた約5,000ドルの構成で、2万5,000ドルするNvidia H100単体を上回る性能を出した実例がある。注目すべきは、AMD自身がこの数珠繋ぎを公式に後押ししている点だ。同社はRyzen AI Max+を4台連結し、1兆パラメータの「Kimi K2.5」を動かす手順を公式サイトで公開している。ハードウェアの売り手自らが、脱データセンターの地ならしをしているのである。
この三つが出揃ったことで、脱クラウドはようやく絵空事ではなくなった。
冷静な異論、「データセンター不要」は本当か
もっとも、番組の出演者からは冷静な異論も出ている。ベンチャーキャピタル、米Bling CapitalのBenjamin Ling氏は、ハードウェアは進化していてもAIモデルをオンプレ環境で動かすのは簡単ではない、と指摘する。
この指摘は技術的にも正しい。ローカル推論の最大の壁はメモリ帯域である。トークンを一つ生成するたびにモデルの重みをメモリから読み出すため、GPUのコア数よりメモリ帯域が処理速度を決める。短いやり取りは快適でも、長文のドキュメントを読み込ませるとプロンプトの処理が急激に遅くなる。
さらに同時実行性の問題がある。ローカル機は一人で使う分には速いが、社内で何十人もが同時に使う状況では、バッチ処理に最適化されたデータセンター向けGPUに分がある。671Bクラスのモデルを品質を落とさずに動かすには、依然としてデータセンター級のインフラが必要だ。現場からは、初期導入後に続くモデルのパッチ当てや品質劣化の監視といった運用負荷こそがプロジェクトを頓挫させる、との声も上がる。使いやすくて最先端のクラウドに課金した方が早い、というのが懐疑派の現実的な見立てである。
着地点はハイブリッド、そして本当の意味
では、この対立はどこに落ち着くのか。業界のコンセンサスは「データセンター消滅」ではなく「ハイブリッドへの収束」である。
負荷が読める定常的な処理は自社の設備で、突発的な負荷や最先端の性能が要る処理はクラウドで。この使い分けが現実的な落としどころとされる。その先行事例として製薬大手の米Eli Lillyが自社スーパーコンピューターを構築した例が挙げられている。経済合理性も数字で裏付けられており、中国Lenovoの試算では、高稼働のワークロードなら4カ月以内に投資を回収し、トークン100万あたりのコストで最大18倍の差がつくという。一方で米Deloitteの「Tech Trends 2026」は、クラウド支出が全体の6〜7割を超えた段階でオンプレ導入の検討を始めるべきだ、との目安を示す。裏を返せば、1日1,000万トークンに満たない利用量なら、クラウドのAPIが依然として安い。
結局のところ、Calacanis氏の予測の本質は「データセンターが消える」ことではない。ハードウェア、中国製オープンソースモデル、分散ソフトという三点が揃ったことで、米OpenAIや米Anthropicといった米国AI大手のトークン課金モデルに対し、初めて「下からの突き上げ」が成立した。本質はそこにある。日本でも、中国オープンソースモデルを改良してオンプレで使う動きが、一部先進企業の間で始まっている。クラウドかオンプレか。その主導権争いの第二幕が、2027年に活発化しそうだ。