Alibaba の Aegaeon システムは、スマート GPU スケジューリングにより AI 推論コストを 82% 削減

中国のテクノロジー大手アリババは、人工知能の運用コストを最大 82% 削減する強力な新システムを発表した。

Aegaeon と呼ばれるこのテクノロジーは、顧客があまり使用しない数千の特殊な AI モデルを効率的に提供する方法という、クラウド プロバイダーにとっての重要な課題に対処します。

で発表された研究では、ソウルでのオペレーティング システム原則 (SOSP) に関するシンポジウムコンピューター サイエンスの分野で最も権威のある会場の 1 つであるアリババは、Aegaeon のスマート スケジューリングが現在の方法よりもはるかに効果的に高価な GPU ハードウェアをプールする方法について詳しく説明しました。

3 か月のトライアル中、このシステムにより、Alibaba Cloud は 1,192 個ではなく 213 個の GPU を使用して膨大なモデルのコレクションを提供できるようになりました。AI市場の運用コストを大幅に削減.

このイノベーションは、今日の AI インフラストラクチャに内在する膨大な無駄を直接ターゲットにしています。アリババ自身のデータは、明らかな不均衡を明らかにしました。同社の GPU フリートの 17.7% は、顧客リクエスト全体のわずか 1.35% を占めるニッチ モデルの「ロングテール」にサービスを提供することに縛られていました。

多様なモデルの成長する市場をホストするクラウド プラットフォームにとって、この非効率性は巨額で持続不可能な運用コストを意味します。

Alibaba Cloud の CTO Zhou Jingren 氏が共同執筆した Aegaeon の開発は、この問題を解決するためのハイレベルな戦略的推進を示しています。

Aegaeon の核心は、多くのシステムで使用されている粗雑なリクエスト レベルのスケーリングを、より詳細な「トークン レベルの自動スケーリング」アプローチに置き換えることです。

従来のシステムは、モデルが 1 人のユーザーに対する応答の生成を完全に完了するまで待つ必要がありました。このプロセスにより GPU がロックアップされ、深刻な「ヘッドオブライン ブロッキング」が発生し、他のモデルに対する緊急リクエストが長時間実行タスクの後ろのキューに滞留します。

Aegaeon のアーキテクチャはよりスマートです。トークンごとにモデルのプロセスを生成途中で一時停止し、同じハードウェア上の別のモデルに対する新しく到着したリクエストを迅速に処理できます。

このプリエンプティブなスケジューリングにより、サービス レベルの目標に違反する長い遅延を発生させることなく、単一の GPU が複数の異種モデル (テストでは GPU あたり最大 7 つ) に流動的にサービスを提供できます。

によると、研究論文、このきめ細かい制御は非常に効果的です。 Aegaeon は、エンジンの再初期化を高速化するためのコンポーネントの再利用や断片化を防ぐための明示的なメモリ管理など、一連のフルスタック最適化を採用しており、これらにより自動スケーリングに関連する一般的なオーバーヘッドが 97% も大幅に削減されます。

その結果、Alibaba は、Aegaeon は代替ソリューションに比べて 2 ~ 2.5 倍の高いリクエスト率を維持でき、多様なモデルカタログを提供する経済性を根本的に変えることができると主張しています。

ブルートフォースを超えて: トークンレベルのスケーリングが AI のロングテール問題を解決する方法

運用効率におけるこの画期的な進歩は、AI トレーニングのコストを削減するイノベーションとは異なります。 Aegaeon のデビューは大幅な節約をもたらしましたが、2025 年 1 月の DeepSeek の瞬間の繰り返しではありません。

このイベントでは、中国企業 DeepSeek の論文が根本的に安価なトレーニング方法を提案し、主要ハイテク株の下落を引き起こし、特に Nvidia などの GPU メーカーに大きな打撃を与えました。

代わりに、Aegaeon は、あまり話題にはならないものの、同様に重要な、本番環境で AI モデルを実際に「実行」するためのコストである推論コストという課題に取り組んでいます。

これを解決することはアリババにとって戦略的に必要です。同社は積極的な AI 戦略を追求しており、コーディングからマルチモーダル推論に至るまでのタスクに対応するオープンソース モデルと独自モデルの両方を継続的にリリースしています。

この戦略こそが、Aegaeon の価値を高める特殊なモデルの「ロングテール」を生み出します。アリババは、AI を実行するための効率的なプラットフォームを構築することで、広大な AI 市場を経済的に存続させることができます。

AI 軍拡競争の新たな最前線: 業界全体で効率化を推進

アリババがスケジュール管理に注力していることは、AI の驚異的なコストに対する業界全体の戦争におけるいくつかの最前線の 1 つです。

トレーニングと推論の両方の価格が依然として普及の主要な障壁となっているため、大手企業はさまざまな角度から効率性の問題に取り組み、AI スタックのあらゆる部分が最適化される多様なイノベーションの風景を生み出しています。

一般的なアプローチの 1 つは、モデル アーキテクチャ自体を再設計することです。たとえば、IBM の最近の Granite 4.0 モデルは、Transformer ブロックと高効率の Mamba レイヤーを組み合わせたハイブリッド設計を使用しています。この方法では、コアの計算負荷をターゲットにして、根本的に無駄のないエンジンを最初から構築することで効率を追求します。

IBM のプロジェクト リーダー、Raghu Ganti 氏は、「すべては KV キャッシュの削減に帰着します。スループットの向上、レイテンシーの短縮、コンテキストの長さの延長です。」と述べています。

別の戦略は、主要な Transformer アーキテクチャ内でのメモリの最適化をターゲットとしています。東京を拠点とするSakana AIのニューラル・アテンション・メモリ・モデル(NAMM)は、進化的アルゴリズムを使用して、主要なメモリ・ボトルネックであるモデルのKVキャッシュをインテリジェントに管理します。

この手法により、長いコンテキストを含むタスクのメモリ フットプリントが大幅に削減されます。

スケーリングパラダイムに完全に挑戦する、より過激なアプローチも登場しています。研究者らは今夏、優れたエネルギー効率を実現するために人間の神経構造を模倣した脳に似た視覚モデルを発表した。

この論文の共著者の 1 人、Zejin Lu 氏は、この概念について次のように説明しました。「人間の場合、特定の物体を検出すると、その物体には典型的な位置が存在します。靴は通常、地面の底にあることはすでにご存知でしょう。飛行機は上部にあります。」

結果として得られるモデルは、標準的な AI よりも消費エネルギーが 10 分の 1 以上少なく、エレガントなデザインが時には総当たりに勝てることが証明されています。

Aegaeon の動的スケジューリングは、これらの他の方法を補完する強力なアプローチです。これは、高度なシステム エンジニアリングがアーキテクチャの全面見直しと同じくらい大幅な節約をもたらし、AI 革命が持続可能なビジネス現実となることを保証することを証明しています。

さらに読む:ハードウェア アクセラレーションによる GPU スケジューリング: オンかオフか?

Related Posts