AI メモリ: Google 研究が「壊滅的な忘却」を克服する新しい AI パラダイムである入れ子学習を発表

Google Research は、2025 年 11 月 7 日に、AI モデルにおける壊滅的な忘却を解決するために設計された、入れ子学習と呼ばれる新しい機械学習パラダイムを導入しました。

この長年の問題により、モデルは新しい情報を学習するときに古い知識を消去します。概念実証として、チームは継続的に学習して適応できる自己修正アーキテクチャである「Hope」を明らかにしました。

新しい手法では、AI を単一のプログラムとしてではなく、異なる速度で更新される入れ子になった学習プロセスのシステムとして扱います。このアプローチは人間の記憶の仕組みを模倣し、ゼロから継続的に再トレーニングすることなく時間の経過とともに改善できる、より動的で効率的な AI システムを作成することを目的としています。

多くの高度な AI モデルの根本的な弱点は、順次学習できないことです。ニューラルネットワークが新しいデータでトレーニングされると、以前に習得した情報を突然、大幅に忘れてしまうことがよくあります。

壊滅的な忘却または壊滅的な干渉として知られるこの現象は、1980 年代後半に研究者によって初めて発見されて以来、新しい経験によって真に進化できる AI を作成する上での大きな障壁となってきました。

この問題は、認知科学者が「「安定性と可塑性のジレンマ」効果的な学習システムは、新しい知識を獲得できるほど柔軟であると同時に、新しい知識が既存の記憶を上書きしないように十分に安定している必要があります。

ほとんどの標準的なニューラルネットワーク、特に次のものを使用するニューラルネットワークバックプロパゲーション、可塑性が高い。内部パラメータまたは重みは、新しいタスクでのエラーを最小限に抑えるために調整されます。

ただし、これらのネットワークは分散表現を使用しているため、知識はさまざまな共有重みにわたって保存されます。新しいタスクに対してこれらの重みを更新すると、古い情報を呼び出すために必要なパターンが必然的に中断されます。

壊滅的な忘却は、混乱が増大したときに、動くはずのないパラメータが突然大きな勾配によって揺さぶられることで起こります。このプロセスでは、古いデータの上に新しいデータが効果的に重ね合わされ、元の学習が大幅に、場合によっては完全に失われます。

この制限は、通常、スキルや知識が突然消去されるのではなく、徐々に忘れることを伴う人間の学習とは大きく対照的です。

Googleの発表は、人が新しい長期記憶を形成できない神経学的状態である前向性健忘症に強力に類似している。現在の大規模言語モデル (LLM) も同様に制限されています。彼らの知識は、膨大な事前トレーニングデータとコンテキストウィンドウに供給される即時情報に限定されています。

新しい経験をコア知識ベースに統合することができません。 Google Research のブログには、「継続的な学習と自己改善に関しては、人間の脳が最も優れた基準である」と記載されています。

このハードルは理論上の不便さだけではありません。これは、新しい情報が絶え間なく続く動的な現実世界の環境に AI が適応することを妨げる重大な実用的な障害です。

入れ子学習: アーキテクチャと最適化を統合する新しいパラダイム

AI の最も根強い欠陥の 1 つに対処するために、Google の研究者たちは、学習モデルの構造そのものを再考するフレームワークを提案しました。

入れ子学習 (NL) と呼ばれる新しいパラダイムは、層を積み重ねるという従来の考え方を超えています。代わりに、モデルをモノリシックなエンティティとしてではなく、同時に実行される相互接続されたマルチレベルの最適化問題の集合として扱います。

このアプローチは、モデルのアーキテクチャとそのトレーニングアルゴリズムを根本的に統合し、それらを同じコアプロセスの異なる「レベル」として見なします。

ネストされた学習フレームワーク内の各レベルには、独自の「コンテキストフロー」、つまり、そこから学習する特定の情報の流れがあります。独自の頻度で更新されます。このデザインは、人間の脳内で観察されるマルチタイムスケールの処理からインスピレーションを得ており、脳波に似て、異なる神経回路が異なる速度で動作します。

研究論文にあるように、「NL は、既存の深層学習手法が独自のコンテキストフローを圧縮することでデータから学習していることを明らかにし、大規模モデルでコンテキスト内学習がどのように現れるかを説明しています。」

これにより、モデルの一部が新しい情報に迅速に適応できる一方、他の部分はよりゆっくりと知識を統合できる、よりきめ細かく効率的な学習形式が可能になります。

入れ子学習の核となる洞察は、標準的な機械学習コンポーネントを次の形式として再構成することです。連想記憶。この論文は、バックプロパゲーションプロセス自体が、データポイントをその「ローカルサプライズシグナル」（誤差または勾配）にマッピングすることを学習する連想メモリとしてモデル化できることを実証しています。

このシグナルは、データがどれほど予想外であるかを定量化します。さらに、このフレームワークは、Adam や Momentum を使用した SGD などの一般的なオプティマイザーを「ディープオプティマイザー」として再解釈します。

これらは本質的に、単なる静的な数式ではなく、将来の更新を通知するために過去の勾配の履歴を圧縮する方法を学習するメモリモジュールです。

実装は斬新ですが、自己参照学習の概念は AI 研究に深く根ざしています。 Google チーム自体は、1990 年代初頭の基礎的な作業を引用しています。理論的に独自の学習ルールを変更できるニューラルネットワークに関するユルゲンシュミットフーバーによる 1992 年の論文。

ネストされた学習は、これらの長年にわたる理論的野望を最終的に実現するための実践的で一貫したフレームワークを提供し、真に学習方法を学習できるモデルへの明確な道筋を作り出すことを目的としています。

Hope on the Horizon: 学習方法を学習する自己修正型 AI

人間の脳が記憶を処理する方法からインスピレーションを得た「Hope」アーキテクチャは、入れ子学習パラダイムの最初の概念実証として機能します。

Hope は、Google の初期の「Titans」アーキテクチャの変形として構築された自己修正システムであり、情報の「驚き」に基づいて優先順位を付けるメモリモジュールです。

以下も参照してください。OpenAI が ChatGPT の学習モードを公開し、学習体験を向上

前作とは異なり、「Hope は、制限のないレベルのコンテキスト内学習を活用できる自己修正型リカレントアーキテクチャです…」

これは、さまざまなメモリコンポーネントがさまざまな頻度で更新される連続メモリシステム (CMS) を通じて実現されます。これにより、更新の速い短期記憶から更新の遅い長期の知識記憶までのスペクトルが作成されます。

この階層化されたアプローチにより、モデルは基本的に学習方法を学習できるようになり、静的モデルを超える大きなステップとなります。つまり、スタックのどの部分でもそれ自体を最適化できれば、コンピューティングに応じて拡張できるため、最終的には手動で実行できるパフォーマンスを上回ることになります。

自己修正という言葉は興奮を呼んだが、一部の専門家は拡大解釈に対して警告している。モデルは文字通りソースコードを書き直すのではなく、内部パラメーターをさまざまな速度で調整します。

自分自身を検査したり、文字通り自分自身のソースコードを書き換えたりする「内なる声」は存在しません。これは基本的に、異なる速度で学習するパーツで構成されるシステムです。これにより、核となる知識を上書きすることなく、新しい事実を統合することができます。

期待できる結果と残る疑問

NeurIPS の論文で詳しく説明されているように、Hope アーキテクチャの初期ベンチマークは、いくつかのモデルサイズにわたって有望です。研究チームは、Hope の 340M、760M、および 1.3B パラメータバージョンを、次のような現代のモデルに対してテストしました。トランスフォーマー++、保持型ネットワーク (RetNet)、そしてタイタンズ。

言語モデリングと常識推論のタスクでは、ホープは一貫して優れたパフォーマンスを示しました。たとえば、1,000 億トークンでトレーニングされた 1.3B パラメーターモデルは、平均ベンチマークスコア 57.23 を達成し、同等の Transformer++ (52.25) および Titans (56.82) モデルを上回りました。

低く表示されました困惑、モデルがサンプルをどの程度正確に予測するかの尺度であり、以下を含む一連のテスト全体での精度が高くなります。ピカ、ヘラスワッグ、そしてブールQ。

この論文では、特にモデルが大量のテキストの中から特定の情報を見つけなければならないロングコンテキストのニードル・イン・ヘイスタック（NIAH）タスクにおいて、Hope の優れたメモリ管理機能も強調しています。

著者らは、この成功は連続メモリシステム (CMS) のおかげであると考えています。これにより、拡張された情報シーケンスをより効率的かつ効果的に処理できるようになります。

メモリを動的に管理し、コンテキストに基づいて学習を更新するこの機能が、このアーキテクチャを標準の Transformers のようなより静的なモデルと区別するものです。

このような強力な初期結果にもかかわらず、主に公開されている論文で提供されている実証データが限られているため、ある程度の懐疑論は正当化されます。

著者らは論文自体の中で、NeurIPS バージョンは「ページ制限に合わせて広範囲に要約されている」と述べており、詳細については arXiv のより包括的なバージョンを参照するよう読者に案内しています。

このアプローチは興味深いものですが、Googlee の論文には実証結果がまったく記載されていません。

これは、新しいアーキテクチャの理論上の約束と検証可能なパフォーマンスの間に重大なギャップがあることを浮き彫りにしています。入れ子学習が真のブレークスルーであると宣言する前に、特に同様の革新的なアーキテクチャがこれまで効果的に拡張するのに苦労していたロングコンテキストのタスクに関して、詳細な結果を待つ必要があります。