中国のKuaishou AIラボKling AIは、生成と編集を単一のアーキテクチャに統合した統合モデル「Video O1」を発表した。
このシステムは、Runway や Google などの既存企業の断片化されたワークフローに挑戦し、自然言語プロンプトを介したピクセルレベルの操作を可能にする「マルチモーダル ビジュアル ランゲージ」(MVL) を導入しています。
Tencent、ByteDance、Runway からのリリースが相次ぐ「スーパー サンデー」のさなか、この発表は、純粋な生成から正確でエージェント的なビデオ制御への移行を示しています。
統合アーキテクチャ: 生成と編集のマージ
Kling AI は、生成とポストプロダクションに個別のモデルを使用するという業界標準を超えて、これらの機能を単一のアーキテクチャに統合しました。同社は、生成、編集、拡張を 1 つのパイプラインに統合することで、専用ツール間の切り替えによる煩わしさを排除することを目指しています。
の公式発表この統合がクリエイティブ ワークフローにどのような影響を与えるかを詳しく説明します。
「私たちは、複数のタスクを単一の強力なエンジンに結合することで、ビデオ作成プロセスを再定義しました。」
「Video O1」と呼ばれるこのシステムは、モデルを切り替えることなく、テキストからビデオ、画像からビデオ、および複雑なビデオ拡張タスクをネイティブに処理します。
この統合の中心となるのは、複雑なユーザーの意図を解釈するように設計された新しい対話レイヤーである「マルチモーダル ビジュアル言語」(MVL) です。このアーキテクチャでは、空間命令の処理における従来のテキスト エンコーダの制限に対処し、信号処理に新しい方法を導入しています。リリースノートによると:
「VIDEO O1 モデルは、インタラクティブなメディアとして MVL を革新的に導入しています。Transformer を通じて、テキストのセマンティクスとマルチモーダル信号を深く融合させ、モデルの核となる理解機能を強化します。単一の入力ボックス内での複数のタスクの柔軟な呼び出しとシームレスな統合をサポートします。」
視覚信号とともにテキストのセマンティクスを処理することにより、モデルは単にピクセルを最初から生成するのではなく、命令ベースの編集を理解できます。この機能により、周囲のシーンを維持しながら特定のオブジェクトを変更するなど、正確な変更が可能になります。
生成ビデオにおける中心的な技術的ボトルネックに対処するこの統合アプローチにより、アセットが異なる特殊なモデル間を移動するときにエラーが蓄積する「パイプライン問題」が軽減されます。
単一のトランスフォーマー コンテキスト内ですべてのタスクを処理することにより、システムは編集プロセス全体を通じて意味の一貫性を維持します。 Kling AI チームは、この統合の範囲について次のように説明しています。
もっと詳しく知る:Google の Nano Banana AI 画像モデルが Pro になり、無料で使用できるようになりました
「Kling VIDEO O1 モデルは、ビデオ生成分野で初めて、ビデオへの参照、テキストからビデオへの変換、開始フレームと終了フレームの生成、ビデオ コンテンツの編集、修正、変換、再スタイル設定、カメラ拡張などの幅広いタスクをすべて 1 つの統合モデルに統合しました。異なるモデルやツールを切り替える必要はありません。VIDEO O1 を使用すると、アイデア作成から生成、生成から修正まですべて 1 か所でシームレスに行うことができます。」
「ナノバナナ」の要素: 自然言語制御
アナリストらは、特にセマンティック編集の精度に関して、Kling の新機能と Google の Nano Banana モデルとの類似点を指摘しています。 「Nano Banana」は Google の画像編集技術を指しますが、この比較は、ビデオにおけるきめ細かな制御を目指した業界の取り組みを浮き彫りにしています。
メリーマウント大学の AI 教授である Alvaro Cintas-Canto 氏は、この機能の重要性を次のように述べています。SCMPによる報告書。
「Kling O1 は AI ビデオ用の Nano Banana です。」
ユーザーは、会話型の自然言語を使用して、「傍観者を排除する」や「昼から夜に天気を変える」などの複雑な編集を実行できます。
これは VFX ハウスです – に基づいて構築された完全な VFX スタジオです。@Kling_aio1内は羨ましいです。
AI企業は2年間クリエイターに嘘をつき続けています。
クールなデモですが、コントロールはゼロです。信頼性ゼロ。継続性ゼロ。
今日は…終わります。
混沌の時代は終わった。
これからコントロールの時代が始まります。
クリング o1…pic.twitter.com/RyNQJ0p70x
— インビデオ (@invideoOfficial)2025年12月1日
このアプローチは、多くの場合、特殊なソフトウェアと多大な時間投資を必要とする手動のロトスコーピング、マスキング、およびキーフレーム化という労働集約的な従来のワークフローに代わるものです。 Kling AI チームは運用上のメリットを強調し、次のように述べています。
「手動のマスキングやキーフレームは必要ありません。『傍観者を取り除く』、『昼光を夕暮れに変える』、『主人公の服装を変える』などのプロンプトを入力するだけで、モデルは視覚的なロジックを理解します。」
このモデルでは、環境編集を超えて、時間的コヒーレンスという永続的な問題を解決するために「オールインワン参照」テクノロジーが導入されています。キャラクターと小道具のアイデンティティをロックすることにより、システムは動的ショット全体で視覚的な一貫性を維持し、拡散モデルによく見られる「ちらつき」やアイデンティティのドリフトを防ぎます。
スーパーサンデー: 四つ巴の市場衝突
AI ビデオ分野の「スーパー サンデー」の最中にこの発表は、世界の主要な競合他社からの同時リリースと一致しました。 Runway の Gen-4.5 リリースは、物理学と世界モデルに焦点を当てた Video Arena リーダーボードでトップの座を獲得し、既存企業へのプレッシャーを強化しました。
国内では、Tencent の HunyuanVideo-1.5 (パラメータ 8.3B) と ByteDance の Vidi2 (パラメータ 12B) がオープンソース コミュニティをターゲットに開始されました。 Kling AI は、自社の優位性の主張を裏付ける内部ベンチマーク データを公開し、これらのライバルに対して積極的な姿勢を示しています。
のパフォーマンス指標公式発表Google 独自のモデルとの具体的な比較を提供します。
「『画像参照』タスクでは…Kling AI VIDEO O1 モデルと Google Veo 3.1 の Elements to Video をベンチマーク モデルとして比較しました。比較結果は、VIDEO O1 モデルが優れていることを示しています… Google Veo 3.1 の Elements to Video と比較してパフォーマンス勝率が 247% でした。」
変革タスクにおいて、同社は Runway の Aleph モデルと比較して 230% のパフォーマンス勝率を達成したと主張しています。これらの数字は、特定の編集ワークフロー、特に画像参照やスタイル転送を伴うワークフローにおいて大幅な進歩を示していることを示しています。
出典: クリング AI
ただし、これらの数値は内部ソースのままであり、Tencent や ByteDance がリリースした再現可能な無差別モデルとは顕著な対照を生み出しています。これらの「勝率」が実際の運用環境に反映されるかどうかを検証するには、独立した検証が不可欠です。
価格設定と商業戦略
オープンソースの国内ライバルとは異なり、Kuaishou はクローズドな SaaS 収益モデルを追求しており、Video O1 を「プロ モード」に制限しています。価格は計算負荷に基づいて段階的に設定されています。詳細については、標準生成の場合は 8 クレジット/秒、ビデオ入力を使用すると 12 クレジット/秒に上昇します。ユーザーガイド。
同社の広範な戦略に沿って、このプレミアムな位置付けは、プロのメディア制作市場を獲得することを目的としています。
この戦略の商業的実現可能性をテストし、Kling AI ビジネスユニットは第 3 四半期の売上高が 3 億元であると報告しました。クリング社は、「統合された」ツールでハイエンドのクリエイターをターゲットにすることで、オープンソースの代替品が急速に普及しコモディティ化が進む市場でサブスクリプションコストを正当化することを目指しています。












