Gemini analyse désormais vos vidéos : l'IA de Google bénéficie d'une mise à niveau majeure

Google étend considérablement les capacités de son IA Gemini en déployant une nouvelle fonctionnalité qui permet au chatbot d'analyser le contenu des vidéos mises en ligne par les utilisateurs. La mise à jour multimodale, qui devient disponible pour les utilisateurs gratuits et payants, vous permet de fournir un fichier vidéo et de poser des questions spécifiques sur son contenu, de l'identification d'objets à la description de scènes complexes, marquant une étape majeure dans la capacité de l'IA à comprendre le monde au-delà du simple texte et des images statiques.

La fonctionnalité est déployée sur Android, iOS et le Web, donnant à Gemini un avantage notable sur des concurrents comme ChatGPT, qui n'a actuellement pas la capacité d'analyser les fichiers vidéo téléchargés. Le déploiement semble se dérouler rapidement ; après avoir étérepéré par 9to5google, des rapports pratiques plus récents d'Android Police confirment sa disponibilité sur le Web.

Lors d'un test, Gemini a pu décrire avec précision une scène d'une forêt et, à l'aide d'indices visuels et audio, identifier correctement l'endroit où le clip a été filmé. Bien que les utilisateurs puissent télécharger des vidéos existantes à partir de la galerie de leur appareil, la caméra intégrée de l'application Gemini ne prend pas encore en charge la capture vidéo directe pour analyse.

Une famille modèle mature et à plusieurs niveaux

Cette nouvelle fonctionnalité est alimentée par la famille de modèles Gemini 2.5 de Google, qui est récemment passée d'une période d'expérimentation rapide à une période de stabilité. Les modèles Gemini 2.5 Pro et 2.5 Flash de la société sont désormais en « disponibilité générale », un statut qui, selonNotes de version de Vertex AI, signifie qu'ils sont stables et pris en charge pour une utilisation en production.

Cela marque une maturation stratégique par rapport au début de 2025, lorsque Google a proposé son modèle expérimental 2.5 Pro à tous les utilisateurs gratuits dans ce que son équipe des médias sociaux a appelé un « sprint ».

Cette poussée agressive a suscité les critiques de certains experts en gouvernance de l’IA. Le rapport de sécurité qui l’accompagne est arrivé des semaines plus tard, que Kevin Bankston du Centre pour la démocratie et la technologie a qualifié de « histoire troublante d’une course vers le bas en matière de sécurité de l’IA ».

A lire aussi :Imagen 4 de Google est réorganisé dans l'API Gemini et l'aperçu d'AI Studio - Voici les nouveautés

Le nouveau statut « GA » suggère une approche plus mesurée, soutenue par unehiérarchie nouvellement définie détaillée sur le blog Google pour les développeurs. Dans unpublier sur The Keyword, Tulsee Doshi, directeur principal de Google, a défini la stratégie : « créer une « famille de modèles de raisonnement hybrides » qui offrent des performances de premier ordre tout en restant à la « frontière de Pareto du coût et de la vitesse ». »

La famille Gemini comprend désormais également le nouveau Gemini 2.5 Flash-Lite, un modèle économique en avant-première. Il propose également un « raisonnement hybride » contrôlable, un système qui permet aux développeurs deétablir un « budget réfléchi »pour des requêtes plus complexes, selon un article sur le blog Google for Developers.

Une stratégie d'abonnement simplifiée et premium

Le déploiement de fonctionnalités est un élément clé de la stratégie plus large de Google visant à clarifier sa gamme de produits et à favoriser l'adoption de ses nouveaux niveaux d'abonnement premium. La société a récemment remanié son image de marque déroutante, en regroupant le tout sous le simple nom « Gemini » et en introduisant deux forfaits payants distincts : Google AI Pro et Google AI Ultra. Cette décision a éliminé les marques traditionnelles telles que « Gemini Advanced » et « AI Premium ».

Le forfait Google AI Pro, à 19,99 $ par mois, comprend l'accès au puissant modèle Gemini 2.5 Pro, 2 To de stockage cloud et des crédits mensuels pour d'autres outils d'IA créatifs. Le forfait haut de gamme Google AI Ultra, au prix de 249,99 $ par mois, est destiné aux professionnels et aux petits studios, comprenant 30 To de stockage, un abonnement YouTube Premium et un accès exclusif à des technologies expérimentales comme l'agent Project Mariner AI.

Un cadre a décrit le niveau Ultra comme un « pass VIP » pour les utilisateurs qui souhaitent bénéficier de l'IA la plus avancée de Google. La nouvelle structure, détaillée sur Googlepage des plans officiels, intègre et déverrouille également des fonctionnalités avancées dans d'autres outils, tels que l'assistant de recherche en IA NotebookLM.

Cependant, la proposition de valeur fait débat.Commentaires des utilisateurs sur Redditsuggère un compromis clé entre le plan Pro et des concurrents comme ChatGPT Plus, Gemini étant favorisé par les personnes profondément ancrées dans l'écosystème de Google et ChatGPT préféré pour l'écriture créative. Pendant ce temps, certains analystes affirment que le plan Ultra haut de gamme établit une nouvelle référence pour les abonnements coûteux à l'IA, car les abonnés paient essentiellement pour les fonctionnalités de test bêta.

La boîte à outils créative en expansion et le paysage concurrentiel

Bien que l'analyse vidéo soit le dernier ajout, elle rejoint une suite croissante d'outils créatifs que Google utilise pour justifier ses coûts d'abonnement. Les plans AI Pro et Ultra donnent également accès au modèle avancé de génération de texte en vidéo de la société, Veo 3. Cette technologie, que Demis Hassabis, PDG de Google DeepMind, a décrit de manière mémorable comme aidant l'industrie à « sortir de l'ère silencieuse de la génération vidéo », est accessible via l'application spécialisée de réalisation de films Flow et est également en cours d'intégration dans Google Vids.

Le principal avantage de Veo réside dans sa génération audio native et synchronisée, tandis que Sora excelle dans la génération de clips plus longs et la simulation physique. Pour répondre aux préoccupations concernant l'authenticité et les abus, Google utilise sa technologie SynthID pour appliquer un filigrane numérique imperceptible au contenu généré par l'IA.

Ces mesures de sécurité sont essentielles, car Veo 3 peut générer des contrefaçons convaincantes d'événements sensibles comme les émeutes et la fraude électorale. Cette course aux armements technologiques est un thème central de l’ère de l’IA, qui se déroule dans le cadre de la stratégie d’intégration massive à l’échelle de l’écosystème, pleinement exposée lors de la conférence I/O 2025 de Google.

De plus, des questions sur les données de formation persistent, avec des rapports selon lesquels des modèles comme Veo pourraient être formés sur du contenu public YouTube. Cela contraste avec des concurrents comme Adobe, qui souligne que ses modèles Firefly sont formés sur du contenu sous licence pour éviter les problèmes de propriété intellectuelle.

Related Posts