Les aperçus audio de Gemini deviennent natifs : la lecture de podcasts dans l'application arrive sur Android et iOS

Les résumés de podcast générés par l'IA transforment la façon dont les gens absorbent des informations complexes, et l'application Gemini de Google offre désormais une expérience plus intégrée pour cette fonctionnalité. Avec la dernière mise à jour, les utilisateurs peuvent générer des aperçus audio (des récapitulatifs audio dynamiques et conversationnels de leurs documents) et les lire directement dans l'application Gemini sur Android et iOS. Ce passage d'une lecture basée sur un navigateur à un lecteur natif intégré à l'application élimine les frictions précédentes et accélère l'accès aux connaissances en déplacement.

Création d'aperçus audio dans Gemini

Le téléchargement d'un document ou d'un diaporama sur Gemini, soit sur le Web, soit via l'application mobile, déclenche désormais une option « Générer un aperçu audio ». Cette fonctionnalité utilise les modèles Gemini de Google pour analyser votre fichier et produire une discussion de type podcast entre deux hôtes IA. La discussion fait ressortir les points clés, résume le contenu et explore les liens entre les sujets, offrant ainsi une compréhension plus riche qu'un simple résumé textuel.

Une fois généré, l'aperçu audio apparaît dans votre historique de discussion ou sous forme de notification. Auparavant, appuyer sur le fichier audio ouvrait un onglet de navigateur avec une longue URL, obligeant les utilisateurs à s'appuyer sur le lecteur multimédia par défaut de leur appareil. Cela ajoutait des étapes et rendait le multitâche fastidieux, en particulier pour les utilisateurs qui souhaitaient lire, mettre en pause ou parcourir rapidement le contenu tout en travaillant sur d'autres tâches.

Utilisation du lecteur de présentation Native Audio

Le nouveau lecteur intégré, introduit avec la version 16.27 de l'application Gemini pour Android et la dernière version iOS, rationalise la lecture et le contrôle. Voici comment cela fonctionne :

Étape 1 :Après avoir téléchargé votre document et généré un aperçu audio, ouvrez l'application Gemini et localisez le fichier audio dans votre historique de discussion ou de notification.

Voir aussi :Google fait l'objet d'une plainte antitrust de l'UE concernant la fonctionnalité d'aperçu de l'IA

Étape 2 :Appuyez sur Aperçu audio. Au lieu de rediriger vers un navigateur, l'application Gemini ouvre désormais une interface de lecteur audio dédiée.

Étape 3 :Utilisez les commandes intégrées pour lire, mettre en pause, rembobiner ou avancer par incréments de 10 secondes. Le lecteur comprend une chronologie et un épurateur pour une navigation précise.

Étape 4 :Ajustez la vitesse de lecture à l’aide des commandes situées sur le côté gauche du lecteur. Les options incluent.5x,.75x,1x,1.25x,1.5x,1.75x, et2xpour une écoute plus rapide ou plus lente.

Étape 5 :Téléchargez le fichier audio directement depuis le lecteur si vous souhaitez un accès hors ligne ou si vous préférez l'écouter plus tard. Le bouton de téléchargement est idéalement placé dans l’interface du lecteur pour un accès rapide.

Grâce à ces commandes, les utilisateurs peuvent gérer leur expérience d'écoute sans quitter l'application Gemini ni basculer entre les applications, ce qui rationalise la consommation d'informations et le multitâche.

Aperçus audio dans la recherche Google et d'autres laboratoires

Les aperçus audio ne se limitent pas à l'application Gemini. Google a également commencé à expérimenter cette fonctionnalité dans Search Labs, permettant aux utilisateurs d'obtenir des résumés conversationnels mains libres des sujets de recherche. Lorsque le système détermine qu'un résumé audio est utile, une option « Générer un aperçu audio » apparaît sur la page des résultats de recherche. Les utilisateurs peuvent écouter l'aperçu, puis cliquer sur les pages Web de support, ce qui facilite l'exploration de sujets inconnus tout en effectuant plusieurs tâches.

Les mécanismes de rétroaction, tels que les pouces vers le haut/vers le bas, aident Google à affiner la qualité de ces discussions générées par l'IA. Cette approche est particulièrement utile pour les utilisateurs qui apprennent mieux grâce à l'audio ou qui souhaitent digérer des informations lors de leurs déplacements ou lors d'autres activités.

Comment les aperçus audio profitent à différents utilisateurs

Les aperçus audio offrent des avantages mesurables dans divers scénarios :

Les étudiants peuvent télécharger des notes de cours ou des documents de recherche et recevoir un résumé de type podcast, ce qui facilite la révision des documents en déplacement.
Les professionnels peuvent utiliser les aperçus audio pour comprendre rapidement de longs rapports ou notes de réunion sans avoir à lire des documents denses.
Les personnes ayant des difficultés en lecture ou des difficultés d’apprentissage, comme la dyslexie, rapportent que le fait de transmettre des informations sous forme audio conversationnelle améliore considérablement la compréhension et l’accessibilité.
Les utilisateurs peuvent diviser des documents volumineux en sections plus petites pour des discussions audio plus longues et plus détaillées, optimisant ainsi la profondeur du podcast généré par l'IA.

Ces améliorations réduisent le temps passé à analyser les informations et permettent aux utilisateurs d'effectuer plusieurs tâches à la fois, augmentant ainsi la productivité et la rétention.

Abonnement et disponibilité linguistique

Actuellement, Audio Overview est disponible pour les abonnés Gemini gratuits et payants Gemini Advanced, bien que certaines fonctionnalités puissent être limitées aux niveaux premium. La fonctionnalité est déployée dans le monde entier en anglais, avec une prise en charge de langues supplémentaires prévue dans les futures mises à jour. Pour accéder aux aperçus audio, assurez-vous que vos paramètres de langue Google sont définis sur l'anglais et mettez à jour l'application Gemini vers la dernière version.

Le passage de Google à un lecteur de présentation audio natif dans Gemini marque un net pas en avant pour rendre l'apprentissage basé sur l'IA plus rapide et plus convivial. Avec une lecture simplifiée et des commandes robustes, se mettre au courant de sujets complexes est désormais aussi simple que d'appuyer sur Play.