ChatGPT ahora puede ver imágenes y escuchar su voz

Startup respaldada por MicrosoftOpenAI recientementeSe agregaron capacidades de voz e imagen para su chatbot generativo basado en inteligencia artificial ChatGPT.que ahora le permitirá ver, oír y hablar.

Estas capacidades ofrecen un tipo de interfaz nuevo y más intuitivo que permite a los usuarios tener una conversación de voz o mostrar a ChatGPT de qué están hablando.

ChatGPT ahora puede ver imágenes y escuchar su voz

Echemos un vistazo a las nuevas funciones agregadas a ChatGPT:

Voz

Los usuarios ahora pueden usar la voz para entablar una conversación con el asistente de IA. Impulsado por unnuevo modelo de texto a voz, ChatGPT ahora puedegenerar audio similar al humanoa partir de solo texto y unos segundos de muestra de discurso.

OpenAI ha colaborado con actores de doblaje profesionales para crear cinco opciones de voz diferentes, que incluyen voces masculinas y femeninas. También ha utilizado Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir las palabras habladas del usuario en texto.

Para comenzar con las conversaciones de voz, abra Configuración y haga clic en "Nuevas funciones" en la aplicación móvil. Luego, opta por las conversaciones de voz. Una vez hecho esto, toque el botón de auriculares ubicado en la esquina superior derecha de la pantalla de inicio y seleccione su voz preferida entre cinco opciones de voz diferentes.

Utilice su voz para entablar una conversación de ida y vuelta con ChatGPT. Hable con él mientras viaja, solicite un cuento antes de dormir o resuelva un debate en la mesa.

Sonido encendido ?pic.twitter.com/3tuWzX0wtS

—OpenAI (@OpenAI)25 de septiembre de 2023

Imágenes

El ChatGPT ahora puederesponder a imágenessubidos por los usuarios. Por ejemplo, los usuarios pueden tomar una fotografía de un punto de referencia mientras viajan para obtener más detalles sobre él o enviar fotografías de su refrigerador y despensa, y el asistente de inteligencia artificial puede sugerir qué platos se pueden cocinar para la cena con los ingredientes presentes.

Esto es posible gracias a la comprensión de imágenes, impulsada porGPT-3.5 y GPT-4 multimodalesque aplican sus habilidades de razonamiento lingüístico a diversas imágenes, como fotografías, capturas de pantalla y documentos que contienen texto e imágenes.

Para comenzar, toque el botón de foto para capturar o seleccionar una imagen. Primero debes tocar el botón más si estás usando un dispositivo iOS o Android. Además, puede discutir varias imágenes o utilizar la herramienta de dibujo de OpenAI para guiar a su asistente de IA.

“La voz y la imagen te brindan más formas de utilizar ChatGPT en tu vida. Tome una fotografía de un punto de referencia mientras viaja y tenga una conversación en vivo sobre lo que tiene de interesante”, la compañíaAnunciadoen una publicación de blog el lunes.

“Cuando estés en casa, toma fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas de seguimiento para obtener una receta paso a paso). Después de la cena, ayude a su hijo con un problema de matemáticas tomándole una fotografía, rodeando el conjunto de problemas y pidiéndole que comparta pistas con ambos”.

Disponibilidad

Durante las próximas dos semanas, las funciones de voz e imagen estarán disponibles paraClientes de ChatGPT Plus y Enterprise. Si bien la función de voz estará disponible en iOS y Android (haz clic en tu configuración), la función de imágenes estará disponible en todas las plataformas.