Lectores como usted ayudan a apoyar a MUO. Cuando realiza una compra utilizando enlaces en nuestro sitio, podemos ganar una comisión de afiliado. Leer más.

ChatGPT está destinado a convertirse en una experiencia interactiva de IA generativa. OpenAI reveló que el chatbot de IA líder en el mundo podrá hablar y responder a las consultas de los usuarios utilizando una voz sintetizada, presumiblemente generada por IA.

Junto con su nueva voz, ChatGPT también podrá responder y discutir imágenes específicas cargadas o tomadas mientras usa la aplicación ChatGPT para Android o iOS. La función de reconocimiento de imágenes suena similar a Google Lens y otras aplicaciones que utilizan redes neuronales para detectar datos e información con precisión.

OpenAI le da voz a ChatGPT

El 25 de septiembre de 2023, el desarrollador de ChatGPTOpenAI reveladole daría voz a su chatbot de IA generativa líder en el mundo. Los usuarios de ChatGPT pueden hablar directamente con el chatbot y solicitarle que responda, lo que permite a ChatGPT conversar directamente con voz por primera vez.

El clip de ejemplo de OpenAI muestra a una mujer que le pide a ChatGPT que cree un cuento único antes de dormir, al que ChatGPT responde debidamente con una voz femenina sintetizada.

De acuerdo acableado, el nuevo modelo de conversión de texto a voz se desarrolló internamente. Puede generar audio "similar a un humano" a partir de texto y unos segundos de muestra de voz (utilizando el modelo OpenAI Whisper) y hablar en varios tonos y estilos. Puede encontrar una variedad de muestras de voz enBlog de OpenAI.

Algunas empresas ya están utilizando el nuevo modelo de voz de OpenAI. Por ejemplo, Spotify está utilizando el modelo de texto a voz de OpenAI para traducir podcasts a diferentes idiomas, combinando la destreza de traducción de idiomas de ChatGPT con su nueva capacidad de hablar.

El nuevo modelo de texto a voz de ChatGPT solo está disponible para suscriptores Plus y Enterprise que utilizan las aplicaciones oficiales de Android e iOS y se espera que se implemente dentro de las próximas dos semanas (a partir del 25 de septiembre de 2023). Además, para empezar, la nueva función de voz se limita al inglés, aunque esperaríamos que esto cambie rápidamente.

ChatGPT puede reconocer y analizar imágenes y fotografías

La segunda parte de la actualización ChatGPT de OpenAI es la capacidad de analizar y hablar de imágenes cargadas en la herramienta. La opción de análisis de imágenes visuales apareció en los videos de actualización de GPT-4, pero no se ha discutido mucho desde entonces (aparte del intérprete de código ChatGPT).

Ahora, ChatGPT gana una funcionalidad similar a Google Lens. Puede cargar una imagen en ChatGPT o tomar una fotografía con la cámara de su teléfono inteligente en la aplicación ChatGPT, y detallará la imagen y agregará más contexto cuando sea necesario.

Llamarlo "similar a Google Lens" es realmente una injusticia. La capacidad de conversar sobre la imagen para obtener más información y contexto la hace extremadamente útil para una amplia gama de entornos. Sin embargo, es importante tener en cuenta la letra pequeña, ya que OpenAI deja en claro que ha limitado la "capacidad de ChatGPT para analizar y hacer declaraciones directas sobre las personas" por razones de privacidad y precisión. Aún así, ¿podría estar en proceso para el futuro una herramienta “Quién es este” impulsada por OpenAI? (¡Esperemos que no!)

Al igual que el nuevo modelo de texto a voz, OpenAI implementará el reconocimiento de imágenes en las próximas dos semanas, aunque estará disponible en todas las plataformas, no solo en la aplicación ChatGPT.

Privacidad, seguridad y otras cuestiones

Las implicaciones de un ChatGPT basado en voz son claras. Claro, es emocionante. Sin embargo, la capacidad de crear una voz sintetizada de forma única utilizando sólo un breve fragmento como ejemplo tiene considerables problemas de privacidad y seguridad. El potencial de que actores maliciosos exploten estas herramientas es enorme y, como ocurre con cualquier herramienta de IA generativa, una vez que el genio sale de la botella, no volverá a entrar. Ninguna regulación de IA por parte de gobiernos o líderes de opinión puede dar marcha atrás. la marea.

Incluso la advertencia de OpenAI sobre el tema parece eludir lo obvio a pesar de mencionar los problemas:

Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude. Es por eso que utilizamos esta tecnología para impulsar un caso de uso específico: el chat de voz.

Dado que esto es la punta del iceberg, espere un rechazo contra la nueva voz de ChatGPT, especialmente una vez que haya un aumento predecible en titulares desagradables que afirman que ChatGPT se está utilizando para cometer fraude, etc.

OpenAI está haciendo de ChatGPT la aplicación de IA de referencia

Cuanto más OpenAI agrega funciones fáciles de usar a ChatGPT, más se convierte en la aplicación de IA generativa de referencia. Como el primero en alcanzar fama generalizada durante el auge inicial de la IA generativa, ChatGPT todavía lidera el camino y es la única aplicación que algunos utilizan, a pesar de la competencia de empresas como Google Bard (y potencialmente Google Gemini) y Claude de Anthropic.

Mientras OpenAI pueda continuar agregando funciones que hagan que ChatGPT sea más fácil de usar, mantendrá a la gente enganchada y se acercará cada vez más a su objetivo de ser una herramienta de IA verdaderamente multimodal.