A OpenAI sempre apresentou grandes melhorias em seu revolucionário chatbot ChatGPT. Desta vez, é o recurso de voz concedido ao chatbot para permitir que os usuários possam solicitar usando sua voz. A próxima atualização do ChatGPT permitirá que os usuários escolham uma voz e facilmente avisem o ChatGPT por meio dela.
A OpenAI não deixa pedra sobre pedra quando se trata de garantir que o ChatGPT mantenha constantemente sua posição superior no mundo da Inteligência Artificial. Anteriormente, os usuários só podiam fornecer avisos ao chatbot de IA usando texto, mas agora é possível fornecer avisos rápidos por meio de voz e também de imagens.
Como diz OpenAI, “ChatGPT agora pode ver, ouvir e falar", o chatbot de IA será capaz de responder de forma eficaz às suas solicitações enviadas por meio de imagens ou notas de voz. Quer você envie uma imagem de um problema de matemática circulado ou queira discutir uma bela visão que acabou de testemunhar no caminho de volta para casa por meio de uma conversa por voz, você pode fazer tudo!
O ChatGPT responderá instantaneamente às suas solicitações, respondendo com você, fazendo você se sentir como se estivesse conversando por telefone com um amigo. Esta é uma ótima maneira de interagir com o chatbot.
A atualização começou a ser implementada para usuários em todo o mundo. A postagem do blog oficial da OpenAI mencionou: "Estamos lançando voz e imagens no ChatGPT para usuários Plus e Enterprise nas próximas duas semanas. A voz está chegando no iOS e Android (opte em suas configurações) e as imagens estarão disponíveis em todas as plataformas."
Para acessar o novo recurso de voz, será necessário acessar as configurações do aplicativo e clicar em Novos recursos. Em seguida, procure o botão do fone de ouvido no canto superior direito. Haverá cinco opções de voz e você deverá escolher sua opção preferida.
OpenAI explicou que o recurso de voz é alimentado por um modelo de conversão de texto em fala. Na postagem do blog, eles mencionaram: "Colaboramos com dubladores profissionais para criar cada uma das vozes. Também usamos o Whisper, nosso sistema de reconhecimento de fala de código aberto, para transcrever suas palavras faladas em texto".
Enquanto isso, o recurso de imagem é alimentado pormodelos multimodais GPT-3.5 e GPT-4. A compreensão de imagens por meio das habilidades de raciocínio linguístico desses modelos permite que o chatbot compreenda uma vasta gama de imagens, incluindo documentos de texto, capturas de tela e fotografias de câmeras.
Com o recurso de voz, o ChatGPT chega um pouco mais perto de outros assistentes de voz de IA, como Amazon Alexa, Siri da Apple e outros. Esses recursos irão aprimorar a experiência do usuário e permitir que eles usem o ChatGPT com mais frequência, mais ampla e mais eficaz.














