Openai bringer et stemme- og bildesøkemulighet for chatgpt

Openai har alltid kommet med store forbedringer i sin revolusjonerende chatbot chatgpt. Denne gangen er det stemmefunksjonen som har blitt gitt til chatbot for å gjøre det mulig for brukere å kunne be om å bruke stemmen sin. Den kommende oppdateringen av ChatGPT vil tillate brukere å velge en stemme og enkelt gi ledeteksten til ChatGPT gjennom den.

Openai etterlater ingen stein som ikke er snudd når det gjelder å sikre at Chatgpt stadig opprettholder sin overlegne flekk i den kunstige intelligensverdenen. Tidligere kunne brukere bare gi ledeteksten til AI Chatbot ved hjelp av tekst, men nå kan man gi raske spørsmål gjennom stemme så vel som bilder.

Som Openai sier, “Chatgpt kan nå se, høre og snakke”, Vil AI -chatbot kunne svare effektivt på instruksjonene dine sendt gjennom bilder eller taleanmerkninger. Enten du sender inn et bilde av et sirklet matematikkproblem eller vil diskutere et vakkert syn du nettopp var vitne til på vei hjem gjennom stemmesamtale, kan du gjøre alt!

Chatgpt vil øyeblikkelig svare på spørsmålene dine ved å snakke tilbake med at du får deg til å føle at du har en faktisk telefonsamtale med en venn. Dette er en flott måte å engasjere seg med chatbot på.

Oppdateringen har begynt å rulle ut for brukerne globalt. Openais offisielle blogginnlegg nevnte: "Vi ruller ut stemme og bilder i chatgpt til pluss- og bedriftsbrukere i løpet av de neste to ukene. Stemmen kommer på iOS og Android (opt-in i innstillingene dine) og bilder vil være tilgjengelige på alle plattformer. ”

For å få tilgang til den nye stemmefunksjonen, må man gå til appinnstillingene og klikke på nye funksjoner. Se deretter etter hodetelefonknappen øverst til høyre. Det vil være fem stemmealternativer, og du må velge ditt foretrukne alternativ.

Openai forklarte at stemmefunksjonen er drevet av en tekst-til-tale-modell. I blogginnlegget nevnte de, “Vi samarbeidet med profesjonelle stemmeskuespillere for å lage hver av stemmene. Vi bruker også Whisper, vårt open source talegjenkjenningssystem, for å transkribere de talte ordene dine til tekst ”.

I mellomtiden drives bildefunksjonen avMultimodal GPT-3.5 og GPT-4-modeller. Bildeforståelse gjennom disse modellenes språkt resonnementferdigheter gjør det mulig for chatbot å forstå et stort utvalg av bilder inkludert tekstdokumenter, skjermbilder og kamerafotografier.

Med stemmefunksjonen kommer Chatgpt litt nærmere de andre AI -stemmeassistentene som Amazon Alexa, Apples Siri og andre. Disse mulighetene vil forbedre brukeropplevelsen og la brukerne bruke chatGPT oftere, mer utbredt og mer effektivt.

Related Posts