OpenAI le da voz a ChatGPT: el chatbot ahora hablará con los usuarios

13 mayo, 2024

138 2 minutos de lectura

OpenAI reveló un nuevo modelo de inteligencia artificial que modificará la manera en la que los usuarios interactuarán con ChatGPT. El chatbot ahora tendrá la capacidad de hablar para responder a las peticiones de los usuarios, además de poder entender contenido en video y texto.

“Esta actualización es mucho más rápida y mejora las capacidades en texto, visión y audio”, aseguró la CTO de OpenAI, Mira Murati, durante el evento en el que la compañía reveló y mostró como funcionará esta actualización que llegará de forma gratuita para todos los usuarios.

ChatGPT ahora tiene voz

Una de las características más interesantes de GPT-4o es su capacidad “nativamente multimodal”. Esto significa que el modelo puede generar contenido o comprender comandos en voz, texto o imágenes, lo que abre un abanico de posibilidades en la interacción entre humanos y la IA.

La aplicación de GPT-4o tendrá más velocidad que su predecesora. (OpenAI)

Antes del lanzamiento de GPT-4o, surgieron especulaciones sobre los planes de OpenAI, desde la creación de un motor de búsqueda de IA para competir con Google, hasta la introducción de un asistente de voz integrado en GPT-4, o incluso un modelo completamente nuevo, GPT-5.

Sin embargo, con el anuncio de GPT-4o, OpenAI quiso enfocarse completamente en la experiencia de usuario, ya que básicamente son las mismas posibilidades de generar contenido que la versión tradicional, pero con el añadido de hacerlo mediante voz.

Anteriormente, la interacción con ChatGPT se limitaba principalmente al texto, pero con la introducción de la voz, los usuarios ahora pueden comunicarse con el sistema de manera más intuitiva y natural. Esto se logra gracias a la capacidad de GPT-4o para procesar y generar respuestas en tiempo real, incluso captando la emoción en la voz del usuario y reproduciéndola en diferentes estilos.

Sobre su disponibilidad, OpenAI ha confirmado que GPT-4o estará disponible de forma gratuita para todos los usuarios de ChatGPT. Además, los usuarios pagos disfrutarán de límites de capacidad hasta cinco veces mayores que los usuarios gratuitos.

La implementación de la voz en ChatGPT no solo mejora la experiencia del usuario, sino que también amplía significativamente las capacidades de la plataforma. Ahora, ChatGPT no solo puede responder a consultas de texto, sino que también puede comprender y generar respuestas en función de comandos de voz, lo que lo convierte en una herramienta aún más versátil y poderosa.

Además de la voz, GPT-4o también mejora las capacidades de ChatGPT en el ámbito de la visión. Ahora, el sistema puede analizar imágenes o capturas de pantalla y proporcionar información relevante o respuestas a consultas específicas.

Los desarrolladores también se beneficiarán de la disponibilidad de GPT-4o a través de la API de OpenAI. Esta API, que ofrece acceso al modelo a mitad de precio y el doble de rapidez que GPT-4 Turbo, permitirá a los desarrolladores integrar la capacidad de voz en sus propias aplicaciones y sistemas, abriendo nuevas posibilidades en el desarrollo de aplicaciones de IA.

Ahora puede hacer operaciones matemática desde una foto. (Open AI)

Ejemplos de cómo usar ChatGPT con voz

Para entender toda esta novedad, OpenAI mostró una larga lista de ejemplos, ya que las opciones que da este nuevo modelo de lenguaje son muy grandes y los usuarios pueden encontrar opciones que van desde peticiones sencillas para una conversación, pasando por traducciones en tiempo real, hasta análisis de códigos de programación. Aquí algunos ejemplos:

Charla casual: ChatGPT ahora puede responder de una forma más fluida, ya que no toma la voz del usuario y la convierte en texto, para luego dar un resultado en audio. Salta ese proceso y de inmediato responde con su voz, con un tono amigable, divertido y cercano. Así que se puede usar para tener una conversación casual, hacerle preguntas, realizar búsquedas y pedirle ayuda.
Traducción: durante la presentación pusieron a prueba al ChatGPT para que interpretara en tiempo real una conversación en inglés e italiano. El asistente tomó la voz en cada idioma y la tradujo de inmediato. Siendo una herramienta útil para viajes, reuniones y demás.
Análisis de imagen: el chatbot tendrá acceso a la cámara del usuario, por lo que será posible mostrarle imágenes para que resuelva un problema matemático, diga qué objeto es o incluso jugar piedra, papel o tijera.
Análisis de códigos y gráficos: ChatGPT entenderá códigos de programación como lo hace en su versión tradicional, pero con la diferencia de dar respuesta en voz para que todo sea más fluido. Además, podrá recibir imágenes de la computadora para analizarlas y generar contenido.