ChatGPT ahora imitará a un perro: OpenAI planea añadir más voces y entonaciones

5 septiembre, 2024

107 2 minutos de lectura

ChatGPT tendrá la opción de cambiar las entonaciones e imitar sonidos. (EFE/EPA/WU HAO)
(WU HAO/)

ChatGPT estaría por ampliar su capacidad para generar contenido en voz. OpenAI, la empresa detrás del chatbot, tendría planeado incluir ocho nuevas voces al catálogo existente, lo que elevará el total de opciones de voz a doce. Esta actualización, además, traerá una característica muy particular: la posibilidad de imitar sonidos de animales, como el ladrido de un perro, en sus respuestas.

Hasta ahora, el chatbot de inteligencia artificial ofrecía cuatro voces: Ember, Juniper, Cove y Breeze. Sin embargo, esta limitación estaba por cambiar con la incorporación de ocho nuevas opciones que ampliarán el repertorio vocal del asistente.

Las nuevas voces, que se llamarían Fathom, Glimmer, Harp, Maple, Orbit, Rainbow, Reef, Ridge y Vale, fueron descubiertas a través de un análisis de ingeniería inversa realizado por Tibor Blaho, un ingeniero que publicó las muestras en la plataforma X.

Qué novedades tendrán las nuevas voces de ChatGTP

Lo interesante de estas nuevas voces es que no solo representan un aumento en la cantidad, sino también en la diversidad de tonos y acentos. Por ejemplo, Fathom y Vale tienen acentos británicos, mientras que Reef se distingue por su entonación australiana. Esta diversidad permitirá a los usuarios seleccionar la voz que mejor se adapte a sus preferencias o al contexto de la conversación, aportando mayor personalización y cercanía en las respuestas de la IA.

ChatGPT tendrá la opción de cambiar las entonaciones e imitar sonidos. (EFE/ Etienne Laurent)
(ETIENNE LAURENT/)

Otra de las características más llamativas de esta actualización es la capacidad de ChatGPT para generar sonidos no verbales, entre los que se incluyen ladridos de perros y sonidos de cuervos. Aunque esta función aún no está disponible para el público general, las pruebas iniciales realizadas por Blaho muestran que algunas de las nuevas voces pueden imitar estos sonidos con distintos grados de éxito. Mientras que algunos intentos sonaron como simples imitaciones (“woof” para los perros y “caw” para los cuervos), otras voces lograron un resultado más natural.

La idea de que una IA pueda emitir sonidos de animales abre la puerta a interacciones mucho más dinámicas y lúdicas. Imagina pedirle a ChatGPT que “converse” con tu perro imitando su ladrido, o que emita un sonido para sorprender a tus amigos.

Una novedad más que trae esta actualización es la capacidad de las nuevas voces para modificar su entonación según el formato del texto. Por ejemplo, si un usuario escribe una palabra en negrita o cursiva, el chatbot podrá ajustar su tono de voz para reflejar mejor las emociones o el énfasis. Este cambio promete hacer que las respuestas del asistente suenen menos robóticas y más humanas, mejorando la fluidez y naturalidad de las conversaciones.

ChatGPT tendrá la opción de cambiar las entonaciones e imitar sonidos.
(REUTERS/Dado Ruvic/Illustration/File Photo) (Dado Ruvic/)

De hecho, esta capacidad para adaptar la entonación según el contexto del texto es una de las mejoras más esperadas. Hasta ahora, las voces de ChatGPT han sido útiles, pero carecían de la capacidad de expresar emociones complejas o de ajustar su tono de acuerdo con el contenido. Con esta actualización, las interacciones serán más cercanas a las de una conversación real, permitiendo a los usuarios obtener respuestas que no solo informan, sino que también transmiten emociones de manera más precisa.

La llegada de las voces a ChatGPT en medio de polémicas

OpenAI ha trabajado constantemente para mejorar la forma en que ChatGPT se comunica con los usuarios desde el lanzamiento del Modo de Voz Avanzado. Esta modalidad, lanzada inicialmente en mayo de 2024 como parte del modelo GPT-4o, combina texto, visión y audio para ofrecer una experiencia más completa y natural en la interacción con la IA.

No obstante, los primeros pasos de este modo de voz no estuvieron exentos de polémica. Una de las primeras voces que se utilizaron en las pruebas generó comparaciones inquietantes con la actriz Scarlett Johansson, lo que derivó en una controversia pública. La propia actriz confirmó que había rechazado la propuesta de Sam Altman, CEO de OpenAI, para utilizar su voz en el modelo, lo que llevó a la eliminación de la voz llamada Sky.

Scarlett Johansson rechazó una propuesta de Sam Altman, CEO de OpenAI, para utilizar su voz en el modelo.
(Foto de Joel C Ryan/Invision/AP, Archivo) (Joel C Ryan/)

Pese a este revés, el Modo de Voz ha ido ganando adeptos, y aunque actualmente solo está disponible para un grupo selecto de usuarios de ChatGPT Plus, se espera que su disponibilidad se amplíe en un futuro cercano.