- El brazo de investigación de inteligencia artificial (IA) de Meta Platforms ha presentado Voicebox, un modelo de machine learning que puede generar voz a partir de texto.
- Lo que distingue a Voicebox de otros modelos de texto a voz es su capacidad para realizar muchas tareas para las que no ha sido capacitado, incluida la edición, la eliminación de ruido y la transferencia de estilo.
- El modelo fue entrenado utilizando un método especial desarrollado por investigadores de Meta. Si bien Meta no ha lanzado Voicebox debido a preocupaciones éticas sobre el uso indebido, los resultados iniciales son prometedores y pueden impulsar muchas aplicaciones en el futuro.
La nueva creación de Meta y el más reciente bebé en Inteligencia Artificial (IA) es Voicebox, un modelo generativo que puede sintetizar el habla en seis idiomas, incluidos inglés, francés, español, alemán, polaco y portugués. Al igual que los grandes modelos de lenguaje, se ha entrenado en una tarea muy general que se puede usar para muchas aplicaciones.
Dicho modelo se puede aplicar a muchas tareas posteriores con poco o ningún ajuste. “El objetivo es construir un modelo único que pueda realizar muchas tareas de generación de voz guiada por texto a través del aprendizaje en contexto”, así lo describen los investigadores de Meta.
El modelo fue entrenado con la técnica “Flow Matching” de Meta, que es más eficiente y generalizable que los métodos de aprendizaje basados en difusión utilizados en otros modelos generativos. La técnica permite a Voicebox “aprender de datos de voz variados sin que esas variaciones tengan que etiquetarse cuidadosamente”. Sin la necesidad de etiquetado manual, los investigadores pudieron entrenar a Voicebox en 50 000 horas de voz y transcripciones de audiolibros.
También se sabe que utiliza el “relleno de voz guiado por texto” como objetivo de entrenamiento, lo que significa que debe predecir un segmento de voz dado el audio que lo rodea y la transcripción completa del texto. Básicamente, significa que durante el entrenamiento, el modelo recibe una muestra de audio y su texto correspondiente.
A diferencia de los modelos generativos que están capacitados para una aplicación específica, Voicebox puede realizar muchas tareas para las que no ha sido capacitado. Por ejemplo, el modelo puede usar una muestra de voz de dos segundos para generar voz para texto nuevo. Meta dice que esta capacidad se puede usar para llevar el habla a las personas que no pueden hablar o personalizar las voces de los personajes del juego que no se pueden jugar y los asistentes virtuales.
Otro rasgo relevante es que realiza la transferencia de estilo de diferentes maneras. Por ejemplo, puede proporcionar al modelo dos muestras de audio y texto. Utilizará la primera muestra de audio como referencia de estilo y modificará la segunda para que coincida con la voz y el tono de la referencia. Curiosamente, el modelo puede hacer lo mismo en diferentes idiomas, lo que podría usarse para “ayudar a las personas a comunicarse de una manera natural y auténtica, incluso si no hablan los mismos idiomas”.
El modelo también puede realizar una variedad de tareas de edición. Por ejemplo, si un perro ladra de fondo mientras está grabando su voz, puede proporcionar el audio y la transcripción a Voicebox y enmascarar el segmento con el ruido de fondo. El modelo utilizará la transcripción para generar la parte faltante del audio sin el ruido de fondo.
La misma técnica se puede utilizar para editar el habla. Por ejemplo, si ha escrito mal una palabra, puede enmascarar esa parte de la muestra de audio y pasarla a Voicebox junto con una transcripción del texto editado. El modelo generará la parte que falta con el nuevo texto de una manera que coincida con la voz y el tono circundantes.
Una de las aplicaciones interesantes de Voicebox es el muestreo de voz. El modelo puede generar varias muestras de voz a partir de una sola secuencia de texto. Esta capacidad se puede utilizar para generar datos sintéticos para entrenar otros modelos de procesamiento de voz.
“Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real”, escribe Meta.
Voicebox también tiene límites. Dado que se ha entrenado con datos de audiolibros, no se transfiere bien al habla conversacional que es informal y contiene sonidos no verbales. Tampoco proporciona un control total sobre los diferentes atributos del discurso generado, como el estilo de voz, el tono, la emoción y la condición acústica. El equipo de investigación de Meta está explorando técnicas para superar estas limitaciones en el futuro.
Existe una creciente preocupación por las amenazas del contenido generado por IA. Por ejemplo, los ciberdelincuentes recientemente intentaron estafar a una mujer llamándola y usando una voz generada por IA para hacerse pasar por su nieto. Los sistemas avanzados de síntesis de voz, como Voicebox, podrían usarse para propósitos similares u otros actos nefastos, como crear evidencia falsa o manipular audio real.
“Al igual que con otras poderosas innovaciones nuevas de IA, reconocemos que esta tecnología conlleva el potencial de uso indebido y daño no intencionado”, escribió Meta en su blog de IA. Debido a estas preocupaciones, Meta no lanzó el modelo, pero proporcionó detalles técnicos sobre la arquitectura y el proceso de capacitación en el documento técnico.
El documento también contiene detalles sobre un modelo clasificador que puede detectar voz y audio generado por Voicebox para mitigar los riesgos de usar el modelo.
Otras notas que también te pueden interesar:
¿Qué es WhatsApp Channels? La más reciente actualización de Meta para la plataforma
Meta está por lanzar su propia versión de Twitter
ImageBind, la nueva creación de Meta de IA generativa con percepción humana