AudioGen, un generador de sonido que hace su trabajo a partir de descripciones textuales. En ese sentido, un equipo conformado por investigadores de Meta y de la Universidad Hebrea de Jerusalén explicaron que AudioGen funciona a partir de un modelo generativo autorregresivo, el cual se encarga de interpretar las peticiones textuales del usuario para generar el audio final.
En su cuenta de Twitter el investigador Felix Kreuk publicó un tuit de un audio generado con AudioGen, en el cual pueden escucharse una serie de sonidos, tales como el silbido de una persona mientras el viento sopla, una persona hablando al mismo tiempo que se escuchan pájaros cantando y perros ladrando, entre otros sonidos generados como resultado de los textos introducidos en AudioGen.
Los investigadores responsables de AudioGen aseguraron que esta herramienta ha sido diseñada de manera que sea capaz de superar las dificultades que puedan estar presentes en la generación de audio. Esto permite que AudioGen pueda ser capaz de reconocer diferentes tipos de sonidos y aislarlos acústicamente.
Esto significa que para un audio donde dos personas estén hablando al mismo tiempo, AudioGen podría obtener el audio de cada una por separado, lo cual constituye una cualidad bastante útil por parte de esta herramienta para muestras de audio precisas.
Para el entrenamiento de esta herramienta, el equipo señaló que se utilizaron diez conjuntos de datos de audio y etiquetas coincidentes.
Es necesario aclarar que este proyecto aún se encuentra en fase de desarrollo, por lo que el público tendrá que esperar para poder tener acceso, aunque próximamente tendrán la oportunidad de acceder al código de AudioGen y otros detalles en su perfil de GitHub.
Añadido a esto, mencionaron que continuarán trabajando en AudioGen para mejorar sus capacidades.
Pingback: Lista de herramientas gratuitas de escritura online que todos deben conocer - Nerdilandia
Pingback: PodLM: Los podcast usando Inteligencia Artificial - Nerdilandia