Meta lança AudioCraft, IA generativa que cria músicas e sons a partir de textos

Fonte: tecmundo.com.br / Publicado em: 02/08/2023 / Por Carlos Palmeira

A Meta anunciou, nesta quarta-feira (02), o lançamento do AudioCraft, uma plataforma de inteligência artificial (IA) generativa que cria sons e músicas a partir de textos. A ferramenta está disponível para fins de pesquisa e será liberada para todos em breve.

De acordo com a big tech, o AudioCraft servirá para vários públicos. Músicos profissionais poderão explorar novas composições e batidas, desenvolvedores de jogos poderão criar efeitos sonoros e empreendedores poderão adicionar trilhas sonoras em suas publicações no Instagram, por exemplo.

As primeiras amostras de áudio divulgadas pela Meta mostram um pouco como a tecnologia funciona. O sistema criou áudios com qualidade a partir de inputs simples de textos como “Assobiando com vento soprando” e “Sirenes e um zumbido de motor se aproximam e passam”.

Além dos sons naturais, o AudioCraft criou batidas musicais, que são mais complexas. Em outra amostra, a Meta divulgou um trecho de 30 segundos que foi criado após o input do texto “faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeito para a praia”.

Em uma publicação em seu blog oficial, a companhia pontuou que a inovação é mais fácil de trabalhar do que outros modelos generativos para áudio. Apesar de não citar nominalmente, a empresa se referiu a iniciativas como o Jukebox, da OpenAI, e o MusicLM, do Google.

“Com o AudioCraft, simplificamos o design geral de modelos generativos para áudio em comparação com trabalhos anteriores no campo – dando às pessoas a receita completa para brincar com os modelos existentes que a Meta vem desenvolvendo nos últimos anos, além de capacitá-los a ultrapassar os limites e desenvolver seus próprios modelos”, diz trecho do texto.

Como o AudioCraft foi treinado?
O AudioCraft é composto por três modelos: MusicGen, AudioGen e EnCodec. O primeiro foi treinado com músicas licenciadas e de propriedade da Meta, e por isso gera músicas a partir de prompts de texto.

No caso do AudioGen, a IA foi treinada a partir de efeitos sonoros públicos, deixando a ferramenta apta para criar áudios como cantos de pássaros também a partir de prompts de texto.

Já o EnCodec é um decodificador de gravações sonoras que permite resultados de alta qualidade mesmo com arquivos comprimidos. Este modelo, anunciado no ano passado, recebeu melhorias.

“O AudioCraft funciona para geração e compactação de música e som – tudo no mesmo lugar. Como é fácil construir e reutilizar, as pessoas que desejam construir melhores geradores de som, algoritmos de compressão ou geradores de música podem fazer tudo na mesma base de código e construir sobre o que outros já fizeram”, explicou a Meta.

Para melhorar as soluções, o AudioCraft está com código aberto para que pesquisadores e desenvolvedores possam ajudar a melhorar a ferramenta.

Link original: Clique aqui

* Este é um espaço de debate sobre tecnologia. A opinião dos autores não reflete necessariamente o ponto de vista da Sinergia.