Stability AI lança geração de áudio 3.0 capaz de criar músicas de seis minutos

A Stability AI, conhecida pelo modelo de imagem Stable Diffusion, apresentou nesta quarta-feira, 20 de maio de 2026, a família de modelos de áudio Stable Audio 3.0. Segundo a empresa, a versão mais robusta produz faixas profissionais com mais de seis minutos de duração.

Quatro modelos com diferentes capacidades

O pacote inclui quatro opções:

small SFX – 459 milhões de parâmetros
small – 459 milhões de parâmetros
medium – 1,4 bilhão de parâmetros
large – 2,7 bilhões de parâmetros

Os dois modelos “small” geram efeitos sonoros e músicas de até dois minutos diretamente em dispositivos locais. Já as versões medium e large entregam composições completas de 6 minutos e 20 segundos, prazo mais que dobrado em relação ao Stable Audio 2.0, lançado em 2024.

Disponibilidade e licenciamento

As variantes small SFX, small e medium têm pesos abertos para que desenvolvedores possam usar e modificar livremente. A versão large fica restrita à API da companhia e a serviços pagos de auto-hospedagem; organizações com receita anual superior a US$ 1 milhão precisam de licença corporativa.

Dados licenciados e novas parcerias

A Stability AI afirma que os modelos foram treinados exclusivamente com conteúdo licenciado. Em 2025, a empresa firmou acordos com Warner Music Group e Universal Music Group para desenvolver ferramentas de criação musical. O ex-executivo Ethan Kaplan, que passou por Universal Audio e Fender, foi contratado para liderar a oferta profissional da startup, ainda sem detalhes divulgados.

Stability AI lança geração de áudio 3.0 capaz de criar músicas de seis minutos - Imagem do artigo

Imagem: Getty

Concorrência e movimento no mercado

O anúncio ocorre em meio a uma corrida de grandes nomes, como Google e ElevenLabs, por soluções de geração musical. Disputas judiciais envolvendo Suno e Udio ressaltam a importância do licenciamento de dados para a sustentabilidade desses serviços. Seguindo a tendência, Suno trouxe Jeremy Sirota (ex-Merlin) e a ElevenLabs contratou Derek Cournoyer (ex-Kobalt) para fortalecer suas operações na área.

Com o lançamento, a Stability AI amplia o alcance de suas ferramentas de áudio e passa a oferecer duração e qualidade superiores às versões abertas precedentes, que geravam no máximo 47 segundos de música em 2024.

Com informações de TechCrunch