A Stability AI, conhecida pelo modelo de imagem Stable Diffusion, apresentou nesta quarta-feira, 20 de maio de 2026, a família de modelos de áudio Stable Audio 3.0. Segundo a empresa, a versão mais robusta produz faixas profissionais com mais de seis minutos de duração.
Quatro modelos com diferentes capacidades
O pacote inclui quatro opções:
- small SFX – 459 milhões de parâmetros
- small – 459 milhões de parâmetros
- medium – 1,4 bilhão de parâmetros
- large – 2,7 bilhões de parâmetros
Os dois modelos “small” geram efeitos sonoros e músicas de até dois minutos diretamente em dispositivos locais. Já as versões medium e large entregam composições completas de 6 minutos e 20 segundos, prazo mais que dobrado em relação ao Stable Audio 2.0, lançado em 2024.
Disponibilidade e licenciamento
As variantes small SFX, small e medium têm pesos abertos para que desenvolvedores possam usar e modificar livremente. A versão large fica restrita à API da companhia e a serviços pagos de auto-hospedagem; organizações com receita anual superior a US$ 1 milhão precisam de licença corporativa.
Dados licenciados e novas parcerias
A Stability AI afirma que os modelos foram treinados exclusivamente com conteúdo licenciado. Em 2025, a empresa firmou acordos com Warner Music Group e Universal Music Group para desenvolver ferramentas de criação musical. O ex-executivo Ethan Kaplan, que passou por Universal Audio e Fender, foi contratado para liderar a oferta profissional da startup, ainda sem detalhes divulgados.

Imagem: Getty
Concorrência e movimento no mercado
O anúncio ocorre em meio a uma corrida de grandes nomes, como Google e ElevenLabs, por soluções de geração musical. Disputas judiciais envolvendo Suno e Udio ressaltam a importância do licenciamento de dados para a sustentabilidade desses serviços. Seguindo a tendência, Suno trouxe Jeremy Sirota (ex-Merlin) e a ElevenLabs contratou Derek Cournoyer (ex-Kobalt) para fortalecer suas operações na área.
Com o lançamento, a Stability AI amplia o alcance de suas ferramentas de áudio e passa a oferecer duração e qualidade superiores às versões abertas precedentes, que geravam no máximo 47 segundos de música em 2024.
Com informações de TechCrunch







