São Paulo, 2 de abril de 2026 – O laboratório de pesquisa Microsoft AI anunciou nesta quinta-feira (2) o lançamento de três modelos fundacionais de inteligência artificial capazes de gerar texto, voz e vídeo.
Batizados de MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2, os sistemas integram a estratégia da companhia de ampliar seu portfólio próprio de modelos multimodais, mesmo mantendo parceria com a OpenAI.
Principais características
MAI-Transcribe-1 converte fala em texto em 25 idiomas e, segundo a Microsoft, é 2,5 vezes mais rápido que a oferta Azure Fast. Já o MAI-Voice-1 gera 60 segundos de áudio em apenas um segundo e permite criar vozes personalizadas. O MAI-Image-2 é focado em geração de vídeo.
Disponibilidade
O MAI-Image-2 foi disponibilizado inicialmente em 19 de março no MAI Playground, plataforma de testes de modelos de linguagem. Agora, os três modelos chegam ao Microsoft Foundry; os de transcrição e voz também passam a integrar o Playground.
Equipe de desenvolvimento
Os modelos foram criados pela equipe MAI Superintelligence, liderada por Mustafa Suleyman, CEO da Microsoft AI. O grupo foi formado e anunciado em novembro de 2025.
Posicionamento e preços
No blog oficial, Suleyman destacou a proposta de construir uma “IA Humanista”, centrada no usuário e voltada ao uso prático. A Microsoft afirma que o custo dos novos modelos é inferior ao cobrado por Google e OpenAI:

Imagem: Getty
- MAI-Transcribe-1: a partir de US$ 0,36 por hora;
- MAI-Voice-1: a partir de US$ 22 por 1 milhão de caracteres;
- MAI-Image-2: US$ 5 por 1 milhão de tokens de entrada de texto e US$ 33 por 1 milhão de tokens de saída de imagem.
Parceria com a OpenAI
Apesar do avanço em modelos próprios, Suleyman reafirmou à VentureBeat o compromisso com a OpenAI. Uma renegociação recente do acordo – que já rendeu mais de US$ 13 bilhões em investimentos da Microsoft – abriu espaço para aprofundar pesquisas em superinteligência, disse o executivo ao The Verge.
O enfoque da empresa segue o mesmo adotado para semicondutores: produzir soluções internas sem deixar de adquirir tecnologia de terceiros.
Com informações de TechCrunch







