A OpenAI divulgou nesta segunda-feira, 6 de outubro de 2025, uma série de atualizações em sua API durante o Dev Day, incluindo o lançamento do GPT-5 Pro, do gerador de áudio e vídeo Sora 2 e do modelo de voz gpt-realtime mini.
GPT-5 Pro chega à API
Segundo o CEO Sam Altman, o GPT-5 Pro oferece maior precisão e capacidade de raciocínio, características voltadas a aplicações nos setores financeiro, jurídico e de saúde. O modelo já está disponível para desenvolvedores interessados em integrar linguagem natural avançada a seus sistemas.
Novo modelo de voz: gpt-realtime mini
A empresa também estreou o gpt-realtime mini, versão mais enxuta e econômica de seu modelo de voz. A OpenAI afirma que a novidade custa 70% menos que o modelo de voz avançado anterior, mantendo a mesma qualidade e expressividade. O recurso oferece streaming de áudio de baixa latência, voltado a interações em tempo real.
Sora 2 entra em prévia
Desenvolvedores já podem testar o Sora 2 em modo prévia pela API. O modelo foi apresentado na semana passada junto ao aplicativo Sora, concorrente do TikTok que exibe vídeos curtos gerados por IA. Entre os avanços, o Sora 2 produz cenas mais realistas, fisicamente consistentes e com áudio sincronizado, além de permitir controle criativo detalhado, como direção de câmera e estilos visuais.
Altman destacou exemplos de uso, como ampliar a visão de um iPhone para uma tomada cinematográfica e combinar trilhas sonoras, efeitos e ambientes de acordo com a imagem. O executivo também citou a aplicação do modelo na fase de conceito de produtos, a exemplo de um designer da Mattel transformando um esboço em proposta de brinquedo.

Imagem: Internet
Ferramentas adicionais
Além dos novos modelos, o Dev Day apresentou uma ferramenta para criação de agentes e a possibilidade de desenvolver aplicativos diretamente no ChatGPT, movimentos que reforçam a tentativa da OpenAI de consolidar seu ecossistema junto à comunidade de desenvolvedores.
Com as atualizações, a empresa busca ampliar o uso comercial de suas soluções de IA e facilitar a integração de recursos de linguagem, voz e vídeo em produtos de terceiros.
Com informações de TechCrunch