Aprendizado por reforço acelera evolução de IA para programação, mas freia avanço em outras tarefas

Ferramentas de inteligência artificial voltadas à escrita de código apresentam melhorias expressivas, enquanto funções como a redação de e-mails evoluem de forma mais lenta. A constatação, feita em 5 de outubro de 2025, foi batizada de “lacuna do reforço” e relaciona o ritmo de progresso ao uso de aprendizado por reforço (RL).

Modelos de última geração — entre eles GPT-5, Gemini 2.5 e Sonnet 4.5 — permitiram automatizar novas tarefas de desenvolvimento de software. O avanço se apoia em bilhões de testes objetivos, que indicam se o código gerado compila e passa por verificações de unidade, integração e segurança. Essa estrutura fornece o sinal de aprovação ou reprovação necessário para repetir o treinamento em larga escala sem interferência humana.

Em contraste, produtos que dependem de habilidades mais subjetivas, como escrever e-mails ou responder a usuários em chatbots, recebem menos benefícios mesmo quando o modelo subjacente é atualizado. Como não existe um critério de avaliação claro nessas situações, o aprendizado por reforço é menos eficaz.

Testabilidade define velocidade de progresso

Segundo um diretor sênior de ferramentas de desenvolvimento do Google, o mesmo arsenal de testes que garante a qualidade do trabalho de programadores humanos serve para validar código criado por IA, tornando o ambiente ainda mais favorável ao RL. Já atividades como a elaboração de relatórios financeiros ou análises atuariais carecem de conjuntos de testes padronizados; nesses casos, apenas empresas com recursos suficientes conseguem criar estruturas de validação próprias.

Algumas áreas consideradas difíceis de avaliar começam a surpreender. O novo modelo Sora 2, da OpenAI, por exemplo, exibe avanços notáveis em vídeo gerado por IA: rostos mantêm consistência, objetos deixam de surgir ou desaparecer repentinamente e leis da física são respeitadas. A expectativa é que esses resultados sejam fruto de algoritmos de reforço aplicados a cada um desses critérios.

Aprendizado por reforço acelera evolução de IA para programação, mas freia avanço em outras tarefas - Imagem do artigo original

Imagem: Getty

Impacto para startups e mercado de trabalho

Enquanto o RL permanecer ferramenta central para levar produtos de IA ao mercado, a “lacuna do reforço” tende a se ampliar. Processos capazes de receber avaliação automática devem ser automatizados primeiro, alterando a demanda por profissionais nessas áreas. O efeito é particularmente relevante em serviços de saúde e outras funções onde ainda se busca definir se tarefas podem ser treinadas por reforço.

O debate sobre quais atividades serão impactadas segue aberto, e avanços inesperados, como o observado no Sora 2, indicam que respostas podem surgir rapidamente.

Com informações de TechCrunch