Vale do Silício aposta alto em “ambientes” para treinar agentes de IA

Laboratórios e investidores de tecnologia nos Estados Unidos estão destinando recursos cada vez maiores à criação de ambientes de aprendizado por reforço (RL), simuladores que permitem treinar agentes de inteligência artificial em tarefas de múltiplas etapas, como se estivessem usando softwares reais.

A tendência, segundo fontes ouvidas pelo TechCrunch, repete o papel que os conjuntos de dados rotulados tiveram na última onda de IA. “Todos os grandes laboratórios estão construindo ambientes internamente”, afirmou Jennifer Li, sócia da Andreessen Horowitz. “Mas, pela complexidade, eles também recorrem a fornecedores externos capazes de entregar simulações de alta qualidade.”

Startups bem financiadas entram no jogo

O movimento abriu espaço para uma nova safra de empresas. Entre elas, a Mechanize e a Prime Intellect, que buscam liderar esse mercado. Gigantes de rotulagem de dados, como Mercor e Surge, também estão direcionando investimentos às simulações interativas para acompanhar a migração do setor de conjuntos estáticos para ambientes dinâmicos.

Segundo a publicação, a Anthropic discute investir mais de US$ 1 bilhão em ambientes de RL nos próximos 12 meses. A expectativa de investidores é que alguma dessas empresas se torne o “Scale AI dos ambientes”, referência à companhia avaliada em US$ 29 bilhões que dominou o fornecimento de dados na era dos chatbots.

Como funcionam os ambientes de RL

Essas simulações reproduzem ações típicas em softwares. Um exemplo citado é um navegador Chrome virtual que pede ao agente comprar um par de meias na Amazon. A cada sucesso, o sistema envia um sinal de recompensa. Erros inesperados exigem que o ambiente seja robusto o bastante para registrar e avaliar o comportamento, aumentando a complexidade em comparação a um conjunto de dados tradicional.

Embora a técnica exista há anos—o OpenAI lançou o Gym em 2016 e o DeepMind venceu o campeão mundial de Go com AlphaGo no mesmo período—, a diferença agora é o uso de modelos transformadores de propósito geral, capazes de interagir com múltiplas ferramentas e aplicativos.

Os principais players

  • Surge criou uma divisão interna dedicada a ambientes e relatou receita de US$ 1,2 bilhão em 2024, atendendo OpenAI, Google, Anthropic e Meta.
  • Mercor, avaliada em US$ 10 bilhões, oferece simulações voltadas a domínios específicos como programação, saúde e direito.
  • Scale AI, que perdeu contratos após a saída de seu CEO para a Meta, também desenvolve ambientes. “Adaptamos-nos rapidamente às novas frentes, como fizemos com veículos autônomos e depois com chatbots”, disse Chetan Rane, chefe de produto.
  • Mechanize, criada há seis meses, foca inicialmente em ambientes para agentes de código e oferece salários de US$ 500 mil a engenheiros de software. Fontes informam parceria com a Anthropic.
  • Prime Intellect, apoiada por Andrej Karpathy, Founders Fund e Menlo Ventures, lançou um hub de ambientes—uma espécie de “Hugging Face” para RL—e vende acesso computacional a desenvolvedores.

Desafios e ceticismo

Treinar agentes em ambientes de RL tende a exigir mais recursos computacionais do que técnicas anteriores, o que cria oportunidades para fornecedores de GPU. Contudo, pesquisadores alertam para obstáculos como o “reward hacking”, quando o modelo encontra formas de obter recompensas sem cumprir a tarefa.

Vale do Silício aposta alto em “ambientes” para treinar agentes de IA - Imagem do artigo original

Imagem: Getty

“As pessoas subestimam a dificuldade de escalar esses ambientes”, avaliou Ross Taylor, ex-líder de pesquisa da Meta e cofundador da General Reasoning. Sherwin Wu, chefe de engenharia da OpenAI para APIs, afirmou em podcast que o segmento é “muito competitivo” e evolui rápido demais para os fornecedores acompanharem.

Mesmo apoiador do conceito, Andrej Karpathy ponderou no X que, embora veja potencial nos ambientes e interações de agentes, é “cético em relação ao reforço em si”.

Enquanto o debate continua, laboratórios como OpenAI e Anthropic apostam que a combinação de mais dados, mais computação e simulações realistas poderá sustentar novos avanços em IA, especialmente depois de sinais de esgotamento das abordagens anteriores.

Com informações de TechCrunch

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Notícias Recentes

Compartilhe como preferir

Copiar Link
WhatsApp
Facebook
Email