A nova versão do chatbot Grok, da xAI, demonstrou qualidade comparável à de grandes modelos concorrentes ao responder perguntas sobre o jogo Baldur’s Gate. O desempenho foi constatado em um teste realizado pela equipe da TechCrunch, que comparou o sistema com ChatGPT (OpenAI), Claude (Anthropic) e Gemini (Google).
Como foi o teste
O repórter Ram Iyer elaborou cinco questões gerais sobre o RPG e submeteu cada uma aos quatro modelos, batizando o experimento de “BaldurBench”. As transcrições completas das conversas foram disponibilizadas ao público para consulta.
Resultados
Segundo a análise, Grok forneceu instruções precisas e bem-fundamentadas, embora repletas de jargão gamer, como “save-scumming” e “DPS”. O chatbot também apresentou respostas em formato de tabelas e teorias de otimização de personagem, características vistas como positivas para jogadores experientes.
As maiores diferenças entre os modelos foram de estilo. O ChatGPT preferiu listas com marcadores; Gemini destacou termos importantes em negrito; já Claude evitou spoilers e encerrou suas recomendações incentivando o usuário a “jogar o que parecer divertido”.
Foco de Musk em jogos atrasou lançamento
O bom desempenho de Grok ocorre após um episódio relatado pelo Business Insider. De acordo com a reportagem da jornalista Grace Kay, um lançamento do modelo foi adiado por vários dias em 2025 porque o fundador Elon Musk ficou insatisfeito com as respostas sobre Baldur’s Gate. Engenheiros de alto nível teriam sido deslocados de outras tarefas para aprimorar especificamente esse tópico.

Imagem: Getty
Embora o teste da TechCrunch indique que Grok agora atua no mesmo nível dos rivais ao tratar do jogo, a publicação ressalta que o resultado reflete um esforço direcionado da xAI para atingir essa paridade.
Com informações de TechCrunch







