ChatGPT, Claude e Gemini: qual LLM usar nas suas tarefas financeiras?

Dados de benchmarks reais mostram o que cada modelo entrega para finanças corporativas: velocidade, profundidade analítica ou volume de documentos.

Quando o Patronus AI testou modelos de linguagem com perguntas sobre demonstrações financeiras reais no benchmark FinanceBench, o resultado foi desconfortável: o GPT-4-Turbo errou ou se recusou a responder 81% das questões em configurações realistas. Isso não significa que LLMs são inúteis para finanças — significa que a escolha do modelo e da tarefa importa muito mais do que a maioria das equipes financeiras percebe.

A boa notícia: os modelos de 2025-2026 são substancialmente melhores. A pergunta deixou de ser "será que IA funciona para finanças?" e virou "qual modelo usar para cada tipo de tarefa?"

Os benchmarks que mais importam para finanças

O AIMultiple mantém um benchmark atualizado com 238 questões de raciocínio quantitativo avançado focado especificamente em finanças (atualizado em março de 2026). Os resultados do topo:

Modelo Acurácia Tokens consumidos
GPT-5 88,23% 829.720
Claude Opus 4.6 87,82% 164.369
GPT-5-mini 87,39% 595.505
Gemini 3.1 Pro Preview 86,55% 475.148
Claude Sonnet 4.6 83,61% 161.035
Gemini 2.5 Flash 65,55%

O número que chama atenção não é a acurácia em si — é a eficiência. Claude Opus 4.6 entrega praticamente o mesmo resultado que o GPT-5 usando 5 vezes menos tokens. Para equipes que processam alto volume de documentos financeiros via API, essa diferença se traduz diretamente em custo.

Existe também o Finance Agent Benchmark da vals.ai, que mede não apenas respostas, mas a capacidade de executar fluxos financeiros complexos (tarefas agênticas de múltiplos passos). Aqui o ranking muda levemente:

Modelo Acurácia (tarefas agênticas)
Claude Opus 4.6 (Thinking) 60,65%
GPT-5.1 56,55%
Claude Sonnet 4.5 (Thinking) 55,32%

Passou no CFA, mas cuidado com as faturas

Modelos de raciocínio como o4-mini e Gemini 2.5 Pro já passaram no exame CFA Nível III — a prova mais difícil da certificação de analistas financeiros, com taxa de aprovação humana historicamente abaixo de 60%. O4-mini acertou 79,1%; Gemini 2.5 Pro, 75,9%; Gemini 3.0 Pro chegou a 97,6% no Nível I.

A Universidade de Chicago (Booth School of Business) testou GPT-4 em 39.533 demonstrações financeiras anonimizadas de 1982 a 2021. Resultado: 60,31% de acurácia na previsão de alta ou queda de lucros. Analistas humanos profissionais acertaram 52,71% no mesmo período. O GPT foi de 6 a 80 vezes mais rápido.

Mas o benchmark FinanceBench lembra que esses números têm contexto. Quando as perguntas envolvem documentos financeiros específicos (10-K, balanços, demonstrações de resultado) e o modelo precisa localizar dados precisos em vez de raciocinar sobre conceitos gerais, a taxa de erro sobe dramaticamente. A ordem em que o contexto é apresentado ao GPT-4-Turbo variou a acurácia de 25% para 78% — sem mudar o modelo, só reorganizando o texto.

A conclusão prática: LLMs são bons em raciocínio financeiro conceitual, mas frágeis quando dependem de recuperar dados específicos de documentos longos sem suporte de RAG (Retrieval-Augmented Generation).

Due diligence: o teste que mais importa para o financeiro corporativo

A consultoria ToltIQ avaliou os três modelos em 16 casos reais de due diligence para private equity, usando filings 10-K da Amazon de 2008 a 2024 — documentos densos, com dezenas de páginas, exatamente o tipo de trabalho que um analista faz na prática.

Modelo Score final Tempo Qualidade analítica
Claude Sonnet 4 71/100 61,7 seg 8,02/10
GPT-4.1 60/100 36,2 seg 6,62/10
Gemini 2.5 Pro 47/100 95,3 seg 5,81/10

Claude liderou em acurácia, raciocínio e resolução de problemas. GPT-4.1 foi o mais rápido. Gemini consultou 2,3 vezes mais fontes que o GPT, mas os outputs receberam pontuação qualitativa mais baixa — a ToltIQ classificou o Gemini como "ainda inadequado para uso direto com clientes" nesse tipo de análise.

Isso não descredencia o Gemini — significa que seu ponto forte está em outro lugar.

Quando cada modelo se destaca

GPT-4o / GPT-4.1 (OpenAI): Velocidade e ecossistema. A integração nativa com Microsoft 365 (via Copilot) já está no ambiente que a maioria das equipes financeiras usa. A XP Inc. economizou mais de 9.000 horas com Microsoft 365 Copilot. A janela de contexto de 128.000 tokens é suficiente para a maioria das tarefas. Ponto de atenção: no CFA Nível I, GPT-4o apresentou o maior índice de erros de inconsistência entre os três modelos (29,73%).

Claude Sonnet / Opus 4.6 (Anthropic): Profundidade analítica. Melhor em tarefas que exigem raciocínio financeiro complexo, due diligence e calibração de confiança. A janela de contexto de 200.000 tokens (e até 1 milhão com recall acima de 95%) permite processar relatórios extensos integralmente. O Banco Bradesco construiu o BIA Tech com Claude via parceiro, alcançando 46% de aumento de produtividade na equipe de desenvolvedores e 65% de ganho de eficiência na auditoria interna.

Gemini 2.5 Pro (Google): Volume e multimodalidade. A janela de contexto de 1 milhão de tokens é a maior entre os três — permite ingerir uma biblioteca inteira de contratos, regulamentos ou histórico de transações de uma só vez. A integração nativa com Google Workspace é vantagem para quem já usa Sheets e Drive. O Deutsche Bank usou Gemini no DB Lumina para sua equipe de research: economizou 30 a 45 minutos por nota de resultados e até 2 horas por relatório completo, com 97% de acurácia no processamento de documentos.

A alucinação ainda é real

Deloitte Survey (2024) revelou que 47% dos usuários corporativos de IA tomaram ao menos uma decisão importante baseada em informação alucinada. O custo global de alucinações em 2024 foi estimado em US$ 67,4 bilhões.

Os benchmarks de alucinação do FaithJudge (2025) mostram:

  • Gemini 2.5 Flash: ~6,3% de respostas infiéis ao contexto
  • GPT-4o: ~15,8%
  • Claude 3.7 Sonnet: ~16% (com melhor calibração de confiança — menos overconfidence)

O número do Gemini pode surpreender quem esperava que Claude fosse melhor aqui. A diferença está na metodologia: Claude é menos propenso a apresentar alucinações com excesso de confiança — quando erra, há mais sinais de incerteza na resposta. Para finanças corporativas, onde a confiança declarada num dado errado é particularmente perigosa, esse detalhe importa.

Implementar RAG (conectar o LLM à base de dados interna) reduz alucinações em até 71%, independentemente do modelo escolhido.

O insight do Goldman Sachs

O GS AI Assistant, lançado pelo Goldman Sachs para todos os funcionários em meados de 2025 após piloto com 10.000 colaboradores, tem arquitetura model-agnostic: acessa GPT (OpenAI), Gemini (Google) e Claude (Anthropic) no mesmo ambiente. O Goldman não escolheu um. Orquestra os três por tipo de tarefa.

O JPMorgan segue caminho similar. O LLM Suite — eleito "Inovação do Ano 2025" pelo American Banker — foi expandido de 50.000 para 200.000 colaboradores em menos de um ano, gerando US$ 1,5 bilhão de valor anual. A ferramenta "ChatCFO" é um LLM específico para a equipe financeira do banco.

Para a maioria das empresas brasileiras, a realidade é mais simples: um modelo já é suficiente para começar. Mas o movimento das grandes instituições aponta para onde o mercado vai.

Próximos Passos

  1. Defina a tarefa antes do modelo — análise de documentos extensos aponta para Gemini; due diligence e raciocínio complexo, para Claude; workflows integrados ao Microsoft 365, para GPT. Não comece pela ferramenta.
  2. Implemente RAG antes de cobrar acurácia — conectar o LLM aos dados internos (balanços, contratos, histórico de transações) é o passo que transforma um modelo genérico em ferramenta financeira confiável. A redução de alucinações chega a 71%.
  3. Teste com tarefas reais da sua equipe — benchmarks são referência, não oráculo. Uma tarefa específica do seu ambiente (análise de variância orçamentária, revisão de contratos, categorização de despesas) pode ter resultado diferente do ranking geral.
  4. Use modelos de raciocínio para decisões críticas — quando a profundidade importa mais que a velocidade, acione o modo Thinking do Claude ou os modelos o1/o4 da OpenAI. A melhoria em raciocínio financeiro complexo justifica o custo maior e o tempo adicional.
  5. Acompanhe o custo por tarefa — Claude Opus 4.6 entrega quase o mesmo resultado que GPT-5 com 5x menos tokens. Em operações de alto volume (processamento de faturas, análise de extratos), essa eficiência muda o ROI do projeto.

Fontes: