ChatGPT, Claude e Gemini: qual LLM usar nas suas tarefas financeiras?
Dados de benchmarks reais mostram o que cada modelo entrega para finanças corporativas: velocidade, profundidade analítica ou volume de documentos.
Quando o Patronus AI testou modelos de linguagem com perguntas sobre demonstrações financeiras reais no benchmark FinanceBench, o resultado foi desconfortável: o GPT-4-Turbo errou ou se recusou a responder 81% das questões em configurações realistas. Isso não significa que LLMs são inúteis para finanças — significa que a escolha do modelo e da tarefa importa muito mais do que a maioria das equipes financeiras percebe.
A boa notícia: os modelos de 2025-2026 são substancialmente melhores. A pergunta deixou de ser "será que IA funciona para finanças?" e virou "qual modelo usar para cada tipo de tarefa?"
Os benchmarks que mais importam para finanças
O AIMultiple mantém um benchmark atualizado com 238 questões de raciocínio quantitativo avançado focado especificamente em finanças (atualizado em março de 2026). Os resultados do topo:
| Modelo | Acurácia | Tokens consumidos |
|---|---|---|
| GPT-5 | 88,23% | 829.720 |
| Claude Opus 4.6 | 87,82% | 164.369 |
| GPT-5-mini | 87,39% | 595.505 |
| Gemini 3.1 Pro Preview | 86,55% | 475.148 |
| Claude Sonnet 4.6 | 83,61% | 161.035 |
| Gemini 2.5 Flash | 65,55% | — |
O número que chama atenção não é a acurácia em si — é a eficiência. Claude Opus 4.6 entrega praticamente o mesmo resultado que o GPT-5 usando 5 vezes menos tokens. Para equipes que processam alto volume de documentos financeiros via API, essa diferença se traduz diretamente em custo.
Existe também o Finance Agent Benchmark da vals.ai, que mede não apenas respostas, mas a capacidade de executar fluxos financeiros complexos (tarefas agênticas de múltiplos passos). Aqui o ranking muda levemente:
| Modelo | Acurácia (tarefas agênticas) |
|---|---|
| Claude Opus 4.6 (Thinking) | 60,65% |
| GPT-5.1 | 56,55% |
| Claude Sonnet 4.5 (Thinking) | 55,32% |
Passou no CFA, mas cuidado com as faturas
Modelos de raciocínio como o4-mini e Gemini 2.5 Pro já passaram no exame CFA Nível III — a prova mais difícil da certificação de analistas financeiros, com taxa de aprovação humana historicamente abaixo de 60%. O4-mini acertou 79,1%; Gemini 2.5 Pro, 75,9%; Gemini 3.0 Pro chegou a 97,6% no Nível I.
A Universidade de Chicago (Booth School of Business) testou GPT-4 em 39.533 demonstrações financeiras anonimizadas de 1982 a 2021. Resultado: 60,31% de acurácia na previsão de alta ou queda de lucros. Analistas humanos profissionais acertaram 52,71% no mesmo período. O GPT foi de 6 a 80 vezes mais rápido.
Mas o benchmark FinanceBench lembra que esses números têm contexto. Quando as perguntas envolvem documentos financeiros específicos (10-K, balanços, demonstrações de resultado) e o modelo precisa localizar dados precisos em vez de raciocinar sobre conceitos gerais, a taxa de erro sobe dramaticamente. A ordem em que o contexto é apresentado ao GPT-4-Turbo variou a acurácia de 25% para 78% — sem mudar o modelo, só reorganizando o texto.
A conclusão prática: LLMs são bons em raciocínio financeiro conceitual, mas frágeis quando dependem de recuperar dados específicos de documentos longos sem suporte de RAG (Retrieval-Augmented Generation).
Due diligence: o teste que mais importa para o financeiro corporativo
A consultoria ToltIQ avaliou os três modelos em 16 casos reais de due diligence para private equity, usando filings 10-K da Amazon de 2008 a 2024 — documentos densos, com dezenas de páginas, exatamente o tipo de trabalho que um analista faz na prática.
| Modelo | Score final | Tempo | Qualidade analítica |
|---|---|---|---|
| Claude Sonnet 4 | 71/100 | 61,7 seg | 8,02/10 |
| GPT-4.1 | 60/100 | 36,2 seg | 6,62/10 |
| Gemini 2.5 Pro | 47/100 | 95,3 seg | 5,81/10 |
Claude liderou em acurácia, raciocínio e resolução de problemas. GPT-4.1 foi o mais rápido. Gemini consultou 2,3 vezes mais fontes que o GPT, mas os outputs receberam pontuação qualitativa mais baixa — a ToltIQ classificou o Gemini como "ainda inadequado para uso direto com clientes" nesse tipo de análise.
Isso não descredencia o Gemini — significa que seu ponto forte está em outro lugar.
Quando cada modelo se destaca
GPT-4o / GPT-4.1 (OpenAI): Velocidade e ecossistema. A integração nativa com Microsoft 365 (via Copilot) já está no ambiente que a maioria das equipes financeiras usa. A XP Inc. economizou mais de 9.000 horas com Microsoft 365 Copilot. A janela de contexto de 128.000 tokens é suficiente para a maioria das tarefas. Ponto de atenção: no CFA Nível I, GPT-4o apresentou o maior índice de erros de inconsistência entre os três modelos (29,73%).
Claude Sonnet / Opus 4.6 (Anthropic): Profundidade analítica. Melhor em tarefas que exigem raciocínio financeiro complexo, due diligence e calibração de confiança. A janela de contexto de 200.000 tokens (e até 1 milhão com recall acima de 95%) permite processar relatórios extensos integralmente. O Banco Bradesco construiu o BIA Tech com Claude via parceiro, alcançando 46% de aumento de produtividade na equipe de desenvolvedores e 65% de ganho de eficiência na auditoria interna.
Gemini 2.5 Pro (Google): Volume e multimodalidade. A janela de contexto de 1 milhão de tokens é a maior entre os três — permite ingerir uma biblioteca inteira de contratos, regulamentos ou histórico de transações de uma só vez. A integração nativa com Google Workspace é vantagem para quem já usa Sheets e Drive. O Deutsche Bank usou Gemini no DB Lumina para sua equipe de research: economizou 30 a 45 minutos por nota de resultados e até 2 horas por relatório completo, com 97% de acurácia no processamento de documentos.
A alucinação ainda é real
Deloitte Survey (2024) revelou que 47% dos usuários corporativos de IA tomaram ao menos uma decisão importante baseada em informação alucinada. O custo global de alucinações em 2024 foi estimado em US$ 67,4 bilhões.
Os benchmarks de alucinação do FaithJudge (2025) mostram:
- Gemini 2.5 Flash: ~6,3% de respostas infiéis ao contexto
- GPT-4o: ~15,8%
- Claude 3.7 Sonnet: ~16% (com melhor calibração de confiança — menos overconfidence)
O número do Gemini pode surpreender quem esperava que Claude fosse melhor aqui. A diferença está na metodologia: Claude é menos propenso a apresentar alucinações com excesso de confiança — quando erra, há mais sinais de incerteza na resposta. Para finanças corporativas, onde a confiança declarada num dado errado é particularmente perigosa, esse detalhe importa.
Implementar RAG (conectar o LLM à base de dados interna) reduz alucinações em até 71%, independentemente do modelo escolhido.
O insight do Goldman Sachs
O GS AI Assistant, lançado pelo Goldman Sachs para todos os funcionários em meados de 2025 após piloto com 10.000 colaboradores, tem arquitetura model-agnostic: acessa GPT (OpenAI), Gemini (Google) e Claude (Anthropic) no mesmo ambiente. O Goldman não escolheu um. Orquestra os três por tipo de tarefa.
O JPMorgan segue caminho similar. O LLM Suite — eleito "Inovação do Ano 2025" pelo American Banker — foi expandido de 50.000 para 200.000 colaboradores em menos de um ano, gerando US$ 1,5 bilhão de valor anual. A ferramenta "ChatCFO" é um LLM específico para a equipe financeira do banco.
Para a maioria das empresas brasileiras, a realidade é mais simples: um modelo já é suficiente para começar. Mas o movimento das grandes instituições aponta para onde o mercado vai.
Próximos Passos
- Defina a tarefa antes do modelo — análise de documentos extensos aponta para Gemini; due diligence e raciocínio complexo, para Claude; workflows integrados ao Microsoft 365, para GPT. Não comece pela ferramenta.
- Implemente RAG antes de cobrar acurácia — conectar o LLM aos dados internos (balanços, contratos, histórico de transações) é o passo que transforma um modelo genérico em ferramenta financeira confiável. A redução de alucinações chega a 71%.
- Teste com tarefas reais da sua equipe — benchmarks são referência, não oráculo. Uma tarefa específica do seu ambiente (análise de variância orçamentária, revisão de contratos, categorização de despesas) pode ter resultado diferente do ranking geral.
- Use modelos de raciocínio para decisões críticas — quando a profundidade importa mais que a velocidade, acione o modo Thinking do Claude ou os modelos o1/o4 da OpenAI. A melhoria em raciocínio financeiro complexo justifica o custo maior e o tempo adicional.
- Acompanhe o custo por tarefa — Claude Opus 4.6 entrega quase o mesmo resultado que GPT-5 com 5x menos tokens. Em operações de alto volume (processamento de faturas, análise de extratos), essa eficiência muda o ROI do projeto.
Fontes:
- Finance LLM Benchmark — AIMultiple
- Finance Agent Benchmark v1.1 — vals.ai
- Evaluation of LLMs for Financial Due Diligence — ToltIQ
- FinanceBench: A New Benchmark for Financial QA — arXiv
- Reasoning Models Ace the CFA Exams — arXiv
- Financial Statement Analysis with Large Language Models — Chicago Booth
- JPMorgan LLM Suite — JPMorgan Chase
- Deutsche Bank DB Lumina — Google Cloud Blog
- Bradesco BIA — Microsoft Customer Story
- AI Hallucination Rates Comparison — Llumo