Artigos

Os riscos de alucinação em LLMs financeiros e como mitigá-los

Benchmarks mostram inconsistências em todos os modelos. Conheça os controles e técnicas de verificação necessários.

Claudinho Kobs

24 Nov 2025 — 6 min read

Um estudo de 2024 revelou que LLMs podem alucinar em até 41% das consultas relacionadas a finanças — gerando informações plausíveis, detalhadas e completamente erradas. Para colocar em perspectiva: se um analista financeiro errasse 4 em cada 10 respostas, seria demitido no primeiro mês. Mas quando um LLM faz isso, muitas vezes o erro passa despercebido — justamente porque a resposta parece correta.

O caso da Air Canada ilustra o risco real: a companhia aérea foi obrigada judicialmente a compensar um passageiro depois que seu chatbot baseado em LLM forneceu informações falsas sobre a política de reembolso. O tribunal determinou que a empresa era responsável pelas informações geradas pelo seu sistema de IA — um precedente que deveria preocupar qualquer CFO que esteja implantando IA em processos com impacto financeiro ou regulatório.

O que são alucinações em LLMs

Alucinações ocorrem quando um modelo de linguagem gera informações que não são suportadas pelos dados de entrada, pelo contexto fornecido ou pela realidade factual. Em termos simples: o modelo "inventa" — e faz isso de forma convincente.

No contexto financeiro, as alucinações podem se manifestar de várias formas:

Números fabricados: o modelo gera receitas, margens ou KPIs que não existem nos dados fornecidos.
Fontes inexistentes: cita relatórios, normas contábeis ou regulamentos que não existem ou foram alterados.
Cálculos incorretos: apresenta contas que parecem corretas mas contêm erros aritméticos ou lógicos.
Correlações falsas: estabelece relações causais entre variáveis que não têm relação real.
Dados desatualizados apresentados como atuais: usa informações de períodos anteriores como se fossem do período corrente.
Interpolações indevidas: preenche lacunas nos dados com valores estimados sem avisar que são estimativas.

Os benchmarks que medem o problema

Nos últimos dois anos, a comunidade acadêmica e a indústria desenvolveram benchmarks específicos para medir alucinações em contextos financeiros. Três se destacam:

FailSafeQA

O FailSafeQA é um benchmark que testa LLMs em tarefas de perguntas e respostas financeiras sob condições reais de falha. Em vez de testar apenas cenários ideais, ele simula situações como dados incompletos, perguntas ambíguas e contextos contraditórios — exatamente o que acontece no dia a dia de um departamento financeiro. Os resultados mostram que mesmo modelos de ponta apresentam degradação significativa de performance quando as condições não são ideais.

PHANTOM

O PHANTOM (benchmark para detecção de alucinações em QA financeiro de contexto longo) avalia como LLMs se comportam quando precisam processar documentos financeiros extensos — relatórios anuais, prospectos de emissão, contratos complexos. O desafio é que, quanto maior o documento, maior a probabilidade de o modelo "perder" informações relevantes e gerar respostas baseadas em partes incompletas do texto.

FAITH

O FAITH (Framework for Assessing Intrinsic Tabular Hallucinations in Finance) foca especificamente em alucinações com dados tabulares — exatamente o tipo de dado mais comum em finanças. O framework usa demonstrações financeiras reais de relatórios anuais para avaliar se o modelo interpreta corretamente tabelas com múltiplas colunas, linhas e relações entre valores.

Quanto cada modelo alucina

O Hallucination Leaderboard da Vectara mantém um ranking atualizado das taxas de alucinação dos principais modelos. As últimas medições mostram:

GPT-4o: taxa de alucinação de 1,5% em tarefas de sumarização.
Claude 3.5 Sonnet: 4,6%.
Llama 3.1 405B: 3,9%.

Esses números parecem baixos, mas há ressalvas importantes. Primeiro, são medidos em tarefas de sumarização de textos curtos — não em tarefas financeiras complexas. Segundo, a taxa sobe significativamente quando o modelo precisa lidar com dados numéricos, tabelas e cálculos. Terceiro, mesmo 1,5% pode ser inaceitável em contextos onde um único número errado em um relatório ao investidor ou em uma declaração regulatória pode ter consequências legais.

A nova versão do leaderboard da Vectara expandiu o dataset para mais de 7.700 artigos em domínios como finanças, direito, medicina e tecnologia, e os resultados iniciais mostram que as taxas de alucinação são geralmente mais altas sob o novo benchmark mais rigoroso.

Por que finanças é especialmente vulnerável

Alucinações são problemáticas em qualquer domínio, mas finanças tem características que amplificam o risco:

Precisão numérica é inegociável

Em um relatório de marketing, um número aproximado pode ser aceitável. Em um balanço, uma diferença de centavos pode indicar um erro de conciliação. LLMs não têm a mesma noção de materialidade que um contador — eles podem arredondar, interpolar ou estimar sem avisar.

Regulação é rigorosa

A SEC nos EUA, a CVM no Brasil, a FCA no Reino Unido e o EU AI Act na Europa exigem transparência e interpretabilidade em sistemas de IA que afetam decisões financeiras. Se um modelo gera uma projeção de receita alucinada e essa projeção é usada em uma comunicação ao mercado, a responsabilidade é da empresa — não do modelo.

O viés de autoridade é real

Quando um analista junior vê um output bem formatado de um LLM — com tabelas, gráficos e linguagem profissional — a tendência é confiar sem verificar. Esse viés de autoridade é mais forte com IA do que com colegas humanos, porque o formato impecável transmite falsa confiança.

Erros compostos

Em finanças, outputs de uma análise alimentam outras análises. Se um LLM alucina em uma projeção de receita, e essa projeção é usada para calcular valuation, que por sua vez é usado para definir preço de aquisição, o erro se propaga e se amplifica em cada etapa.

Técnicas de mitigação que funcionam

A boa notícia é que existem técnicas comprovadas para reduzir drasticamente o risco de alucinações:

1. Retrieval-Augmented Generation (RAG)

Em vez de depender apenas do conhecimento "memorizado" pelo modelo durante o treinamento, RAG faz o LLM consultar uma base de dados atualizada antes de gerar a resposta. Em finanças, isso significa conectar o modelo aos dados reais da empresa — ERP, sistema contábil, planilhas de orçamento — para que ele responda com base em fatos, não em inferências.

2. Chain-of-Thought prompting

Pesquisas mostram que pedir ao modelo que explicite seu raciocínio passo a passo reduz alucinações em 25-30%. Em vez de perguntar "Qual foi a variação de receita?", peça: "Primeiro, identifique a receita orçada. Depois, identifique a receita realizada. Calcule a diferença absoluta e percentual. Mostre cada etapa."

3. Validação cruzada com múltiplos modelos

Use mais de um LLM para a mesma tarefa e compare os outputs. Se GPT-4 e Claude divergem em um número, isso é um sinal de que pelo menos um está alucinando — e ambos devem ser verificados manualmente.

4. Grounding com dados estruturados

Forneça dados em formato estruturado (tabelas, JSON, CSV) em vez de texto livre. Modelos cometem menos erros quando os dados de entrada são inequívocos e bem formatados.

5. Human-in-the-loop obrigatório

Para qualquer output que será usado em decisões financeiras, comunicações oficiais ou documentos regulatórios, implemente uma camada obrigatória de revisão humana. Isso não é opcional — é controle interno.

6. Testes de consistência

Faça a mesma pergunta de formas diferentes e compare as respostas. Se o modelo responde R$ 5,2 milhões por um ângulo e R$ 4,8 milhões por outro, há um problema de consistência que precisa ser investigado.

7. Limitação de escopo

Não peça ao LLM que faça tudo. Use-o para tarefas onde ele é forte (sumarização, categorização, geração de rascunhos) e evite depender dele para tarefas onde ele é fraco (cálculos precisos, interpretação de normas contábeis específicas, projeções de longo prazo).

Um framework de controles para IA financeira

Para CFOs e controllers que estão implantando LLMs, sugerimos um framework de controles em três níveis:

Nível 1 — Controles preventivos

Definir quais tarefas podem e quais não podem usar LLMs.
Estabelecer templates de prompts padronizados para cada caso de uso.
Usar RAG para ancorar respostas em dados reais da empresa.
Treinar a equipe para reconhecer sinais de alucinação.

Nível 2 — Controles detectivos

Implementar validação cruzada automática (comparar output do LLM com dados do sistema).
Criar alertas para números que fogem de ranges históricos.
Usar um segundo modelo para "auditar" o output do primeiro.
Manter logs de todos os outputs de LLM usados em decisões.

Nível 3 — Controles corretivos

Documentar e categorizar cada alucinação detectada.
Ajustar prompts e configurações com base nos erros encontrados.
Atualizar a base de RAG com informações que estavam faltando.
Comunicar transparentemente quando um erro de IA for identificado.

Ações práticas para começar

Faça um "teste de alucinação" com seus próprios dados — alimente o LLM com um relatório financeiro que você já tem pronto e peça que ele resuma. Compare o resumo com o original. Anote cada divergência. Isso dará uma medida concreta de quão confiável o modelo é para o seu tipo de dado.
Implemente a regra "nenhum número sem fonte" — qualquer número gerado por um LLM deve ser rastreável a um dado de entrada. Se o modelo apresenta um valor que não existe nos dados fornecidos, ele alucionou. Treine sua equipe para aplicar essa verificação sistematicamente.
Adote RAG antes de expandir o uso de LLMs — se você está planejando usar IA generativa em processos financeiros, investir em uma camada de RAG conectada aos seus dados reais é o passo mais importante para reduzir alucinações.
Crie um registro de incidentes de alucinação — documente cada caso em que um LLM gerou informação incorreta. Com o tempo, você terá um mapa dos cenários de maior risco e poderá ajustar controles de forma direcionada.
Mantenha-se atualizado sobre regulação — o EU AI Act, a SEC e a CVM estão evoluindo suas posições sobre uso de IA em finanças. Acompanhe essas mudanças e ajuste seus controles de acordo.