Hallucinations em IA financeira: quando o modelo erra números que não pode errar

Os riscos de LLMs em contextos onde precisão numérica é crítica — técnicas de mitigação e o conceito de IA composta.

Relatórios do setor financeiro indicam que perdas causadas por alucinações de IA já ultrapassam US$ 250 milhões por ano em instituições financeiras globais. O problema não é hipotético: um LLM pode afirmar com total confiança que uma empresa fez um desdobramento de ações na proporção de 3:1 quando, na realidade, foi 4:1. Pode citar uma norma inexistente — como o "IFRS 99" — com a mesma fluência com que citaria o IFRS 16. E pode gerar preços de mercado completamente fabricados quando não tem acesso a dados em tempo real.

Para quem trabalha com finanças corporativas, isso não é apenas um inconveniente técnico. É um risco operacional, regulatório e reputacional que precisa ser entendido, quantificado e mitigado antes que a IA entre nos processos críticos do departamento financeiro.

O que são alucinações e por que LLMs as produzem

Alucinações acontecem quando um modelo de linguagem gera informações que parecem corretas mas são factualmente erradas. O mecanismo é simples de entender: LLMs são treinados para prever a próxima palavra mais provável em uma sequência. Eles não "verificam fatos" — eles geram texto estatisticamente plausível.

Quando o modelo não tem informação suficiente sobre um tema, ele preenche lacunas com texto que parece correto com base nos padrões que aprendeu. Em tarefas genéricas — como redigir um e-mail ou resumir um artigo — isso raramente causa problemas sérios. Mas em finanças, onde um número errado pode ter consequências legais e financeiras, a margem para erro é zero.

Os cenários mais perigosos para departamentos financeiros incluem:

  • Fabricação de dados: o modelo inventa métricas, índices ou valores que não existem nos dados originais.
  • Distorção de fatos: informações reais são apresentadas com alterações sutis — uma taxa de juros de 5,25% vira 5,52%, um prazo de 90 dias vira 60.
  • Citações falsas de normas: o modelo referencia regulamentações, artigos de lei ou padrões contábeis que não existem.
  • Extrapolações sem base: o modelo projeta tendências ou faz previsões baseadas em padrões que ele mesmo inventou.

Casos reais: quando alucinações custam caro

O setor financeiro já acumula exemplos concretos dos danos causados por alucinações:

O caso dos advogados e as citações fictícias

Em 2023, advogados do escritório Levidow, Levidow & Oberman nos Estados Unidos apresentaram um documento judicial contendo seis citações de casos completamente inventados pelo ChatGPT. Embora o caso seja jurídico e não financeiro, o padrão é idêntico ao que pode acontecer quando um LLM é usado para preparar documentos de compliance, relatórios regulatórios ou justificativas de auditoria.

Chatbots financeiros com informações erradas

Relatórios de mercado documentam casos em que chatbots de atendimento ao cliente de instituições financeiras forneceram informações incorretas sobre limites de cobertura de seguros, taxas de juros e condições de produtos. Em um ambiente regulado, cada informação errada pode gerar responsabilidade legal para a instituição.

Erros em análise de ações corporativas

Pesquisadores demonstraram que LLMs padrão frequentemente erram ao processar documentos de ações corporativas — como splits, dividendos e fusões — mesmo quando recebem os documentos originais como input. O modelo pode alterar proporções, datas e valores de forma sutil o suficiente para passar despercebido em uma revisão rápida.

O conceito de IA composta: a resposta da indústria

A solução que está ganhando tração no mercado não é abandonar LLMs, mas combinar múltiplos modelos e técnicas em um sistema integrado — o que se convencionou chamar de "compound AI" ou IA composta.

A lógica é semelhante à de uma equipe de auditoria: nenhum auditor trabalha sozinho. Há revisão cruzada, checagem de fontes e validação independente. Na IA composta, o mesmo princípio se aplica:

  • Um LLM gera a análise inicial.
  • Um segundo modelo (ou regra determinística) verifica os números contra a base de dados original.
  • Um terceiro componente avalia a incerteza do modelo e sinaliza trechos com baixa confiança.
  • Um humano revisa apenas os pontos sinalizados.

Kingdee: IA composta na prática

A Kingdee, maior fornecedora de software ERP da China, é um exemplo concreto dessa abordagem. Em 2024, a empresa lançou a plataforma Cosmic AI Agent 2.0, que utiliza múltiplos agentes de IA especializados — incluindo o agente financeiro Jinyue — para automatizar tarefas que vão de análise de relatórios a conciliação contábil.

A estratégia da Kingdee combina modelos de linguagem (incluindo o DeepSeek) com camadas de verificação específicas para dados financeiros. O resultado reportado: 100% de acurácia em consultas complexas quando o sistema composto é utilizado, contra taxas significativamente menores com LLMs operando isoladamente. A empresa assinou contratos de mais de 150 milhões de yuans (aproximadamente US$ 21 milhões) com essa plataforma no primeiro semestre de 2024.

Técnicas de mitigação que funcionam

Além da abordagem de IA composta, existem técnicas específicas que departamentos financeiros podem implementar hoje:

1. Consenso multi-modelo (Multi-Model Consensus)

A técnica consiste em submeter a mesma tarefa a múltiplos LLMs independentes e aceitar o resultado apenas quando há concordância. Empresas do setor financeiro já utilizam "enxames" de LLMs para processar documentos de ações corporativas, aceitando apenas outputs onde múltiplos modelos concordam e sinalizando divergências para revisão manual.

Na prática, para um departamento financeiro: submeta a mesma análise ao GPT-4, Claude e Gemini. Se os três concordam no número, a confiança é alta. Se divergem, o ponto vai para revisão humana.

2. RAG (Retrieval-Augmented Generation)

Em vez de confiar na "memória" do modelo, o RAG força o LLM a buscar informações em uma base de dados confiável antes de gerar a resposta. Para finanças, isso significa conectar o modelo diretamente ao ERP, ao sistema contábil ou a bases de dados regulatórias oficiais.

O modelo não precisa "lembrar" qual é a taxa Selic vigente — ele consulta a base do Banco Central antes de responder. Isso elimina a categoria mais comum de alucinações: a fabricação de dados que o modelo deveria buscar, não inventar.

3. Guardrails com verificação de fonte

Frameworks modernos de IA permitem implementar "guardrails" — barreiras automáticas que comparam as afirmações do modelo contra dados oficiais. Por exemplo:

  • O modelo gera um relatório afirmando que a receita trimestral foi de R$ 12,3 milhões.
  • O guardrail consulta o ERP e verifica que o valor real é R$ 12,8 milhões.
  • A discrepância é sinalizada antes que o relatório chegue a qualquer stakeholder.

4. Análise de incerteza do modelo

Uma das técnicas mais simples e eficazes é monitorar a "confiança" do próprio modelo. Isso pode ser feito analisando:

  • Probabilidades no nível de token: quando o modelo está "inseguro", as probabilidades dos tokens gerados são mais distribuídas.
  • Entropia da sequência: sequências com alta entropia indicam que o modelo está "improvisando".
  • Calibração de confiança: comparar a confiança declarada pelo modelo com a taxa real de acerto.

Quando qualquer dessas métricas ultrapassa um limiar definido, o trecho é automaticamente sinalizado para revisão humana.

5. Human-in-the-loop para decisões críticas

Nenhuma técnica de mitigação elimina 100% das alucinações. Para decisões financeiras críticas — fechamento contábil, relatórios regulatórios, projeções para investidores — o humano precisa permanecer no loop. A IA faz o trabalho pesado (rascunho, cálculos, consolidação), mas a validação final é humana.

A diferença é que, com as técnicas acima, o humano não precisa revisar tudo. Ele revisa apenas os pontos de baixa confiança — o que reduz o tempo de revisão em 70-80% sem comprometer a acurácia.

Como estruturar seu departamento para lidar com alucinações

A mitigação de alucinações não é apenas uma questão técnica — é uma questão de processo. Sugerimos uma estrutura em três camadas:

Camada 1 — Automação total: tarefas onde erros têm baixo impacto (classificação de despesas de pequeno valor, rascunhos internos, resumos de reuniões). Aqui, o LLM opera com supervisão mínima.

Camada 2 — Automação com verificação: tarefas onde erros têm impacto moderado (relatórios gerenciais, previsões de fluxo de caixa, análise de variância). Aqui, o LLM gera o output, mas guardrails automáticos verificam números e um analista revisa os pontos sinalizados.

Camada 3 — Assistência com validação humana: tarefas onde erros são inaceitáveis (demonstrativos financeiros, relatórios regulatórios, comunicações a investidores). Aqui, o LLM fornece rascunhos e análises preliminares, mas cada número é validado contra a fonte primária por um profissional qualificado.

Ações práticas para esta semana

  1. Classifique seus processos nas três camadas: mapeie quais tarefas do departamento financeiro podem ter automação total, quais precisam de verificação automática e quais exigem validação humana obrigatória.
  2. Implemente um teste de consenso multi-modelo: para a próxima análise financeira que usar IA, submeta a mesma pergunta a pelo menos dois LLMs diferentes e compare os resultados antes de aceitar qualquer número.
  3. Configure RAG para suas bases de dados: se você já usa um LLM regularmente, conecte-o ao seu ERP ou sistema contábil via API para que ele busque dados reais em vez de gerá-los de memória.
  4. Defina uma política de revisão: documente formalmente quais outputs de IA podem ser publicados sem revisão, quais precisam de checagem automática e quais exigem assinatura de um responsável.
  5. Monitore e registre erros: crie um log simples de alucinações detectadas — tipo de erro, modelo usado, contexto da tarefa. Em 90 dias, você terá dados suficientes para calibrar seus guardrails com precisão.

Alucinações não são um bug que será corrigido na próxima versão dos LLMs. São uma característica fundamental de como modelos de linguagem funcionam. Departamentos financeiros que tratam isso como um risco gerenciável — e não como uma razão para evitar IA — estarão na melhor posição para capturar valor sem comprometer a integridade dos números.