IA composta: por que LLMs sozinhos falham em finanças e como resolver

LLMs erram em até 41% das consultas financeiras sem âncora de dados. Veja o que é IA composta e como combinar modelos generativos com regras determinísticas.

41% das consultas financeiras feitas a LLMs sem âncora de dados geram respostas incorretas — e ainda assim muitas empresas estão usando ChatGPT ou Claude diretamente para tarefas que exigem precisão absoluta: cálculos de imposto, conciliação bancária, provisões. O resultado aparece nos relatórios de auditoria.

O problema não é que IA generativa seja inútil para finanças. É que a maioria das implementações ignora uma limitação fundamental dos modelos de linguagem: eles não calculam. Eles preveem o próximo token mais provável. E isso, em finanças, não basta.

A solução tem nome: IA composta — arquiteturas que combinam o que LLMs fazem bem (entender contexto, gerar linguagem natural, orquestrar tarefas) com o que motores de regras e calculadoras fazem melhor (precisão aritmética, lógica determinística, auditabilidade).

LLMs são ótimos escritores, péssimos calculistas

Quando você pede ao GPT-5 ou ao Claude que calcule o DRE de uma empresa com 400 linhas de dados, as chances de erro crescem de forma expressiva. Isso não é defeito de implementação — é arquitetural.

Modelos de linguagem são treinados para prever o próximo token mais provável em uma sequência. Para textos, funciona muito bem. Para aritmética com muitas etapas, formatações específicas ou regras tributárias complexas, o modelo "adivinha" em vez de calcular de fato.

Os números são sérios. O Stanford AI Index 2026 reporta que as taxas de alucinação dos principais LLMs variam de 22% a 94% dependendo do tipo de tarefa. Em finanças, sem mecanismos de aterramento em dados verificados, os modelos erram em até 41% das consultas que envolvem cálculos numéricos encadeados.

A consequência prática é direta: 90% de precisão em cálculos financeiros significa que 1 em cada 10 transações pode estar errada. Para uma empresa que processa 10.000 faturas por mês, isso é potencialmente 1.000 registros com erros — cada um precisando de correção manual.

Há casos documentados. Dois advogados americanos foram sancionados por usar ChatGPT que citou seis casos jurídicos inexistentes. A Air Canada foi obrigada a compensar um cliente após seu chatbot fornecer política de reembolso incorreta. Em contextos regulados, como finanças, o custo desse tipo de erro é ainda maior.

O que é IA composta

IA composta (do inglês compound AI ou composite AI) é um sistema que combina múltiplos componentes para executar tarefas complexas com mais confiabilidade do que qualquer componente isolado conseguiria. O conceito inclui modelos de linguagem, sistemas de recuperação de dados, motores de regras, intérpretes de código, APIs externas e mecanismos de controle.

O conceito ganhou tração após 2024, quando pesquisadores do Berkeley AI Research Lab observaram que os maiores ganhos de qualidade em IA empresarial não vinham de modelos maiores, mas de sistemas melhor arquitetados. Em vez de um LLM tentando fazer tudo sozinho, a aposta passa a ser na orquestração inteligente de componentes especializados.

A lógica é simples: use cada ferramenta para o que ela faz melhor.

Componente O que faz bem
LLM Entender contexto, gerar texto, orquestrar tarefas
Motor de regras Lógica de negócios, validações, compliance
RAG Buscar dados atualizados em bases internas
Calculadora/código Aritmética precisa, fórmulas auditáveis
Guardrails Validar outputs antes de exibir ao usuário

Os quatro pilares de uma arquitetura financeira confiável

1. LLM como orquestrador, não como calculista

O modelo de linguagem deve interpretar a intenção do usuário — "preciso calcular a provisão de devedores duvidosos do mês" — decompor a tarefa e chamar as ferramentas certas, não tentar executar os cálculos diretamente.

Essa abordagem, chamada de tool calling, já está disponível nos principais modelos (GPT-5, Claude 3.7, Gemini 2.5). O LLM age como um gerente que delega: entende o pedido, monta o plano e supervisiona a execução. O cálculo em si fica para ferramentas determinísticas que retornam resultados corretos ao centavo.

2. Motor de regras para lógica de negócios

Cada empresa tem regras específicas: tabela de IR, políticas de desconto de fornecedor, critérios de aprovação de crédito, limites de alçada. Essas regras não podem ficar "dentro do LLM" — precisam ser explícitas, versionadas e auditáveis.

Motores de regras (como Drools, Decision Tables do SAP, ou configurações do próprio ERP) garantem que a lógica de negócios seja aplicada de forma determinística: a mesma entrada sempre produz a mesma saída, com trilha de auditoria clara. Nenhum modelo generativo garante isso.

A Kingdee, maior empresa de software financeiro para PMEs na China com mais de 10 milhões de clientes, chegou a 100% de precisão em processos de declaração fiscal combinando modelos generativos com motores de regras que codificam a legislação tributária — sem depender que o LLM "lembre" das regras corretas.

3. RAG para acesso a dados internos

LLMs são treinados em dados históricos da internet. Eles não sabem o saldo bancário da sua empresa, as condições do contrato com o fornecedor X, nem as políticas de crédito aprovadas no último comitê.

O RAG (Retrieval-Augmented Generation) resolve isso conectando o modelo a bases de dados internas. Antes de responder, o sistema recupera os documentos relevantes — extratos, contratos, políticas — e os fornece ao LLM como contexto verificado.

Na prática, empresas que implementam RAG para consultas financeiras relatam queda nas alucinações de até 41% para menos de 5% nas consultas relacionadas a dados internos. A diferença está no aterramento: o modelo para de "adivinhar" e passa a raciocinar sobre informações verificadas.

4. Guardrails para validação de outputs

Antes de qualquer resultado chegar ao usuário, passe-o por validações automáticas: os totais batem? A conta debitada existe? O valor está dentro dos limites esperados? O formato é compatível com o sistema de destino?

Guardrails são a última linha de defesa — camadas de verificação que bloqueiam respostas incorretas antes que causem dano. No contexto financeiro, isso inclui comparar o output com dados históricos, verificar consistência contábil e sinalizar discrepâncias para revisão humana. Comece com regras simples e evolua conforme o uso.

Cases: resultados com IA composta em finanças

A Microsoft implementou IA composta no seu ciclo de fechamento financeiro e reportou 30% de melhoria na acurácia das previsões com redução de 30% no tempo do fechamento trimestral — sem aumentar o time.

Empresas financeiras que adotaram arquiteturas compostas com RAG e tool calling reduziram ciclos de fechamento de 10 para 4 dias e diminuíram a carga de trabalho em conciliação em até 70%, segundo dados de benchmarks do setor.

A Kingdee usa arquitetura composta com mais de 100 aplicações de IA financeira: cada uma combina LLM com dados estruturados do ERP, regras tributárias e validadores determinísticos. O resultado prático é geração de relatórios fiscais em 1 minuto com conformidade total — antes um processo que levava horas e exigia revisão manual.

Instituições bancárias que adotaram IA composta para análise de risco de crédito reportam 30% de melhoria na precisão preditiva e 40% de redução no tempo de processamento de crédito.

O erro mais comum na adoção

A maior armadilha das implementações de IA em finanças não é tecnológica — é arquitetural. Muitas equipes implantam ChatGPT ou outro LLM e tentam fazer tudo com esse único componente. Isso funciona para tarefas de linguagem: resumir relatórios, gerar narrativas, rascunhar comunicados. Não funciona para tarefas que exigem precisão absoluta.

O sinal de alerta é claro: se você está pedindo ao LLM que faça cálculos, aplique regras fiscais ou tome decisões de pagamento sem validação externa, sua arquitetura precisa de revisão.

A pergunta certa não é "qual LLM usar?" — é "qual componente resolve cada parte do problema?"

Próximos Passos

  1. Separe tarefas de linguagem das de cálculo — resumos, relatórios e drafts são para LLMs. Cálculos financeiros, lógica tributária e validações precisam de componentes determinísticos. Faça esse mapeamento antes de qualquer implementação.
  2. Identifique onde o LLM "calcula" diretamente — se há consultas financeiras sendo respondidas sem tool calling ou RAG, esse é o ponto de maior risco. Priorize corrigir essas brechas primeiro.
  3. Codifique suas regras de negócio explicitamente — tabela de impostos, limites de alçada, critérios de aprovação: documente e implemente fora do LLM. Isso vale para qualquer arquitetura de IA, mas é crítico em finanças.
  4. Implemente RAG para dados internos — conecte o modelo às suas bases de contratos, políticas e histórico financeiro. Não espere que o LLM "saiba" o que está nos seus sistemas internos.
  5. Defina guardrails mínimos — valide automaticamente os outputs: totais consistentes, valores dentro de faixas esperadas, formato compatível com o sistema de destino. Comece simples e evolua conforme o uso real.

Fontes: