Qualidade de dados: a IA é tão boa quanto os dados que a alimentam
A barreira mais citada em todas as pesquisas — framework prático para avaliar e melhorar qualidade de dados.
De acordo com o PEX Report 2025/26, 52% dos profissionais citam qualidade e disponibilidade de dados como o maior obstáculo para adoção de IA. Não é a falta de orçamento, não é a resistência cultural, não é a complexidade técnica. É a qualidade dos dados. Pesquisa do Gartner confirma: entre organizações com baixa maturidade em IA, 34% apontam dados como o principal desafio, enquanto mesmo entre as organizações maduras, 29% ainda lutam com esse problema.
Para departamentos financeiros, essa barreira é particularmente cruel. Finanças lida com números — e números errados, incompletos ou desatualizados não são apenas inconvenientes. São o caminho mais rápido para decisões equivocadas, relatórios imprecisos e, no limite, problemas regulatórios.
Por que dados financeiros são especialmente problemáticos
Departamentos financeiros enfrentam desafios de qualidade de dados que outras áreas da empresa simplesmente não têm. Isso acontece por razões estruturais:
Múltiplas fontes com formatos diferentes
Um departamento financeiro típico de uma empresa de médio porte no Brasil recebe dados de:
- ERP (SAP, TOTVS, Oracle): dados contábeis e fiscais
- Bancos: extratos em OFX, CSV ou PDF (cada banco com formato próprio)
- Sistemas de faturamento: notas fiscais eletrônicas (XML)
- Planilhas: orçamentos, projeções e controles paralelos em Excel
- Fornecedores: boletos, notas de débito, faturas em formatos variados
- Governo: obrigações acessórias (SPED, EFD, DCTF)
Cada fonte tem sua própria estrutura, codificação e periodicidade. Integrar tudo isso em uma base coerente é um desafio que muitas empresas nunca resolveram completamente — e que precede qualquer projeto de IA.
Dados históricos com padrões inconsistentes
Empresas que operam há décadas acumulam dados com mudanças de plano de contas, trocas de ERP, aquisições de outras empresas e reorganizações societárias. Um modelo de IA treinado nesses dados pode aprender padrões que não existem mais — ou pior, pode confundir ruído com sinal.
Latência e defasagem
Muitos departamentos financeiros trabalham com dados que têm 24 a 72 horas de defasagem. Extratos bancários que chegam no dia seguinte, notas fiscais que são registradas dias após a emissão, conciliações que são feitas semanalmente. Para um modelo de previsão de fluxo de caixa, essa latência pode ser a diferença entre uma projeção útil e uma projeção obsoleta.
Dados sensíveis com restrições de acesso
Dados financeiros são, por definição, sensíveis. Isso cria barreiras legítimas de acesso que dificultam a consolidação e o tratamento. Nem todo mundo que precisa limpar os dados tem autorização para vê-los, e nem todo sistema de IA cumpre os requisitos de segurança necessários para processar informações financeiras confidenciais.
O custo real de dados ruins
A Gartner estima que a má qualidade de dados custa às organizações em média US$ 12,9 milhões por ano. Para departamentos financeiros, esse custo se manifesta de formas específicas:
- Retrabalho em fechamentos contábeis: quando dados estão errados, a equipe gasta horas corrigindo lançamentos que poderiam ter sido evitados.
- Previsões imprecisas: modelos de previsão alimentados com dados inconsistentes geram outputs que ninguém confia — e que acabam sendo substituídos pelo "feeling" do gestor.
- Falsos positivos em detecção de fraude: sistemas de IA que analisam dados sujos geram tantos alertas falsos que a equipe passa a ignorá-los — inclusive os verdadeiros.
- Decisões de investimento baseadas em informações erradas: quando o CFO olha para um dashboard e os números não batem com a realidade, toda a cadeia decisória é comprometida.
Framework de avaliação: as 6 dimensões da qualidade de dados
Antes de melhorar a qualidade dos dados, é preciso medir o estado atual. Propomos um framework com seis dimensões, cada uma avaliada em uma escala de 1 a 5:
1. Completude
Os dados estão completos? Campos obrigatórios estão preenchidos? Registros históricos têm lacunas?
Como medir: calcule o percentual de campos nulos ou vazios em cada tabela crítica. Para dados financeiros, a meta deve ser menos de 2% de campos incompletos em transações dos últimos 12 meses.
2. Acurácia
Os dados refletem a realidade? Valores estão corretos? Datas batem com os documentos de origem?
Como medir: selecione uma amostra aleatória de 100 transações e confira cada campo contra o documento original (nota fiscal, extrato, contrato). A taxa de erro aceitável para finanças é menor que 1%.
3. Consistência
Os mesmos dados aparecem iguais em diferentes sistemas? O nome de um fornecedor está escrito da mesma forma no ERP e no sistema de pagamentos?
Como medir: cruze registros entre sistemas e contabilize divergências. Atenção especial para: nomes de fornecedores/clientes, códigos de conta contábil e classificações de centro de custo.
4. Tempestividade
Os dados estão disponíveis quando são necessários? Qual é a defasagem entre o evento e o registro?
Como medir: meça o tempo médio entre a ocorrência de uma transação (por exemplo, um pagamento recebido) e seu registro no sistema. Para IA de previsão de caixa, a meta ideal é menos de 4 horas de defasagem.
5. Unicidade
Existem registros duplicados? O mesmo pagamento aparece duas vezes? O mesmo cliente tem múltiplos cadastros?
Como medir: rode scripts de detecção de duplicatas nas tabelas de clientes, fornecedores e transações. Duplicatas em dados financeiros são particularmente perigosas porque podem inflar receitas ou despesas.
6. Validade
Os dados obedecem às regras de negócio? Valores negativos onde deveriam ser positivos? Datas futuras em transações passadas?
Como medir: defina regras de validação para cada campo crítico (exemplo: valor de nota fiscal > 0, data de vencimento >= data de emissão) e meça o percentual de registros que violam essas regras.
Plano de ação em 90 dias: da avaliação à IA
Mês 1 — Diagnóstico
- Aplique o framework de 6 dimensões aos seus dados financeiros mais críticos (contas a receber, contas a pagar, fluxo de caixa).
- Documente os resultados em um scorecard visual.
- Identifique as 3 maiores fontes de problemas (geralmente são: dados manuais em planilhas, integrações quebradas entre sistemas e cadastros duplicados).
Mês 2 — Correção
- Priorize a correção dos problemas com maior impacto. Foque em:
- Padronização de cadastros: unifique nomes de clientes e fornecedores, padronize planos de contas.
- Automação de integrações: substitua processos manuais de importação de dados por APIs ou conectores automatizados.
- Regras de validação na entrada: configure o ERP para rejeitar dados que violem regras básicas (campos obrigatórios, formatos, ranges de valores).
Mês 3 — Monitoramento e piloto de IA
- Implemente dashboards de qualidade de dados que mostrem as 6 dimensões em tempo real.
- Defina alertas automáticos para quando a qualidade cair abaixo dos limiares definidos.
- Inicie um piloto de IA com os dados que já atingiram o nível de qualidade necessário — tipicamente, comece pela previsão de fluxo de caixa ou classificação automática de despesas.
Ferramentas acessíveis para qualidade de dados
Não é necessário investir em plataformas caras de data quality para começar. Opções acessíveis incluem:
- Great Expectations (open source): framework Python para validação de dados com testes automatizados. Permite definir "expectativas" sobre seus dados (ex: "a coluna valor nunca deve ser nula") e roda verificações automaticamente.
- dbt (data build tool): ferramenta open source para transformação de dados que inclui testes de qualidade integrados. Muito usada por equipes de dados modernas.
- Power Query (Excel/Power BI): para equipes que ainda dependem de planilhas, o Power Query oferece capacidades razoáveis de limpeza e padronização de dados.
- Scripts Python simples: bibliotecas como pandas e pandera permitem criar verificações de qualidade com poucas linhas de código.
O que as empresas maduras fazem diferente
Segundo o Gartner, 45% das organizações com alta maturidade em IA mantêm projetos operacionais por pelo menos 3 anos. O que essas organizações têm em comum não é tecnologia mais avançada — é disciplina com dados.
Especificamente, elas:
- Tratam qualidade de dados como um processo contínuo, não como um projeto com data de término.
- Têm donos de dados (data owners) formalmente designados para cada domínio crítico.
- Medem qualidade de dados com a mesma seriedade com que medem KPIs financeiros.
- Investem em data literacy — treinamento para que toda a equipe entenda a importância de dados limpos e saiba identificar problemas.
O paradoxo da IA e dados
Existe um paradoxo interessante: a IA pode ajudar a melhorar a qualidade dos dados que ela mesma precisa para funcionar. Modelos de machine learning podem:
- Detectar anomalias e outliers em bases financeiras.
- Sugerir correções para dados inconsistentes.
- Classificar automaticamente transações que foram cadastradas manualmente sem padronização.
- Identificar duplicatas com base em similaridade, mesmo quando os registros não são idênticos.
O truque é começar com IA simples (regras e modelos estatísticos básicos) para limpar os dados, e depois avançar para IA mais sofisticada (LLMs, modelos preditivos) quando a qualidade estiver no nível adequado.
Ações práticas para esta semana
- Faça o diagnóstico de completude: rode uma análise simples de campos nulos nas suas 5 tabelas financeiras mais importantes. Se mais de 5% dos campos críticos estiverem vazios, esse é seu ponto de partida.
- Selecione 50 transações para auditoria de acurácia: compare os dados do sistema com os documentos originais. Documente cada divergência encontrada e sua causa raiz.
- Mapeie suas fontes de dados: liste todas as fontes que alimentam seus processos financeiros, os formatos de cada uma e o nível de automação da integração. Fontes manuais (planilhas copiadas, dados digitados) são quase sempre as maiores fontes de erro.
- Defina um "data owner" para cada domínio: designe alguém da equipe como responsável pela qualidade dos dados de contas a receber, contas a pagar e fluxo de caixa. Não precisa ser uma função em tempo integral — mas precisa ser uma responsabilidade formal.
A IA mais sofisticada do mundo não vai salvar um departamento financeiro que trabalha com dados ruins. Mas um departamento com dados limpos pode gerar resultados impressionantes mesmo com IA simples. A qualidade dos dados não é um pré-requisito chato — é a fundação sobre a qual todo o valor da IA será construído.