Como a IA detecta 'empresas fantasma' e fluxos financeiros anormais: a experiência chinesa
O sistema de supervisão por penetração da China usa grafos de conhecimento e deep learning para identificar empresas de fachada.
Na China, mais de 230 milhões de chamadas fraudulentas foram identificadas e tratadas em 2020 durante a pandemia, segundo dados do governo chinês. Por trás de muitos desses golpes estão redes de empresas de fachada que lavam dinheiro, emitem notas fiscais falsas e criam camadas de complexidade para esconder fluxos financeiros ilícitos. Para enfrentar esse problema em escala, pesquisadores e empresas chinesas, incluindo a China Telecom BestPay, têm desenvolvido sistemas de "supervisão por penetração" que utilizam grafos de conhecimento e deep learning para ver através das estruturas corporativas e identificar quem realmente controla o dinheiro.
Neste post, vamos explorar como esses sistemas funcionam, o que a pesquisa acadêmica chinesa revela sobre a eficácia dessas técnicas e como empresas de qualquer país podem aplicar os mesmos princípios para proteger suas operações financeiras.
O que são empresas fantasma e por que são tão difíceis de detectar
Empresas fantasma (shell companies) são entidades legalmente registradas que não têm operações reais, funcionários ou ativos significativos. Elas existem primariamente como veículos para:
- Lavagem de dinheiro — Receber fundos ilícitos e transferi-los para contas legítimas através de transações que parecem comerciais
- Emissão de notas fiscais falsas — No Brasil, chamamos de "nota fria"; na China, a emissão fraudulenta de fapiao é um crime endêmico
- Evasão fiscal — Criar despesas fictícias para reduzir lucro tributável
- Fraude em licitações — Simular concorrência entre empresas que pertencem ao mesmo grupo
- Ocultação de patrimônio — Esconder ativos de credores, cônjuges ou autoridades
A dificuldade de detecção está na complexidade das estruturas. Uma rede de empresas fantasma pode envolver:
- Dezenas de CNPJs (ou equivalentes) registrados em diferentes jurisdições
- Sócios que são laranjas ou outras empresas de fachada (criando camadas de indireção)
- Transações entre as empresas que parecem legítimas individualmente
- Uso de múltiplas instituições financeiras para diluir a visibilidade
Quando cada empresa e cada transação é analisada isoladamente, nada parece errado. O padrão fraudulento só se torna visível quando as conexões entre todas as entidades são mapeadas simultaneamente. É exatamente isso que os grafos de conhecimento fazem.
Supervisão por penetração: o conceito chinês
O conceito de "supervisão por penetração" é um framework regulatório chinês que exige que reguladores financeiros olhem além da estrutura jurídica formal de uma entidade para entender quem são os beneficiários reais e de onde vem e para onde vai o dinheiro.
Na prática regulatória, isso significa:
- Penetração de camadas societárias — Identificar os controladores finais de uma empresa, mesmo quando há múltiplas camadas de holdings e subsidiárias
- Penetração de fluxos financeiros — Rastrear a origem e destino real dos fundos, independentemente de quantas contas intermediárias são usadas
- Penetração de produtos financeiros — Analisar a substância econômica real de produtos financeiros complexos, não apenas sua estrutura jurídica
A Lei Anti-Fraude em Telecomunicações e Redes da China, em vigor desde dezembro de 2022, formalizou a responsabilidade de operadoras de telecomunicações, instituições financeiras e provedores de internet na prevenção e controle de riscos de fraude, com obrigação de estabelecer mecanismos internos de segurança. A regulação exige que plataformas de pagamento de terceiros, como a BestPay da China Telecom (que atingiu alta penetração no mercado), implementem sistemas robustos de detecção e prevenção.
Como os grafos de conhecimento detectam empresas fantasma
Grafos de conhecimento (knowledge graphs) são estruturas de dados que representam entidades (empresas, pessoas, contas bancárias) como nós e seus relacionamentos (propriedade, transação, contrato) como arestas. Ao contrário de bancos de dados tradicionais que armazenam registros em tabelas, grafos permitem navegar por relações de forma natural e eficiente.
A arquitetura típica
Camada de dados:
- Registros societários (sócios, diretores, endereços)
- Dados transacionais (pagamentos, recebimentos, transferências)
- Dados fiscais (emissão e recebimento de notas fiscais)
- Dados cadastrais (telefones, e-mails, endereços IP)
- Dados de mídia e processos judiciais
Camada de grafo:
A partir desses dados, o sistema constrói um grafo onde:
- Cada empresa é um nó com atributos (data de fundação, capital social, atividade econômica)
- Cada pessoa é um nó com atributos (identidade, histórico, relações)
- Cada conta bancária é um nó conectado à sua titular
- Transações financeiras são arestas com atributos (valor, data, natureza)
- Relações societárias são arestas com atributos (percentual de participação, data de entrada/saída)
Pesquisadores chineses construíram grafos com dados de empresas listadas na bolsa que compreendem 4.687 nós de entidades e 10.780 relacionamentos, usando dados de 18 anos de empresas do mercado A-share chinês. Esses grafos incorporam informações como "Transações entre Partes Relacionadas" e dados de "Diretores, Supervisores e Executivos" da rede corporativa.
Camada de análise:
Com o grafo construído, algoritmos de graph neural networks (GNN) e deep learning analisam a estrutura para identificar padrões suspeitos:
- Detecção de comunidades — Identificar clusters de empresas densamente conectadas entre si mas com poucas conexões externas (padrão típico de redes de fachada)
- Centralidade anômala — Identificar nós que servem como "pontes" entre comunidades, indicando possíveis coordenadores de esquemas
- Padrões de fluxo circular — Detectar dinheiro que sai de A, passa por B, C e D e retorna para A (indicativo de lavagem)
- Anomalias estruturais — Empresas com muitos sócios em comum, endereços compartilhados ou padrões de criação simultânea
O framework 3-LRP (Three-Level Relationship Penetration)
Pesquisadores desenvolveram o framework 3-LRP especificamente para detecção de fraudes financeiras, que opera em três níveis:
- Penetração interna — Análise das relações dentro da empresa (entre sócios, diretores e departamentos)
- Penetração de partes relacionadas — Análise das transações e relações entre a empresa e suas partes relacionadas (subsidiárias, coligadas, empresas de sócios)
- Penetração de rede — Análise do posicionamento da empresa na rede mais ampla de relações corporativas e financeiras
Cada nível gera indicadores de risco que são agregados em um score final. Empresas que apresentam anomalias em todos os três níveis têm probabilidade significativamente maior de estar envolvidas em atividades fraudulentas.
Deep learning aplicado à detecção
Grafos de conhecimento sozinhos identificam estruturas suspeitas, mas o deep learning adiciona a capacidade de aprender padrões complexos a partir de dados históricos:
Modelos de classificação de nós
Graph Neural Networks (GNNs) tratam cada empresa no grafo como um nó e aprendem a classificá-las como legítimas ou suspeitas com base em:
- Atributos do próprio nó — Dados cadastrais, financeiros e operacionais da empresa
- Atributos dos vizinhos — Características das empresas com as quais ela transaciona ou compartilha sócios
- Estrutura local do grafo — Como o nó se conecta ao resto da rede
Estudos publicados em journals como o Intelligent Computing mostram que GNNs superam métodos tradicionais de machine learning (Random Forest, XGBoost) em detecção de fraudes corporativas porque conseguem capturar a informação relacional que está codificada na estrutura do grafo.
Modelos de detecção de anomalias em transações
Redes neurais profundas, incluindo arquiteturas baseadas em Transformers, são usadas para analisar sequências de transações e identificar padrões que divergem do comportamento normal. Um estudo recente propôs modelos de pré-treinamento em larga escala para detecção de fraudes financeiras, seguindo a mesma lógica dos grandes modelos de linguagem: treinar em grandes volumes de dados transacionais para aprender representações robustas que podem ser refinadas para tarefas específicas.
Modelos heterogêneos para cadeias de suprimento
Pesquisas sobre detecção de fraudes em finanças de cadeias de suprimento (supply chain finance) utilizam redes neurais heterogêneas que processam simultaneamente diferentes tipos de nós (empresas, bancos, faturas) e diferentes tipos de relações (compra, venda, empréstimo, garantia). Esses modelos são particularmente relevantes para identificar esquemas de notas fiscais falsas em cadeias produtivas.
Resultados e eficácia
A China lidera globalmente em pesquisa sobre detecção de fraudes financeiras com machine learning, com 18 estudos publicados em periódicos de referência, à frente de Índia (13), Arábia Saudita e Canadá (9 cada). Alguns resultados demonstrados pela pesquisa:
- Modelos de GNN alcançam precisão superior a 90% na classificação de empresas fraudulentas versus legítimas, quando treinados com dados suficientes
- A combinação de grafos de conhecimento com deep learning reduz significativamente os falsos positivos em comparação com métodos baseados apenas em regras
- Sistemas que integram múltiplas fontes de dados (financeiros, societários, judiciais) superam aqueles que dependem de uma única fonte
- A detecção de deepfakes por sistemas chineses já atinge mais de 90% de acurácia, enquanto a identificação de chamadas fraudulentas ultrapassa 80% de precisão
Aplicações práticas para empresas fora da China
Os princípios da experiência chinesa são universais. Veja como aplicá-los:
Para departamentos financeiros corporativos
Análise de rede de fornecedores:
- Construa um grafo simples dos seus fornecedores, seus sócios e endereços
- Identifique fornecedores que compartilham sócios, endereços ou contas bancárias entre si ou com funcionários da empresa
- Use ferramentas como Neo4j (banco de dados em grafo open-source) para visualizar e analisar essas relações
Due diligence automatizada:
- Antes de cadastrar um novo fornecedor, verifique automaticamente seus dados contra bases públicas (Receita Federal, juntas comerciais, protestos)
- Análise a idade da empresa, capital social, número de funcionários e compatibilidade entre o porte declarado é o volume de negócios proposto
- Sinalize empresas com menos de 12 meses de existência que propõem contratos de alto valor
Para instituições financeiras
Monitoramento de contas jurídicas:
- Aplique análise de grafo para mapear relações entre contas de empresas que transacionam entre si
- Identifique padrões de "round-tripping" (dinheiro circulando entre contas relacionadas sem propósito econômico claro)
- Monitore contas de empresas recém-criadas com padrões de transação incompatíveis com seu porte
KYC (Know Your Customer) aprimorado:
- Use grafos para penetrar camadas societárias e identificar beneficiários finais
- Cruze dados de diferentes fontes para validar a consistência das informações declaradas
- Atualize o perfil de risco dinamicamente com base no comportamento transacional
Para auditorias
Análise de transações entre partes relacionadas:
- Construa grafos das relações entre a empresa auditada e todas as suas partes relacionadas
- Análise se as transações entre partes relacionadas têm preços e condições compatíveis com o mercado
- Identifique relações não declaradas entre diretores, fornecedores e clientes
O que levar para a prática
- Mapeie as relações entre seus fornecedores. Exporte os dados cadastrais dos seus fornecedores (sócios, endereços, contas bancárias) e procure coincidências. Mesmo uma análise manual em planilha pode revelar padrões preocupantes.
- Experimente um banco de dados em grafo. Ferramentas como Neo4j Community Edition são gratuitas e permitem visualizar relações entre entidades de forma intuitiva. Importe seus dados de fornecedores e transações para um primeiro experimento.
- Implemente verificação de beneficiário final para fornecedores de alto valor. Para contratos acima de um limiar (defina baseado no seu perfil de risco), exija documentação que demonstre quem são os sócios e controladores finais do fornecedor.
- Monitore padrões de criação e movimentação. Empresas que foram criadas pouco antes de começar a fornecer para você, com capital social mínimo e sem histórico comercial, merecem due diligence reforçada.
- Considere parcerias com bureaus de informação. Serviços como Serasa Experian, Boa Vista e Dun & Bradstreet oferecem informações complementares sobre fornecedores que podem ser integradas aos seus processos de aprovação e monitoramento.