BloombergGPT, FinGPT e FinBERT: quando os LLMs especializados em finanças valem a pena

Guia prático para CFOs e analistas: quando LLMs treinados em dados financeiros superam ChatGPT, Claude e Gemini — e quando não superam.

Em março de 2023, a Bloomberg lançou o que parecia ser o futuro dos modelos de linguagem para finanças: o BloombergGPT, um LLM de 50 bilhões de parâmetros treinado em mais de 700 bilhões de tokens de dados financeiros. A promessa era clara — um modelo que "falava finanças" nativamente superaria qualquer modelo genérico em tarefas do setor.

Dois anos depois, a realidade é mais complexa. E mais útil.

O GPT-4 — modelo de uso geral — supera o BloombergGPT em várias tarefas de raciocínio financeiro. Mas o FinBERT, um modelo minúsculo de 2019, ainda bate o GPT-4 em classificação de sentimento de notícias financeiras. E o FinGPT, open-source e treinável por menos de USD 300, alcança performance comparável ao GPT-4 em análise de sentimento de earnings calls.

A pergunta certa não é "qual LLM é melhor para finanças?" — é "qual LLM é certo para qual tarefa financeira?"

O que são LLMs especializados em finanças

LLMs (Large Language Models) especializados são modelos treinados — ou refinados — com grandes volumes de dados do setor financeiro: relatórios anuais, filings regulatórios, notícias de mercado, transcrições de earnings calls, pesquisas de analistas e normas contábeis.

A lógica é intuitiva: um modelo que "leu" bilhões de palavras de contexto financeiro deveria entender melhor jargão técnico, reconhecer nomes de instrumentos financeiros e interpretar nuances de tonalidade em comunicados corporativos.

Mas escala importa. E modelos gerais maiores, com mais parâmetros e mais dados de treinamento, muitas vezes compensam a vantagem do domínio específico.

BloombergGPT: o pioneiro que não está disponível para você

O BloombergGPT foi treinado com um conjunto único de dados: o FinPile, uma coleção proprietária da Bloomberg com notícias, transcrições de TV financeira, demonstrações de resultados (EDGAR/SEC), press releases e dados de redes sociais financeiras. São 363 bilhões de tokens exclusivamente financeiros, combinados com 345 bilhões de dados gerais.

O custo de treinamento foi estimado em aproximadamente USD 10 milhões, usando 512 GPUs A100 por 53 dias.

Em 2023, seus resultados em benchmarks eram impressionantes: superava modelos de tamanho similar em análise de sentimento financeiro, reconhecimento de entidades e classificação de notícias. Mas havia uma armadilha.

O modelo não está disponível para o público. Está integrado ao Bloomberg Terminal — o sistema que custa em torno de USD 24.000 por usuário por ano. Equipes de CFOs de médias empresas brasileiras não têm acesso direto a ele.

E mesmo para quem tem acesso: pilotos internos relataram redução de 20 a 30% no tempo de consulta de analistas — um ganho real, mas não transformador para operações financeiras corporativas fora de bancos de investimento.

Outro dado importante: em benchmarks de raciocínio quantitativo complexo, o GPT-4 já supera o BloombergGPT. Em classificação de headlines financeiras, o FinBERT — modelo de 2019, com fração dos parâmetros — tem F1 de 90,8% contra 82,2% do BloombergGPT.

O BloombergGPT foi um marco histórico. Como ferramenta prática para a maioria das equipes financeiras, tem utilidade limitada.

FinGPT: open-source e treinável por menos de USD 300

Enquanto Bloomberg gastou milhões treinando seu modelo do zero, pesquisadores da Columbia University tomaram um caminho diferente.

O FinGPT usa fine-tuning via LoRA (Low-Rank Adaptation) — uma técnica que adapta modelos base existentes (LLaMA, Falcon, ChatGLM) com dados financeiros específicos, sem retreinar o modelo inteiro. O resultado: fine-tuning por menos de USD 300, com performance competitiva em tarefas de NLP financeiro.

O modelo é open-source, disponível no GitHub e HuggingFace, e suporta RAG (Retrieval-Augmented Generation) — permitindo que equipes financeiras conectem o modelo aos seus próprios dados internos: contratos, faturas, relatórios, histórico de clientes.

Resultados em benchmarks (Golden Touchstone):

Tarefa FinGPT GPT-4
Análise de sentimento (FPB) F1 87,62% F1 ~87%
Classificação de headlines F1 95,50% F1 ~95%
QA financeiro aberto EM 28,47% EM 76%
Sumarização ROUGE ~0% ROUGE 30%

A conclusão é clara: em análise de sentimento e classificação, o FinGPT rivaliza com o GPT-4. Em raciocínio complexo, modelagem e sumarização de documentos longos, fica muito atrás.

Para equipes que processam grandes volumes de notícias financeiras, earnings calls ou alertas de risco em texto e querem um modelo customizável com dados internos — o FinGPT é uma opção concreta, com baixo custo de adoção e transparência total (por ser open-source, permite auditoria e garante privacidade dos dados).

FinBERT: o especialista em sentimento que ainda surpreende

O FinBERT é o mais antigo dos três — publicado em 2019 pela Prosus AI. É baseado no BERT (Bidirectional Encoder Representations from Transformers) e foi ajustado especificamente para classificar sentimento financeiro em três categorias: positivo, neutro ou negativo.

Seu foco estreito é também seu maior diferencial.

Em acurácia de classificação de sentimento financeiro:

  • Financial PhraseBank (benchmark padrão): 97% de acurácia em subconjunto de consenso
  • Classificação de headlines financeiras: F1 de 90,8% — supera GPT-4 (86,0%) e BloombergGPT (82,2%)
  • Versão distilada (TinyFinBERT): roda em CPU, ideal para deployment em tempo real

Onde o FinBERT tem clara vantagem sobre modelos gerais:

  • Monitoramento de sentimento de mercado em tempo real: processar milhares de notícias por hora e gerar score de risco sem custo por token
  • Triagem de earnings calls: identificar tons negativos/positivos em transcrições antes de leitura humana
  • Early warning de risco reputacional: monitorar cobertura de fornecedores, parceiros e concorrentes em larga escala
  • Análise de compliance: verificar tonalidade de comunicações externas antes da publicação

Um fundo quantitativo brasileiro que processe 10.000 notícias por dia com GPT-4 pagaria centenas de dólares diariamente em tokens. Com FinBERT rodando localmente, o custo marginal é praticamente zero após o setup inicial.

FinMA e FinTral: os modelos que chegaram depois

Dois outros modelos merecem menção para equipes com necessidades específicas:

FinMA (PIXIU), desenvolvido pela FinAI Foundation, faz fine-tuning de LLaMA com 136.000 amostras de instrução financeira. Em benchmarks do FLARE (conjunto de 8 tarefas, 15 datasets financeiros), supera o BloombergGPT, ChatGPT e até o GPT-4 em análise de sentimento (F1 93,9%) e classificação de headlines (F1 97,5%).

FinTral, baseado em Mistral 7B, supera consistentemente o GPT-3.5 em todos os benchmarks testados e bate o GPT-4 em tarefas específicas de extração de relações financeiras — útil para análise automática de contratos e filings regulatórios.

A descoberta mais interessante do FinMA: o modelo de 7B parâmetros não fica significativamente abaixo do de 30B parâmetros. A qualidade dos dados de instrução importa mais que o tamanho do modelo — um dado valioso para equipes que queiram criar modelos financeiros internos.

Quando usar qual: o guia prático

A decisão entre LLMs especializados e modelos gerais depende de três variáveis: volume de processamento, complexidade da tarefa e custo de operação.

Tarefa financeira LLM recomendado
Análise de variância orçamentária GPT-4 / Claude
Geração de narrativas para relatórios financeiros GPT-4 / Claude
Modelagem de cenários (NPV, IRR, fluxo de caixa) GPT-4 / Claude
Análise de contratos e cláusulas complexas GPT-4 / Claude
Classificação de sentimento de notícias (alto volume) FinBERT
Monitoramento de earnings calls de concorrentes FinBERT / FinGPT
Fine-tuning com dados internos (faturas, contratos) FinGPT (LoRA)
Early warning por monitoramento de mídia FinBERT
QA sobre documentos financeiros longos GPT-4 / Claude + RAG
Extração de entidades financeiras de documentos FinMA / FinBERT

O padrão que emerge das pesquisas mais recentes (FinBen, 2024; Open FinLLM Leaderboard, 2025): modelos gerais de grande escala (GPT-4, Claude Opus) lideram em raciocínio complexo e geração de texto, enquanto LLMs especializados retêm vantagem em tarefas de NLP financeiro estreitas, de alto volume e custo-sensíveis.

Para a maioria das equipes financeiras brasileiras, isso significa: use ChatGPT, Claude ou Gemini para análise estratégica e geração de relatórios. Considere FinBERT ou FinGPT quando precisar processar grandes volumes de texto financeiro com custo controlado, privacidade de dados ou customização com informações internas.

A armadilha do modelo "certo para finanças"

Há um erro comum que vemos em discussões sobre LLMs para o setor financeiro: assumir que "especializado" é sempre melhor.

O benchmark FinanceReasoning (238 perguntas de raciocínio quantitativo multi-step) mostra que o GPT-5 alcança 88,23% de acurácia e o Claude Opus 4.6 chega a 87,82% — performances que nenhum LLM especializado atual consegue replicar em tarefas complexas.

A analogia prática: um contador experiente de uma grande firma não é necessariamente melhor para modelar uma fusão do que um analista brilhante de M&A que conhece finanças em profundidade geral. Depende do tipo de problema.

O que recomendamos para equipes financeiras no Brasil:

  1. Comece com modelos gerais (GPT-4, Claude) para tarefas de análise e geração. São os mais capazes hoje em raciocínio complexo e já têm contexto financeiro sólido.
  2. Avalie FinBERT especificamente se você processa mais de alguns milhares de notícias ou comunicações financeiras por semana — o custo-benefício é superior.
  3. Explore FinGPT se quiser fine-tuning com dados internos (faturas, contratos, histórico de clientes) sem depender de uma API externa ou expor dados sensíveis.
  4. Use RAG antes de fine-tuning para a maioria dos casos: conectar um LLM geral à sua base de documentos internos via RAG costuma ser mais rápido, mais barato e mais fácil de atualizar do que treinar um modelo especializado.
  5. Meça resultados, não benchmarks abstratos: cada contexto financeiro é diferente. Teste 2-3 abordagens com suas tarefas reais antes de decidir qual modelo adotar em escala.

A especialização em LLMs financeiros é real e relevante — mas o campo evoluiu mais rápido do que muitos previam. Modelos gerais de grande escala reduziram o gap, e a escolha certa depende cada vez mais da arquitetura de uso (volume, custo, privacidade) do que do domínio de treinamento do modelo.


Fontes: