BloombergGPT, FinGPT e FinBERT: quando os LLMs especializados em finanças valem a pena
Guia prático para CFOs e analistas: quando LLMs treinados em dados financeiros superam ChatGPT, Claude e Gemini — e quando não superam.
Em março de 2023, a Bloomberg lançou o que parecia ser o futuro dos modelos de linguagem para finanças: o BloombergGPT, um LLM de 50 bilhões de parâmetros treinado em mais de 700 bilhões de tokens de dados financeiros. A promessa era clara — um modelo que "falava finanças" nativamente superaria qualquer modelo genérico em tarefas do setor.
Dois anos depois, a realidade é mais complexa. E mais útil.
O GPT-4 — modelo de uso geral — supera o BloombergGPT em várias tarefas de raciocínio financeiro. Mas o FinBERT, um modelo minúsculo de 2019, ainda bate o GPT-4 em classificação de sentimento de notícias financeiras. E o FinGPT, open-source e treinável por menos de USD 300, alcança performance comparável ao GPT-4 em análise de sentimento de earnings calls.
A pergunta certa não é "qual LLM é melhor para finanças?" — é "qual LLM é certo para qual tarefa financeira?"
O que são LLMs especializados em finanças
LLMs (Large Language Models) especializados são modelos treinados — ou refinados — com grandes volumes de dados do setor financeiro: relatórios anuais, filings regulatórios, notícias de mercado, transcrições de earnings calls, pesquisas de analistas e normas contábeis.
A lógica é intuitiva: um modelo que "leu" bilhões de palavras de contexto financeiro deveria entender melhor jargão técnico, reconhecer nomes de instrumentos financeiros e interpretar nuances de tonalidade em comunicados corporativos.
Mas escala importa. E modelos gerais maiores, com mais parâmetros e mais dados de treinamento, muitas vezes compensam a vantagem do domínio específico.
BloombergGPT: o pioneiro que não está disponível para você
O BloombergGPT foi treinado com um conjunto único de dados: o FinPile, uma coleção proprietária da Bloomberg com notícias, transcrições de TV financeira, demonstrações de resultados (EDGAR/SEC), press releases e dados de redes sociais financeiras. São 363 bilhões de tokens exclusivamente financeiros, combinados com 345 bilhões de dados gerais.
O custo de treinamento foi estimado em aproximadamente USD 10 milhões, usando 512 GPUs A100 por 53 dias.
Em 2023, seus resultados em benchmarks eram impressionantes: superava modelos de tamanho similar em análise de sentimento financeiro, reconhecimento de entidades e classificação de notícias. Mas havia uma armadilha.
O modelo não está disponível para o público. Está integrado ao Bloomberg Terminal — o sistema que custa em torno de USD 24.000 por usuário por ano. Equipes de CFOs de médias empresas brasileiras não têm acesso direto a ele.
E mesmo para quem tem acesso: pilotos internos relataram redução de 20 a 30% no tempo de consulta de analistas — um ganho real, mas não transformador para operações financeiras corporativas fora de bancos de investimento.
Outro dado importante: em benchmarks de raciocínio quantitativo complexo, o GPT-4 já supera o BloombergGPT. Em classificação de headlines financeiras, o FinBERT — modelo de 2019, com fração dos parâmetros — tem F1 de 90,8% contra 82,2% do BloombergGPT.
O BloombergGPT foi um marco histórico. Como ferramenta prática para a maioria das equipes financeiras, tem utilidade limitada.
FinGPT: open-source e treinável por menos de USD 300
Enquanto Bloomberg gastou milhões treinando seu modelo do zero, pesquisadores da Columbia University tomaram um caminho diferente.
O FinGPT usa fine-tuning via LoRA (Low-Rank Adaptation) — uma técnica que adapta modelos base existentes (LLaMA, Falcon, ChatGLM) com dados financeiros específicos, sem retreinar o modelo inteiro. O resultado: fine-tuning por menos de USD 300, com performance competitiva em tarefas de NLP financeiro.
O modelo é open-source, disponível no GitHub e HuggingFace, e suporta RAG (Retrieval-Augmented Generation) — permitindo que equipes financeiras conectem o modelo aos seus próprios dados internos: contratos, faturas, relatórios, histórico de clientes.
Resultados em benchmarks (Golden Touchstone):
| Tarefa | FinGPT | GPT-4 |
|---|---|---|
| Análise de sentimento (FPB) | F1 87,62% | F1 ~87% |
| Classificação de headlines | F1 95,50% | F1 ~95% |
| QA financeiro aberto | EM 28,47% | EM 76% |
| Sumarização | ROUGE ~0% | ROUGE 30% |
A conclusão é clara: em análise de sentimento e classificação, o FinGPT rivaliza com o GPT-4. Em raciocínio complexo, modelagem e sumarização de documentos longos, fica muito atrás.
Para equipes que processam grandes volumes de notícias financeiras, earnings calls ou alertas de risco em texto e querem um modelo customizável com dados internos — o FinGPT é uma opção concreta, com baixo custo de adoção e transparência total (por ser open-source, permite auditoria e garante privacidade dos dados).
FinBERT: o especialista em sentimento que ainda surpreende
O FinBERT é o mais antigo dos três — publicado em 2019 pela Prosus AI. É baseado no BERT (Bidirectional Encoder Representations from Transformers) e foi ajustado especificamente para classificar sentimento financeiro em três categorias: positivo, neutro ou negativo.
Seu foco estreito é também seu maior diferencial.
Em acurácia de classificação de sentimento financeiro:
- Financial PhraseBank (benchmark padrão): 97% de acurácia em subconjunto de consenso
- Classificação de headlines financeiras: F1 de 90,8% — supera GPT-4 (86,0%) e BloombergGPT (82,2%)
- Versão distilada (TinyFinBERT): roda em CPU, ideal para deployment em tempo real
Onde o FinBERT tem clara vantagem sobre modelos gerais:
- Monitoramento de sentimento de mercado em tempo real: processar milhares de notícias por hora e gerar score de risco sem custo por token
- Triagem de earnings calls: identificar tons negativos/positivos em transcrições antes de leitura humana
- Early warning de risco reputacional: monitorar cobertura de fornecedores, parceiros e concorrentes em larga escala
- Análise de compliance: verificar tonalidade de comunicações externas antes da publicação
Um fundo quantitativo brasileiro que processe 10.000 notícias por dia com GPT-4 pagaria centenas de dólares diariamente em tokens. Com FinBERT rodando localmente, o custo marginal é praticamente zero após o setup inicial.
FinMA e FinTral: os modelos que chegaram depois
Dois outros modelos merecem menção para equipes com necessidades específicas:
FinMA (PIXIU), desenvolvido pela FinAI Foundation, faz fine-tuning de LLaMA com 136.000 amostras de instrução financeira. Em benchmarks do FLARE (conjunto de 8 tarefas, 15 datasets financeiros), supera o BloombergGPT, ChatGPT e até o GPT-4 em análise de sentimento (F1 93,9%) e classificação de headlines (F1 97,5%).
FinTral, baseado em Mistral 7B, supera consistentemente o GPT-3.5 em todos os benchmarks testados e bate o GPT-4 em tarefas específicas de extração de relações financeiras — útil para análise automática de contratos e filings regulatórios.
A descoberta mais interessante do FinMA: o modelo de 7B parâmetros não fica significativamente abaixo do de 30B parâmetros. A qualidade dos dados de instrução importa mais que o tamanho do modelo — um dado valioso para equipes que queiram criar modelos financeiros internos.
Quando usar qual: o guia prático
A decisão entre LLMs especializados e modelos gerais depende de três variáveis: volume de processamento, complexidade da tarefa e custo de operação.
| Tarefa financeira | LLM recomendado |
|---|---|
| Análise de variância orçamentária | GPT-4 / Claude |
| Geração de narrativas para relatórios financeiros | GPT-4 / Claude |
| Modelagem de cenários (NPV, IRR, fluxo de caixa) | GPT-4 / Claude |
| Análise de contratos e cláusulas complexas | GPT-4 / Claude |
| Classificação de sentimento de notícias (alto volume) | FinBERT |
| Monitoramento de earnings calls de concorrentes | FinBERT / FinGPT |
| Fine-tuning com dados internos (faturas, contratos) | FinGPT (LoRA) |
| Early warning por monitoramento de mídia | FinBERT |
| QA sobre documentos financeiros longos | GPT-4 / Claude + RAG |
| Extração de entidades financeiras de documentos | FinMA / FinBERT |
O padrão que emerge das pesquisas mais recentes (FinBen, 2024; Open FinLLM Leaderboard, 2025): modelos gerais de grande escala (GPT-4, Claude Opus) lideram em raciocínio complexo e geração de texto, enquanto LLMs especializados retêm vantagem em tarefas de NLP financeiro estreitas, de alto volume e custo-sensíveis.
Para a maioria das equipes financeiras brasileiras, isso significa: use ChatGPT, Claude ou Gemini para análise estratégica e geração de relatórios. Considere FinBERT ou FinGPT quando precisar processar grandes volumes de texto financeiro com custo controlado, privacidade de dados ou customização com informações internas.
A armadilha do modelo "certo para finanças"
Há um erro comum que vemos em discussões sobre LLMs para o setor financeiro: assumir que "especializado" é sempre melhor.
O benchmark FinanceReasoning (238 perguntas de raciocínio quantitativo multi-step) mostra que o GPT-5 alcança 88,23% de acurácia e o Claude Opus 4.6 chega a 87,82% — performances que nenhum LLM especializado atual consegue replicar em tarefas complexas.
A analogia prática: um contador experiente de uma grande firma não é necessariamente melhor para modelar uma fusão do que um analista brilhante de M&A que conhece finanças em profundidade geral. Depende do tipo de problema.
O que recomendamos para equipes financeiras no Brasil:
- Comece com modelos gerais (GPT-4, Claude) para tarefas de análise e geração. São os mais capazes hoje em raciocínio complexo e já têm contexto financeiro sólido.
- Avalie FinBERT especificamente se você processa mais de alguns milhares de notícias ou comunicações financeiras por semana — o custo-benefício é superior.
- Explore FinGPT se quiser fine-tuning com dados internos (faturas, contratos, histórico de clientes) sem depender de uma API externa ou expor dados sensíveis.
- Use RAG antes de fine-tuning para a maioria dos casos: conectar um LLM geral à sua base de documentos internos via RAG costuma ser mais rápido, mais barato e mais fácil de atualizar do que treinar um modelo especializado.
- Meça resultados, não benchmarks abstratos: cada contexto financeiro é diferente. Teste 2-3 abordagens com suas tarefas reais antes de decidir qual modelo adotar em escala.
A especialização em LLMs financeiros é real e relevante — mas o campo evoluiu mais rápido do que muitos previam. Modelos gerais de grande escala reduziram o gap, e a escolha certa depende cada vez mais da arquitetura de uso (volume, custo, privacidade) do que do domínio de treinamento do modelo.
Fontes:
- BloombergGPT — Bloomberg Press Release
- BloombergGPT Paper — arXiv:2303.17564
- FinGPT Paper — arXiv:2306.06031
- FinGPT GitHub — AI4Finance-Foundation
- FinBERT — ProsusAI GitHub
- PIXIU/FinMA Paper — arXiv:2306.05443
- FinBen Benchmark (NeurIPS 2024) — arXiv:2402.12659
- Open Financial LLM Leaderboard — HuggingFace/FINOS
- CFA Institute: Practical Guide for LLMs in Finance