Caveman Skill: Reduza 75% dos Tokens no Claude Code

Última atualização: 28 de abril de 2026

Você está queimando token que não vê. E o problema não está onde você pensa.

Não é no seu prompt. Não é no output. É no meio — no system prompt, onde o Claude planeja, raciocina e "conversa consigo mesmo" antes de te responder. É ali que a conta explode. E é exatamente ali que a Caveman Skill age.

Claude Code terminal com economia de tokens — gráfico comparativo Caveman vs convencional, fundo escuro, neon azul

Benchmark real da operação do Geek: 77% de redução de tokens. De 5.350 para 1.200 por apresentação. Projeção mensal: economia de 16.000 tokens — sem perder uma linha de qualidade no output final.

Caveman Skill: Reduza 75% do Gasto de Token no Claude Code (Sem Perder Qualidade)

O Problema que Ninguém Explica: Onde os Tokens Somem

A maioria das pessoas foca no input (o que você escreve) e no output (o que o Claude responde). Mas existe uma terceira camada que ninguém vê:

O system prompt interno — onde o Claude processa, planeja, chama sub-agentes e "pensa em voz alta" antes de responder.

É nessa camada que 70-80% do gasto acontece. Cada chamada entre agentes, cada raciocínio intermediário, cada verificação interna — tudo conta como token.

A Caveman Skill força o Claude a comprimir essa comunicação interna ao mínimo. Em vez de elaborar, ele sintetiza. Em vez de explicar o raciocínio, ele executa e reporta. Resultado no output para você: idêntico. Custo interno: até 95% menor.

Os 4 Modos da Caveman Skill

Passo 1 — Caveman Light (redução de 28%)

Comunicação levemente comprimida, ainda natural. O Claude mantém raciocínio legível mas elimina redundâncias. Ideal para tarefas criativas onde o processo importa.

Passo 2 — Caveman Full (redução ~50%)

Compressão substancial. Ideal para o dia a dia de código e automações. Equivalente a trocar o Opus pelo Sonnet em termos de custo — sem trocar o modelo.

Passo 3 — Caveman Ultra (redução de 75%)

O modo padrão recomendado. O Claude "fala como homem das cavernas" internamente: só reporta o que foi feito, sem justificativas. Output final: completo e correto. Custo interno: mínimo.

Passo 4 — Modo Chinês (redução de 95%)

Hack extremo: o Claude processa internamente usando pictogramas/tokens chineses, que são mais densos por caractere. Cada símbolo carrega mais informação com menos tokens. Para uso em produção com volume alto de chamadas.

Benchmark Real: Antes e Depois

Métrica	Sem Caveman	Com Caveman Ultra	Redução
Tokens por apresentação	5.350	1.200	77%
Tokens (5 vídeos/mês)	18.400	2.100	88%
Custo estimado mensal	~R$ 200	~R$ 80	R$ 120 economizado
Qualidade do output	✅	✅	Sem diferença

A economia não é teórica — é o que a operação do Geek registrou na prática, com criação de apresentações, roteiros e distribuição de conteúdo.

Como Instalar a Caveman Skill

A instalação é feita pelo próprio Claude Code — você não precisa tocar no terminal.

Abra o Claude Code e mande o seguinte prompt:

Quero que você instale para mim o repositório da Caveman Skill.
[cole o link do repositório aqui]
Crie a skill no meu projeto, me apresente as 4 opções de modo
e instale o modo Ultra como padrão.

O Claude vai acessar o repositório, ler a documentação e configurar a skill automaticamente.

O pulo do gato após instalar: mande esse prompt obrigatório:

Atualize sua memória, o pipeline e o CLAUDE.md para sempre 
buscar e aplicar a Caveman Skill em todos os processos.

Sem esse passo, a skill não persiste entre sessões. Com ele, o Claude passa a usar Caveman automaticamente em tudo.

FAQ

A Caveman Skill afeta a qualidade das respostas? Não. A compressão acontece na comunicação interna do Claude, não no output final que você recebe. O resultado é o mesmo — o caminho até ele é mais curto e barato.

Qual modo usar no dia a dia? O Ultra (75% de redução) é o ponto ideal entre economia e confiabilidade. O modo chinês (95%) funciona mas pode gerar outputs com trechos em mandarim — use com cautela em produção.

Funciona com outros modelos além do Claude? A skill foi desenvolvida para Claude Code, mas a lógica de compressão de tokens funciona com qualquer modelo que aceite system prompts customizados — incluindo Codex e Gemini via Antigravit.

Fontes e referências

Repositório oficial da Caveman Skill — documentação dos 4 modos de compressão
Anthropic — Token usage e otimização — referência oficial de tokens por modelo
Anthropic Engineering Blog — Context windows — como o sistema de reasoning interno funciona

Quer implementar Caveman e mais 47 skills na sua operação?

No GEEK-OS você aprende a montar o sistema operacional completo da sua empresa com Claude Code — skills, comandos, MCPs e automações prontos para usar.

→ Acessar GEEK-OS

Caveman Skill: Reduza 75% do Gasto de Token no Claude Code (Sem Perder Qualidade)

Crie 3 infoprodutos em 3 dias com Claude Code

O Problema que Ninguém Explica: Onde os Tokens Somem

Os 4 Modos da Caveman Skill

Passo 1 — Caveman Light (redução de 28%)

Passo 2 — Caveman Full (redução ~50%)

Passo 3 — Caveman Ultra (redução de 75%)

Passo 4 — Modo Chinês (redução de 95%)

Benchmark Real: Antes e Depois

Como Instalar a Caveman Skill

Leia também

FAQ

Fontes e referências

Crie 3 infoprodutos em 3 dias com Claude Code

Quer o sistema completo funcionando?

Receba o que funciona de verdade

Artigos relacionados

Clonar Pagina Escalada em 1 Prompt Gratis: Como Fazer

Clonar Pagina Escalada em 1 Prompt Gratis: Comparativo 2026

Clonar Pagina Escalada em 1 Prompt Gratis: Configuracao e Setup