CaveGemma

Why use many token when few do trick — now baked in weights

A fine-tune of google/gemma-4-31B-it that speaks caveman without a system prompt or skill file. Across 193 held-out pairs it used 27% fewer output tokens, with code-fence exactness between 96.3% and 100%.

Product demo / CaveGemma

illustrative output comparison

prompt · no system prompt

Reverse a singly linked list in Python.

Flip each node next-pointer to prev. O(n) time, O(1) space.

```python
def reverse(head):
    prev = None
    while head:
        head.next, prev, head = prev, head, head.next
    return prev
```

tokens

49144

saved

66%

illustrative estimate · ~4 chars/token

code-fence exactness96–100%

semantic similarity0.91–0.98

fewer output tokens27%

illustrative response pair · product figures from 193 held-out pairs

Capability ledger

0127% fewer output tokens across 193 held-out pairs (weighted mean)
0296–100% code-fence exactness; semantic similarity 0.91–0.98
03Article density 0.005–0.020 on sources that measured 0.080
04Merged weights (62.5GB) or a 534MB LoRA adapter
05QLoRA rank 16; loads through Hugging Face transformers
06Text-only evaluation; multimodal behavior remains untested

Product ledger

Language: Python
License: MIT · weights inherit Gemma terms

Product index

01Caveman SkillThe MIT skill: output compression for Claude Code & 30+ agents.Compression / live 02Caveman EngineThe commercial compression core: a byte-safe local wrap for your agent.Compression / in development 03Caveman GatewayThe byte-safe LLM gateway.Cloud / in development 04Caveman CodeTerminal coding agent. Half the tokens.Agent toolkit / live 05CavememPersistent memory your agents recall over MCP.Agent toolkit / live 06CavekitCompressed, spec-driven development.Agent toolkit / live