Limits and cost optimization

How balance-tied limits work and the real levers you have to spend less without losing quality.

May 31, 2026 6 slides 5 min read

OpenRouter · Costos i límits

Limits and cost optimization

What limits exist — and how to spend less without losing quality.
Limits are tied to your balance

Your rate limit depends on the account and the credit balance you hold. The more you've topped up, the more requests you get; with a near-empty account, the ceiling is lower.
Free models are stricter

The ":free" variants are great for testing, but carry harsher limits (fewer requests per minute and per day). For real load or production, don't end up relying on them.
Levers to spend less

You control spend with concrete decisions on each call. No need to sacrifice quality where it matters: just stop overpaying where it doesn't.
- Pick a cheaper model for easy tasks.
- Cap "max_tokens" so the response doesn't blow up.
- Shorten the prompt — context costs too.
- Route with ":floor" to the cheapest provider.
- Small model by default, fallback to a big one if needed.
OpenRouter · Costs and limits arlaf.dev

Cost ceiling and fallback

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="$OPENROUTER_API_KEY",
)

resp = client.chat.completions.create(
    # ":floor" busca el proveïdor més barat per a aquest model
    model="meta-llama/llama-3.1-8b-instruct:floor",
    max_tokens=256,  # sostre dur de tokens de sortida
    messages=[{"role": "user", "content": "Resumeix això en 2 frases."}],
    extra_body={
        # si el petit falla, passa a un de més gran
        "models": ["openai/gpt-4o"],
    },
)
print(resp.choices[0].message.content)

Spending less isn't picking the worst model — it's picking the right model for each task.

Read the full note

Els límits d’OpenRouter no són una xifra fixa per a tothom: van lligats al teu compte i al saldo de crèdits. Com més carregat el tens, més marge de peticions tens; amb el compte gairebé buit, el sostre baixa. I un cas especial: els models en variant :free són perfectes per provar, però porten límits més estrictes de peticions. Estan bé per experimentar, no per aguantar producció.

On se’t va el cost

Pagues per token, així que el cost surt de tres llocs: el model que tries, la mida del prompt que envies i la llargada de la resposta. Tocar qualsevol dels tres mou la factura. La bona notícia és que tens palanques directes sobre tots.

Les palanques que tens

Tria el model segons la tasca. Per a coses fàcils — classificar, extreure, resumir — un model petit i barat fa la feina igual de bé que un de frontera.
Limita max_tokens. És el sostre dur de la resposta: evita que un model s’allargui i et cobri tokens que no necessites.
Escurça el prompt. El context d’entrada també es paga. Treu exemples redundants i instruccions que no aporten.
Enruta amb :floor. Afegit al model, demana sempre el proveïdor més barat disponible per a aquell model.
Petit per defecte, gran de reserva. Posa un model petit com a principal i un de gran a la llista de models com a fallback: només pagaràs el car quan el barat realment falli.

La combinació guanyadora sol ser model barat + max_tokens ajustat + fallback: cobreixes el cas comú a baix cost i tens xarxa de seguretat per als casos durs.

Nota: els límits concrets (peticions per minut i dia, sostres per saldo) i les condicions dels models :free canvien sovint. Consulta la documentació de rate limits i el teu dashboard d’OpenRouter per veure els valors vigents.