Skip to content

← Costs and limits

Limits and cost optimization

How balance-tied limits work and the real levers you have to spend less without losing quality.

6 slides 5 min read
  1. OpenRouter · Costos i límits

    Limits and cost optimization

    What limits exist — and how to spend less without losing quality.

    OpenRouter · Costs and limits arlaf.dev
  2. Limits are tied to your balance

    Your rate limit depends on the account and the credit balance you hold. The more you've topped up, the more requests you get; with a near-empty account, the ceiling is lower.

    OpenRouter · Costs and limits arlaf.dev
  3. Free models are stricter

    The ":free" variants are great for testing, but carry harsher limits (fewer requests per minute and per day). For real load or production, don't end up relying on them.

    OpenRouter · Costs and limits arlaf.dev
  4. Levers to spend less

    You control spend with concrete decisions on each call. No need to sacrifice quality where it matters: just stop overpaying where it doesn't.

    • Pick a cheaper model for easy tasks.
    • Cap "max_tokens" so the response doesn't blow up.
    • Shorten the prompt — context costs too.
    • Route with ":floor" to the cheapest provider.
    • Small model by default, fallback to a big one if needed.
    OpenRouter · Costs and limits arlaf.dev
  5. Cost ceiling and fallback

    from openai import OpenAI
    
    client = OpenAI(
        base_url="https://openrouter.ai/api/v1",
        api_key="$OPENROUTER_API_KEY",
    )
    
    resp = client.chat.completions.create(
        # ":floor" busca el proveïdor més barat per a aquest model
        model="meta-llama/llama-3.1-8b-instruct:floor",
        max_tokens=256,  # sostre dur de tokens de sortida
        messages=[{"role": "user", "content": "Resumeix això en 2 frases."}],
        extra_body={
            # si el petit falla, passa a un de més gran
            "models": ["openai/gpt-4o"],
        },
    )
    print(resp.choices[0].message.content)
    
    OpenRouter · Costs and limits arlaf.dev
  6. Spending less isn't picking the worst model — it's picking the right model for each task.
    OpenRouter · Costs and limits arlaf.dev
Read the full note

Els límits d’OpenRouter no són una xifra fixa per a tothom: van lligats al teu compte i al saldo de crèdits. Com més carregat el tens, més marge de peticions tens; amb el compte gairebé buit, el sostre baixa. I un cas especial: els models en variant :free són perfectes per provar, però porten límits més estrictes de peticions. Estan bé per experimentar, no per aguantar producció.

On se’t va el cost

Pagues per token, així que el cost surt de tres llocs: el model que tries, la mida del prompt que envies i la llargada de la resposta. Tocar qualsevol dels tres mou la factura. La bona notícia és que tens palanques directes sobre tots.

Les palanques que tens

  • Tria el model segons la tasca. Per a coses fàcils — classificar, extreure, resumir — un model petit i barat fa la feina igual de bé que un de frontera.
  • Limita max_tokens. És el sostre dur de la resposta: evita que un model s’allargui i et cobri tokens que no necessites.
  • Escurça el prompt. El context d’entrada també es paga. Treu exemples redundants i instruccions que no aporten.
  • Enruta amb :floor. Afegit al model, demana sempre el proveïdor més barat disponible per a aquell model.
  • Petit per defecte, gran de reserva. Posa un model petit com a principal i un de gran a la llista de models com a fallback: només pagaràs el car quan el barat realment falli.

La combinació guanyadora sol ser model barat + max_tokens ajustat + fallback: cobreixes el cas comú a baix cost i tens xarxa de seguretat per als casos durs.

Nota: els límits concrets (peticions per minut i dia, sostres per saldo) i les condicions dels models :free canvien sovint. Consulta la documentació de rate limits i el teu dashboard d’OpenRouter per veure els valors vigents.