Límits i optimització de costos

Com funcionen els límits lligats al saldo i quines palanques reals tens per gastar menys sense perdre qualitat.

31 de maig del 2026 6 slides 5 min de lectura

OpenRouter · Costos i límits

Límits i optimització de costos

Quins límits hi ha — i com gastar menys sense perdre qualitat.
Els límits van lligats al saldo

El teu rate limit depèn del compte i del saldo de crèdits que hi tens. Com més carregat, més marge de peticions; amb el compte gairebé buit, el sostre és més baix.
Els models gratuïts són més estrictes

Les variants ":free" són ideals per provar, però porten límits més durs (menys peticions per minut i per dia). Per a càrrega seriosa o producció, no t'hi acabis recolzant.
Palanques per gastar menys

La despesa la controles tu amb decisions concretes a cada crida. No cal sacrificar qualitat on importa: només deixar de pagar de més on no importa.
- Tria un model més barat per a tasques fàcils.
- Limita "max_tokens" perquè la resposta no es dispari.
- Escurça el prompt — el context també es paga.
- Enruta amb ":floor" cap al proveïdor més barat.
- Model petit per defecte i fallback a un de gran si cal.
OpenRouter · Costos i límits arlaf.dev

Sostre de cost i fallback

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="$OPENROUTER_API_KEY",
)

resp = client.chat.completions.create(
    # ":floor" busca el proveïdor més barat per a aquest model
    model="meta-llama/llama-3.1-8b-instruct:floor",
    max_tokens=256,  # sostre dur de tokens de sortida
    messages=[{"role": "user", "content": "Resumeix això en 2 frases."}],
    extra_body={
        # si el petit falla, passa a un de més gran
        "models": ["openai/gpt-4o"],
    },
)
print(resp.choices[0].message.content)

Gastar menys no és triar el pitjor model — és triar el model just per a cada tasca.

Llegir la nota completa

Els límits d’OpenRouter no són una xifra fixa per a tothom: van lligats al teu compte i al saldo de crèdits. Com més carregat el tens, més marge de peticions tens; amb el compte gairebé buit, el sostre baixa. I un cas especial: els models en variant :free són perfectes per provar, però porten límits més estrictes de peticions. Estan bé per experimentar, no per aguantar producció.

On se’t va el cost

Pagues per token, així que el cost surt de tres llocs: el model que tries, la mida del prompt que envies i la llargada de la resposta. Tocar qualsevol dels tres mou la factura. La bona notícia és que tens palanques directes sobre tots.

Les palanques que tens

Tria el model segons la tasca. Per a coses fàcils — classificar, extreure, resumir — un model petit i barat fa la feina igual de bé que un de frontera.
Limita max_tokens. És el sostre dur de la resposta: evita que un model s’allargui i et cobri tokens que no necessites.
Escurça el prompt. El context d’entrada també es paga. Treu exemples redundants i instruccions que no aporten.
Enruta amb :floor. Afegit al model, demana sempre el proveïdor més barat disponible per a aquell model.
Petit per defecte, gran de reserva. Posa un model petit com a principal i un de gran a la llista de models com a fallback: només pagaràs el car quan el barat realment falli.

La combinació guanyadora sol ser model barat + max_tokens ajustat + fallback: cobreixes el cas comú a baix cost i tens xarxa de seguretat per als casos durs.

Nota: els límits concrets (peticions per minut i dia, sostres per saldo) i les condicions dels models :free canvien sovint. Consulta la documentació de rate limits i el teu dashboard d’OpenRouter per veure els valors vigents.