Límites y optimización de costes

Cómo funcionan los límites ligados al saldo y qué palancas reales tienes para gastar menos sin perder calidad.

31 de mayo de 2026 6 slides 5 min de lectura

OpenRouter · Costos i límits

Límites y optimización de costes

Qué límites hay — y cómo gastar menos sin perder calidad.
Los límites van ligados al saldo

Tu rate limit depende de la cuenta y del saldo de créditos que tienes. Cuanto más cargado, más margen de peticiones; con la cuenta casi vacía, el techo es más bajo.
Los modelos gratuitos son más estrictos

Las variantes ":free" son ideales para probar, pero llevan límites más duros (menos peticiones por minuto y por día). Para carga seria o producción, no te acabes apoyando en ellas.
Palancas para gastar menos

El gasto lo controlas tú con decisiones concretas en cada llamada. No hace falta sacrificar calidad donde importa: solo dejar de pagar de más donde no importa.
- Elige un modelo más barato para tareas fáciles.
- Limita "max_tokens" para que la respuesta no se dispare.
- Acorta el prompt — el contexto también se paga.
- Enruta con ":floor" hacia el proveedor más barato.
- Modelo pequeño por defecto y fallback a uno grande si hace falta.
OpenRouter · Costes y límites arlaf.dev

Techo de coste y fallback

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="$OPENROUTER_API_KEY",
)

resp = client.chat.completions.create(
    # ":floor" busca el proveïdor més barat per a aquest model
    model="meta-llama/llama-3.1-8b-instruct:floor",
    max_tokens=256,  # sostre dur de tokens de sortida
    messages=[{"role": "user", "content": "Resumeix això en 2 frases."}],
    extra_body={
        # si el petit falla, passa a un de més gran
        "models": ["openai/gpt-4o"],
    },
)
print(resp.choices[0].message.content)

Gastar menos no es elegir el peor modelo — es elegir el modelo justo para cada tarea.

Leer la nota completa

Els límits d’OpenRouter no són una xifra fixa per a tothom: van lligats al teu compte i al saldo de crèdits. Com més carregat el tens, més marge de peticions tens; amb el compte gairebé buit, el sostre baixa. I un cas especial: els models en variant :free són perfectes per provar, però porten límits més estrictes de peticions. Estan bé per experimentar, no per aguantar producció.

On se’t va el cost

Pagues per token, així que el cost surt de tres llocs: el model que tries, la mida del prompt que envies i la llargada de la resposta. Tocar qualsevol dels tres mou la factura. La bona notícia és que tens palanques directes sobre tots.

Les palanques que tens

Tria el model segons la tasca. Per a coses fàcils — classificar, extreure, resumir — un model petit i barat fa la feina igual de bé que un de frontera.
Limita max_tokens. És el sostre dur de la resposta: evita que un model s’allargui i et cobri tokens que no necessites.
Escurça el prompt. El context d’entrada també es paga. Treu exemples redundants i instruccions que no aporten.
Enruta amb :floor. Afegit al model, demana sempre el proveïdor més barat disponible per a aquell model.
Petit per defecte, gran de reserva. Posa un model petit com a principal i un de gran a la llista de models com a fallback: només pagaràs el car quan el barat realment falli.

La combinació guanyadora sol ser model barat + max_tokens ajustat + fallback: cobreixes el cas comú a baix cost i tens xarxa de seguretat per als casos durs.

Nota: els límits concrets (peticions per minut i dia, sostres per saldo) i les condicions dels models :free canvien sovint. Consulta la documentació de rate limits i el teu dashboard d’OpenRouter per veure els valors vigents.