Skip to content

← Costes y límites

Límites y optimización de costes

Cómo funcionan los límites ligados al saldo y qué palancas reales tienes para gastar menos sin perder calidad.

6 slides 5 min de lectura
  1. OpenRouter · Costos i límits

    Límites y optimización de costes

    Qué límites hay — y cómo gastar menos sin perder calidad.

    OpenRouter · Costes y límites arlaf.dev
  2. Los límites van ligados al saldo

    Tu rate limit depende de la cuenta y del saldo de créditos que tienes. Cuanto más cargado, más margen de peticiones; con la cuenta casi vacía, el techo es más bajo.

    OpenRouter · Costes y límites arlaf.dev
  3. Los modelos gratuitos son más estrictos

    Las variantes ":free" son ideales para probar, pero llevan límites más duros (menos peticiones por minuto y por día). Para carga seria o producción, no te acabes apoyando en ellas.

    OpenRouter · Costes y límites arlaf.dev
  4. Palancas para gastar menos

    El gasto lo controlas tú con decisiones concretas en cada llamada. No hace falta sacrificar calidad donde importa: solo dejar de pagar de más donde no importa.

    • Elige un modelo más barato para tareas fáciles.
    • Limita "max_tokens" para que la respuesta no se dispare.
    • Acorta el prompt — el contexto también se paga.
    • Enruta con ":floor" hacia el proveedor más barato.
    • Modelo pequeño por defecto y fallback a uno grande si hace falta.
    OpenRouter · Costes y límites arlaf.dev
  5. Techo de coste y fallback

    from openai import OpenAI
    
    client = OpenAI(
        base_url="https://openrouter.ai/api/v1",
        api_key="$OPENROUTER_API_KEY",
    )
    
    resp = client.chat.completions.create(
        # ":floor" busca el proveïdor més barat per a aquest model
        model="meta-llama/llama-3.1-8b-instruct:floor",
        max_tokens=256,  # sostre dur de tokens de sortida
        messages=[{"role": "user", "content": "Resumeix això en 2 frases."}],
        extra_body={
            # si el petit falla, passa a un de més gran
            "models": ["openai/gpt-4o"],
        },
    )
    print(resp.choices[0].message.content)
    
    OpenRouter · Costes y límites arlaf.dev
  6. Gastar menos no es elegir el peor modelo — es elegir el modelo justo para cada tarea.
    OpenRouter · Costes y límites arlaf.dev
Leer la nota completa

Els límits d’OpenRouter no són una xifra fixa per a tothom: van lligats al teu compte i al saldo de crèdits. Com més carregat el tens, més marge de peticions tens; amb el compte gairebé buit, el sostre baixa. I un cas especial: els models en variant :free són perfectes per provar, però porten límits més estrictes de peticions. Estan bé per experimentar, no per aguantar producció.

On se’t va el cost

Pagues per token, així que el cost surt de tres llocs: el model que tries, la mida del prompt que envies i la llargada de la resposta. Tocar qualsevol dels tres mou la factura. La bona notícia és que tens palanques directes sobre tots.

Les palanques que tens

  • Tria el model segons la tasca. Per a coses fàcils — classificar, extreure, resumir — un model petit i barat fa la feina igual de bé que un de frontera.
  • Limita max_tokens. És el sostre dur de la resposta: evita que un model s’allargui i et cobri tokens que no necessites.
  • Escurça el prompt. El context d’entrada també es paga. Treu exemples redundants i instruccions que no aporten.
  • Enruta amb :floor. Afegit al model, demana sempre el proveïdor més barat disponible per a aquell model.
  • Petit per defecte, gran de reserva. Posa un model petit com a principal i un de gran a la llista de models com a fallback: només pagaràs el car quan el barat realment falli.

La combinació guanyadora sol ser model barat + max_tokens ajustat + fallback: cobreixes el cas comú a baix cost i tens xarxa de seguretat per als casos durs.

Nota: els límits concrets (peticions per minut i dia, sostres per saldo) i les condicions dels models :free canvien sovint. Consulta la documentació de rate limits i el teu dashboard d’OpenRouter per veure els valors vigents.