Skip to content

← Costos i límits

Límits i optimització de costos

Com funcionen els límits lligats al saldo i quines palanques reals tens per gastar menys sense perdre qualitat.

6 slides 5 min de lectura
  1. OpenRouter · Costos i límits

    Límits i optimització de costos

    Quins límits hi ha — i com gastar menys sense perdre qualitat.

    OpenRouter · Costos i límits arlaf.dev
  2. Els límits van lligats al saldo

    El teu rate limit depèn del compte i del saldo de crèdits que hi tens. Com més carregat, més marge de peticions; amb el compte gairebé buit, el sostre és més baix.

    OpenRouter · Costos i límits arlaf.dev
  3. Els models gratuïts són més estrictes

    Les variants ":free" són ideals per provar, però porten límits més durs (menys peticions per minut i per dia). Per a càrrega seriosa o producció, no t'hi acabis recolzant.

    OpenRouter · Costos i límits arlaf.dev
  4. Palanques per gastar menys

    La despesa la controles tu amb decisions concretes a cada crida. No cal sacrificar qualitat on importa: només deixar de pagar de més on no importa.

    • Tria un model més barat per a tasques fàcils.
    • Limita "max_tokens" perquè la resposta no es dispari.
    • Escurça el prompt — el context també es paga.
    • Enruta amb ":floor" cap al proveïdor més barat.
    • Model petit per defecte i fallback a un de gran si cal.
    OpenRouter · Costos i límits arlaf.dev
  5. Sostre de cost i fallback

    from openai import OpenAI
    
    client = OpenAI(
        base_url="https://openrouter.ai/api/v1",
        api_key="$OPENROUTER_API_KEY",
    )
    
    resp = client.chat.completions.create(
        # ":floor" busca el proveïdor més barat per a aquest model
        model="meta-llama/llama-3.1-8b-instruct:floor",
        max_tokens=256,  # sostre dur de tokens de sortida
        messages=[{"role": "user", "content": "Resumeix això en 2 frases."}],
        extra_body={
            # si el petit falla, passa a un de més gran
            "models": ["openai/gpt-4o"],
        },
    )
    print(resp.choices[0].message.content)
    
    OpenRouter · Costos i límits arlaf.dev
  6. Gastar menys no és triar el pitjor model — és triar el model just per a cada tasca.
    OpenRouter · Costos i límits arlaf.dev
Llegir la nota completa

Els límits d’OpenRouter no són una xifra fixa per a tothom: van lligats al teu compte i al saldo de crèdits. Com més carregat el tens, més marge de peticions tens; amb el compte gairebé buit, el sostre baixa. I un cas especial: els models en variant :free són perfectes per provar, però porten límits més estrictes de peticions. Estan bé per experimentar, no per aguantar producció.

On se’t va el cost

Pagues per token, així que el cost surt de tres llocs: el model que tries, la mida del prompt que envies i la llargada de la resposta. Tocar qualsevol dels tres mou la factura. La bona notícia és que tens palanques directes sobre tots.

Les palanques que tens

  • Tria el model segons la tasca. Per a coses fàcils — classificar, extreure, resumir — un model petit i barat fa la feina igual de bé que un de frontera.
  • Limita max_tokens. És el sostre dur de la resposta: evita que un model s’allargui i et cobri tokens que no necessites.
  • Escurça el prompt. El context d’entrada també es paga. Treu exemples redundants i instruccions que no aporten.
  • Enruta amb :floor. Afegit al model, demana sempre el proveïdor més barat disponible per a aquell model.
  • Petit per defecte, gran de reserva. Posa un model petit com a principal i un de gran a la llista de models com a fallback: només pagaràs el car quan el barat realment falli.

La combinació guanyadora sol ser model barat + max_tokens ajustat + fallback: cobreixes el cas comú a baix cost i tens xarxa de seguretat per als casos durs.

Nota: els límits concrets (peticions per minut i dia, sostres per saldo) i les condicions dels models :free canvien sovint. Consulta la documentació de rate limits i el teu dashboard d’OpenRouter per veure els valors vigents.