Límits i optimització de costos
Com funcionen els límits lligats al saldo i quines palanques reals tens per gastar menys sense perdre qualitat.
Els límits d’OpenRouter no són una xifra fixa per a tothom: van lligats al teu
compte i al saldo de crèdits. Com més carregat el tens, més marge de peticions
tens; amb el compte gairebé buit, el sostre baixa. I un cas especial: els models
en variant :free són perfectes per provar, però porten límits més estrictes
de peticions. Estan bé per experimentar, no per aguantar producció.
On se’t va el cost
Pagues per token, així que el cost surt de tres llocs: el model que tries, la mida del prompt que envies i la llargada de la resposta. Tocar qualsevol dels tres mou la factura. La bona notícia és que tens palanques directes sobre tots.
Les palanques que tens
- Tria el model segons la tasca. Per a coses fàcils — classificar, extreure, resumir — un model petit i barat fa la feina igual de bé que un de frontera.
- Limita
max_tokens. És el sostre dur de la resposta: evita que un model s’allargui i et cobri tokens que no necessites. - Escurça el prompt. El context d’entrada també es paga. Treu exemples redundants i instruccions que no aporten.
- Enruta amb
:floor. Afegit al model, demana sempre el proveïdor més barat disponible per a aquell model. - Petit per defecte, gran de reserva. Posa un model petit com a principal i
un de gran a la llista de
modelscom a fallback: només pagaràs el car quan el barat realment falli.
La combinació guanyadora sol ser model barat + max_tokens ajustat + fallback:
cobreixes el cas comú a baix cost i tens xarxa de seguretat per als casos durs.
Nota: els límits concrets (peticions per minut i dia, sostres per saldo) i les condicions dels models
:freecanvien sovint. Consulta la documentació de rate limits i el teu dashboard d’OpenRouter per veure els valors vigents.