Cómo controlar el costo de tokens de un LLM en producción?
El control del costo de tokens en producción para un LLM busca evitar el “susto” de facturas que pueden llegar a fin de mes con costos hasta tres veces mayores a lo previsto. La guía explica que el costo se mide por tokens de entrada (prompt) y de salida (respuesta), y que la salida suele ser más cara. Para gestionarlo, recomienda calcular el costo por request usando precios por millón de tokens del modelo y mantenerlos en configuración, no hardcodeados. También propone atribuir gastos por usuario o endpoint mediante etiquetado, para detectar el origen del consumo. Para frenar excesos, sugiere poner límites duros por usuario y/o globales. Entre las palancas para bajar costos figuran elegir un modelo adecuado, acortar prompts, limitar longitud de salida y usar prompt caching. Incluye un ejemplo mensual con 10.000 requests y 1.000 tokens de entrada y 500 de salida para estimar costos.




