Costes desbocados: cómo un solo agente de IA puede quemar tu presupuesto cloud en horas
Los agentes de IA pueden generar miles de euros en costes cloud inesperados en cuestión de horas. Aprende cómo los límites de presupuesto, los disyuntores y las políticas en tiempo de ejecución previenen los costes desbocados.
Puntos clave
- Un solo agente de IA sin gobernar puede acumular miles de dólares en costes cloud en cuestión de horas mediante bucles de reintentos, generación recursiva o llamadas API ilimitadas a modelos avanzados.
- Las herramientas tradicionales de gestión de costes cloud operan en escalas de tiempo humanas y no pueden responder lo suficientemente rápido. Para cuando una alerta llega a un canal de Slack, un agente puede haber agotado ya su presupuesto mensual.
- Los cinco patrones más comunes de costes desbocados son tormentas de reintentos, generación recursiva de agentes, saturación de ventana de contexto, escalación de modelo y uso ilimitado de herramientas.
- La gobernanza efectiva de costes requiere aplicación en línea y en tiempo real con disyuntores, límites de presupuesto por agente y reglas de política como código que bloqueen la siguiente llamada API antes de que se ejecute.
- Las organizaciones que tratan los controles de costes de agentes como infraestructura en lugar de una ocurrencia tardía reportan entre un 60 y un 80 por ciento menos de varianza en su gasto mensual en IA.
La sorpresa de 14.000 dólares de la noche a la mañana
Una empresa fintech de tamaño medio compartió una historia que seguimos escuchando de equipos de ingeniería. Desplegaron un agente de IA para automatizar la revisión de código en sus repositorios internos. El agente funcionó bien durante las pruebas. Procesaba pull requests eficientemente y proporcionaba feedback útil, así que lo dejaron ejecutándose durante un fin de semana.
El lunes por la mañana, el agente había generado 14.000 dólares en cargos por API de LLM. La secuencia era predecible en retrospectiva. El agente encontró una serie de conflictos de merge que no podía resolver, así que entró en un bucle de reintentos donde repetidamente buscaba contexto y re-analizaba los mismos archivos. En el proceso, escaló gradualmente a un modelo más caro intentando producir mejores resultados. Cada ciclo consumía más tokens que el anterior porque el agente seguía añadiendo sus intentos fallidos previos a la ventana de contexto.
Ninguna alerta saltó hasta que se cerró el ciclo de facturación. Nadie estaba mirando el dashboard a las 3 de la mañana del sábado. El agente siguió intentando completar su tarea porque eso es todo lo que sabe hacer.
Esta historia es común. Según una encuesta de 2026 de Andreessen Horowitz, el 42 por ciento de las empresas que ejecutan agentes de IA en producción han sufrido al menos un incidente de costes desbocados. La mediana del cargo inesperado superó los 5.000 dólares.
Por qué los agentes son especialmente caros de dejar sin supervisión
El software tradicional tiene perfiles de coste predecibles. Un servidor web maneja solicitudes a un coste aproximadamente constante por solicitud. Un trabajo por lotes procesa un volumen conocido de datos. Incluso la infraestructura con autoescalado sigue patrones que las herramientas de costes cloud pueden modelar y alertar.
Los agentes de IA no siguen ninguno de estos patrones.
Toman decisiones de gasto autónomas
Cada acción que toma un agente de IA se traduce en operaciones facturables, desde llamadas a APIs de LLM y consultas a bases de datos vectoriales hasta solicitudes a motores de búsqueda, ciclos de cómputo y escrituras en almacenamiento. Un desarrollador humano que ve un cargo de 50 dólares en un dashboard se detendrá a reconsiderar, pero un agente continuará ejecutándose mientras su tarea permanezca incompleta. El agente no tiene concepto de coste. Solo entiende la completación de tareas.
Su coste es no lineal
Un solo prompt a modelos de clase GPT-4 puede costar entre 0,01 y 2,00 dólares dependiendo de la longitud del contexto. Cuando un agente entra en un bucle donde cada iteración añade la salida anterior a la siguiente entrada, los contadores de tokens crecen cuadráticamente. Una solicitud de 0,05 dólares se convierte en una solicitud de 0,50 dólares, luego en una de 5,00 dólares, con cada una alimentando la siguiente. Diez iteraciones de este patrón pueden superar los 500 dólares.
Se multiplican en toda la flota
Las organizaciones raramente despliegan un solo agente. Despliegan docenas o cientos, y cada uno tiene su propia tarea, sus propias claves API, y a menudo su propio punto ciego de presupuesto. Cuando un agente descubre un patrón que funciona, se replica. Cuando ese patrón tiene una patología de costes, la patología también se replica. Una flota de 50 agentes quemando cada uno 200 dólares al día más de lo esperado suma 300.000 dólares al mes en gasto no anticipado.
Los cinco patrones detrás de la mayoría de incidentes de costes desbocados
Basándose en incidentes reportados públicamente y conversaciones con equipos empresariales que gestionan flotas de agentes, cinco patrones aparecen una y otra vez.
1. Tormentas de reintentos
Este es el patrón más común. Un agente llama a una API externa que devuelve un error, un límite de tasa, un timeout o una respuesta malformada. En lugar de esperar o escalar, el agente reintenta inmediatamente, a menudo con la misma solicitud. Los agentes basados en LLM frecuentemente interpretan los fallos como “necesito intentarlo más”, así que reformulan la solicitud ligeramente cada vez, generando nuevas llamadas facturables sin avanzar.
Impacto real: Una empresa de logística reportó un agente que hizo 12.000 llamadas API en 90 minutos después de que una API de precios de terceros empezó a devolver errores 503. Cada llamada incluía una re-evaluación completa de la ventana de contexto, costando 0,15 dólares por intento.
2. Generación recursiva de agentes
Las arquitecturas multi-agente a menudo permiten que un agente padre genere agentes hijos para subtareas. Sin límites de profundidad, esto crea crecimiento exponencial. Un agente orquestador divide una tarea en cinco subtareas, cada agente de subtarea decide que necesita tres ayudantes, y en minutos tienes 125 agentes ejecutándose concurrentemente, cada uno haciendo sus propias llamadas API.
Impacto real: El agente de investigación de una consultora generó 340 sub-agentes en menos de una hora mientras intentaba compilar un análisis competitivo. Coste total: 8.200 dólares en llamadas API para un informe que podría haber sido producido por un solo agente con un alcance adecuado.
3. Saturación de ventana de contexto
Los agentes que acumulan contexto a lo largo de las interacciones alimentarán prompts cada vez más grandes al LLM. Esto se vuelve particularmente caro con modelos avanzados que cobran por token de entrada. Un agente que comienza con un prompt de 1.000 tokens y añade 500 tokens de contexto por iteración estará enviando prompts de 50.000 tokens después de 100 iteraciones, aproximadamente 50 veces el coste de la solicitud original.
Impacto real: El agente de documentación de una empresa sanitaria procesó un backlog de formularios de admisión de pacientes añadiendo el resumen de cada formulario procesado a su contexto de trabajo. Después de procesar 200 formularios, cada nueva llamada API costaba 40 veces lo que costó la primera.
4. Escalación de modelo
Algunos frameworks de agentes permiten a los agentes seleccionar qué modelo usar basándose en la dificultad de la tarea. Cuando un agente falla con un modelo más barato, automáticamente escala a uno más caro. En los peores casos, el agente escala en cada solicitud porque interpreta su propia salida como insuficiente. Esto lo bloquea usando el modelo más caro disponible incluso para tareas rutinarias.
Impacto real: Una empresa de tecnología legal descubrió que su agente de revisión de contratos había escalado de GPT-4o Mini a Claude Opus para el 94 por ciento de las solicitudes, a pesar de que el modelo más barato producía resultados aceptables para el 80 por ciento de los contratos. Los costes mensuales se triplicaron.
5. Uso ilimitado de herramientas
Los agentes equipados con herramientas como búsqueda web, consultas a bases de datos o llamadas a APIs externas pueden generar costes significativos más allá de la inferencia del LLM. Un agente con la tarea de “investigar este tema a fondo” podría ejecutar cientos de consultas de búsqueda a entre 0,01 y 0,05 dólares cada una, mientras también hace docenas de llamadas al LLM para procesar los resultados.
Impacto real: El agente de análisis SEO de una agencia de marketing ejecutó 4.500 consultas a la API de búsqueda y 1.200 llamadas al LLM en una sola tarde mientras analizaba contenido de la competencia. Solo los cargos de la API de búsqueda superaron los 900 dólares.
Por qué las herramientas tradicionales de costes cloud no pueden resolver esto
La mayoría de las empresas ya usan plataformas de gestión de costes cloud como AWS Cost Explorer, GCP Billing, Azure Cost Management o herramientas de terceros como CloudHealth y Spot.io. Estas herramientas fueron diseñadas para cargas de trabajo donde los humanos controlan el ritmo de gasto, y los agentes de IA operan en una línea temporal completamente diferente.
Desajuste de granularidad. Las herramientas de facturación cloud típicamente operan con granularidad horaria o diaria. Un agente de IA puede agotar todo su presupuesto mensual en minutos. Un informe diario de anomalías de costes solo te mostrará el pico después de que el dinero ya se haya gastado.
Latencia de alertas. La mayoría de los flujos de trabajo de alertas de costes envían notificaciones a email o Slack, y luego un humano debe verlas, investigar y tomar acción. Este flujo de trabajo asume minutos a horas de tiempo de respuesta aceptable, pero los costes desbocados de agentes de IA requieren respuesta en sub-segundos.
Sin aplicación en línea. Las herramientas de costes cloud son capas de observabilidad. Reportan lo que ya pasó, pero no pueden detener lo que está a punto de pasar. No hay mecanismo para interceptar una llamada API antes de que se ejecute y bloquearla basándose en el gasto acumulado.
Unidad de medida incorrecta. Las herramientas cloud rastrean instancias de cómputo, volúmenes de almacenamiento y transferencia de red. Pero los costes de agentes de IA se impulsan por conteos de tokens, selección de modelo e invocaciones de herramientas. Estas son métricas que los sistemas de facturación cloud no entienden nativamente.
Cómo es una gobernanza efectiva de costes de agentes
Controlar los costes de agentes requiere aplicación que opere a la velocidad del propio agente, no a la velocidad de un humano leyendo una notificación de Slack.
Límites de presupuesto por agente
Cada agente debe tener un techo de presupuesto explícito definido antes del despliegue y aplicado en tiempo de ejecución. Esto se traduce en tres niveles de límites:
- Límites por solicitud que previenen que cualquier llamada API individual exceda un umbral de coste. Si un agente intenta enviar un prompt de 100.000 tokens a un modelo caro, la solicitud se bloquea antes de que llegue al proveedor.
- Presupuestos por tarea que limitan el coste total de completar un objetivo específico. Cuando se agota el presupuesto, el agente se detiene y escala a un humano en lugar de continuar gastando.
- Techos periódicos por agente (diario, semanal, mensual) que aseguran que ningún agente pueda exceder su presupuesto asignado independientemente de cuántas tareas ejecute.
Disyuntores de costes
Tomados de los sistemas de trading financiero, los disyuntores pausan automáticamente un agente cuando su velocidad de gasto excede los parámetros normales. En lugar de esperar a que se alcance un tope de presupuesto, los disyuntores detectan velocidad de gasto anómala e intervienen temprano.
Por ejemplo, si un agente típicamente gasta 2 dólares por hora y de repente comienza a gastar 50 dólares por hora, un disyuntor puede pausar el agente después de solo unos minutos de comportamiento anómalo, mucho antes de que alcance su tope diario de presupuesto. Esta detección basada en velocidad detecta tormentas de reintentos y patrones de generación recursiva en minutos en lugar de horas.
Restricciones de nivel de modelo
Las reglas de política como código pueden restringir qué modelos puede usar un agente, previniendo la escalación no autorizada a modelos avanzados caros. Un agente con alcance para usar GPT-4o Mini para tareas de clasificación rutinarias no puede actualizarse autónomamente a Opus cuando encuentra una entrada difícil. En su lugar, debe seguir un camino de escalación explícito que incluya evaluación de costes.
Limitación de tasa y throttling
Independientemente del coste, los agentes deben tener límites de tasa sobre cuántas llamadas API pueden hacer por minuto, por hora y por día. Los límites de tasa actúan como una red de seguridad tosca pero efectiva. Incluso si todos los demás controles fallan, un agente que solo puede hacer 60 llamadas API por minuto tiene una tasa máxima de gasto acotada.
Observabilidad de costes en tiempo real
Todos los mecanismos de aplicación anteriores deben alimentar un dashboard de costes en tiempo real que muestre el gasto por agente, la velocidad de gasto, la utilización del presupuesto y las líneas de tendencia. Esto no reemplaza la aplicación en línea, pero da a los equipos de plataforma la visibilidad para ajustar presupuestos, identificar patrones sistémicos y detectar problemas que caen por debajo de los umbrales de los disyuntores.
Cómo la política como código habilita la gobernanza de costes
Estos controles de costes funcionan mejor cuando se expresan como política como código. Cubrimos el concepto general en nuestra guía de política como código para agentes de IA. Así es como se aplica específicamente a la gobernanza de costes:
agent: contract-review-bot
cost_policies:
per_request:
max_input_tokens: 32000
max_output_tokens: 4000
allowed_models: ["gpt-4o-mini", "gpt-4o"]
per_task:
max_budget_usd: 5.00
max_api_calls: 100
max_tool_invocations: 50
per_day:
max_budget_usd: 50.00
max_api_calls: 2000
circuit_breaker:
spend_velocity_threshold_usd_per_minute: 1.00
action: pause_and_alert
escalation:
on_budget_exceeded: notify_platform_team
on_circuit_breaker_triggered: pause_agent_and_create_incident
Como estas políticas viven en control de versiones, pueden revisarse en pull requests y testearse contra el comportamiento histórico del agente antes de entrar en producción. Cuando un equipo quiere aumentar el presupuesto de un agente, el cambio pasa por el mismo proceso de revisión que cualquier otro cambio de código. Esto crea un registro de auditoría y asegura que las decisiones de presupuesto son deliberadas en lugar de accidentales.
Por dónde empezar
No necesitas una plataforma completa de gobernanza de costes desde el primer día. Tres pasos eliminarán los peores riesgos de inmediato.
Paso 1: Inventario y línea base. Antes de poder establecer presupuestos, necesitas saber qué estás gastando. Cataloga cada agente desplegado, identifica qué APIs y modelos usa cada uno, y establece un perfil de costes base para la operación normal. Este inventario solo a menudo revela agentes que ya están gastando de más en relación al valor que entregan.
Paso 2: Establece límites estrictos. Usando los datos base, define topes de presupuesto diario por agente e implementa disyuntores en la capa de API gateway o proxy. Incluso límites simples como “ningún agente puede gastar más de 100 dólares al día” y “ningún agente puede hacer más de 1.000 llamadas API por hora” prevendrán los escenarios de desbordamiento más catastróficos. Estos límites deben fallar cerrados. Si el propio sistema de aplicación falla, los agentes deben pausarse en lugar de ejecutarse sin límites.
Paso 3: Implementa política como código. Pasa de límites estáticos a políticas dinámicas y conscientes del contexto que consideren la tarea del agente, el modelo que se está usando, la hora del día y el gasto acumulado en toda la flota. En esta etapa, la gobernanza de costes deja de ser una red de seguridad y se convierte en una herramienta de escalado.
El coste de no gobernar los costes
El riesgo financiero de los agentes de IA sin gobernar ya está apareciendo en las facturas cloud trimestrales de todas las industrias. Pero la cantidad en dólares es solo una parte del problema.
Las facturas inesperadas matan las iniciativas de IA. Cuando una sorpresa de 14.000 dólares aparece en la factura, finanzas y la dirección no preguntan “¿cómo arreglamos el agente?” Preguntan “¿deberíamos estar usando agentes en absoluto?” Hemos visto que los incidentes de costes se convierten en la razón principal por la que las empresas frenan o congelan la adopción de agentes, incluso cuando la tecnología entrega resultados claros.
La previsión se vuelve imposible. Los equipos de finanzas necesitan predecir el gasto cloud. Una varianza de cinco cifras en las facturas mensuales fluye hacia arriba en las decisiones de planificación, contratación e inversión. Si no puedes predecir tus costes de IA, no puedes hacer crecer tu programa de IA.
Los problemas de costes revelan problemas de gobernanza. Si un agente puede quemar 14.000 dólares sin que nadie se dé cuenta, ¿qué más está haciendo sin supervisión? Los costes desbocados normalmente vienen acompañados de controles de acceso ausentes, registros de auditoría inexistentes y ningún interruptor de emergencia. Arreglar el gasto sin arreglar la gobernanza solo retrasa el siguiente incidente.
Para una visión más amplia de estos desafíos, consulta nuestros artículos sobre por qué importa la gobernanza de agentes de IA y los peligros ocultos de los agentes de IA en la empresa.
Preguntas frecuentes
¿Cómo puede un solo agente de IA acumular miles de dólares en costes cloud?
Los agentes de IA toman decisiones autónomas que se traducen en llamadas API facturables, ciclos de cómputo y operaciones de almacenamiento. Un solo agente atrapado en un bucle de reintentos, persiguiendo una cadena de pensamiento improductiva o generando sub-agentes sin límites puede generar cientos de llamadas a APIs de LLM por minuto. A los precios actuales de los modelos más avanzados, eso suma miles de dólares en horas. A diferencia de los desarrolladores humanos que notan los costes crecientes y se detienen, los agentes seguirán ejecutándose hasta que alcancen una restricción externa o agoten su tarea.
¿Qué es un disyuntor de costes para agentes de IA?
Un disyuntor de costes es un mecanismo automatizado que monitoriza el gasto acumulado de un agente en tiempo real y pausa o termina el agente cuando cruza un umbral predefinido. Los disyuntores operan a múltiples niveles: los límites por solicitud previenen que cualquier llamada API individual sea excesivamente cara, los presupuestos por tarea limitan el coste total de un objetivo específico, y los techos diarios o mensuales por agente aseguran que ningún agente pueda exceder su presupuesto asignado independientemente de cuántas tareas ejecute.
¿Por qué las herramientas tradicionales de gestión de costes cloud son insuficientes para agentes de IA?
Las herramientas tradicionales de costes cloud como AWS Budgets o las alertas de facturación de GCP están diseñadas para flujos de trabajo dirigidos por humanos donde los patrones de gasto son relativamente predecibles y las respuestas ocurren en escalas de tiempo humanas. Típicamente proporcionan granularidad diaria u horaria y envían alertas por email o Slack que requieren que una persona investigue y actúe. Los agentes de IA pueden agotar presupuestos en minutos, lo que significa que para cuando una alerta tradicional llega a un humano y deciden qué hacer, el daño ya está hecho. La gobernanza de costes de agentes requiere aplicación en tiempo real, en línea, que bloquee la siguiente llamada API antes de que ocurra.
¿Cómo ayuda la política como código a controlar los costes de agentes de IA?
La política como código permite a las organizaciones definir reglas de gasto como políticas legibles por máquinas que se aplican automáticamente en tiempo de ejecución. En lugar de depender de humanos para monitorizar dashboards, el motor de políticas intercepta cada acción del agente y la evalúa contra restricciones de presupuesto antes de permitir que proceda. Esto incluye límites de coste por solicitud, topes de gasto acumulado, limitación de tasa, restricciones de nivel de modelo y presupuestos basados en tiempo. Como las políticas están bajo control de versiones y son testeables, los equipos pueden revisar y actualizar los controles de costes con el mismo rigor que aplican al código de aplicación.
¿Cuáles son las causas más comunes de costes desbocados en agentes de IA?
Las cinco causas más comunes son: tormentas de reintentos, donde los agentes llaman repetidamente a APIs que fallan sin backoff; generación recursiva de agentes, donde un orquestador crea sub-agentes que a su vez generan sus propios sub-agentes; saturación de ventana de contexto, donde los agentes alimentan prompts cada vez más grandes a modelos caros; escalación de modelo, donde los agentes se actualizan autónomamente a modelos más caros para mejorar resultados; y uso ilimitado de herramientas, donde los agentes hacen llamadas excesivas a APIs externas de pago como motores de búsqueda, bases de datos o servicios de terceros mientras persiguen un objetivo.