Vambe Reads - Noticias, Mundo, Ciencia y Más

Buscar artículos

Search for a command to run...

mati
Tecnología

De 200k a 50k: Cómo volvimos a Panda AI más rápido (y lo que casi nos mata)

El primer mes aplicando cambios fue un verdadero dolor de cabeza

Matías Pérez Pefaur

Matías Pérez Pefaur

11 de marzo de 2026 • 4 min

Hace unos meses Panda AI, el asistente que acompaña a los clientes de Vambe todos los días, empezó a sentirse como una oficina llena de papeles acumulados.

Se volvió más lento, muy caro y, a veces, olvidaba cosas importantes. El system prompt había crecido hasta los 200 mil tokens. Cada nueva funcionalidad agregaba más instrucciones, más ejemplos y más reglas de seguridad… y en medio de todo eso, el modelo empezó a confundirse.

Menos mal pudimos solucionarlo, y ahora Panda maneja más de 25 funcionalidades distintas, el contexto promedio está en 40–70 mil tokens, agrega features en minutos y el modelo presta mucha más atención. 

¿Cómo lo hicimos?

Pasamos de “darle el manual entero”, a darle tres habilidades y un catálogo vivo de herramientas. Inspirado en enfoques como OpenClaw, pero ultra simplificado: list, exec y read.

  • List: devuelve el directorio actual de herramientas (nombre + descripción breve + params). 
  • Exec: ejecuta una herramienta específica con sus argumentos JSON. 
  • Read: lee el output de una herramienta anterior (o varias) sin copiarlo entero al contexto. 

¿Cuál fue el resultado?

El system prompt se achicó a 4–6 mil tokens estables. Las descripciones completas de las más de 25 herramientas viven en archivos .md independientes que se cargan dinámicamente, y cada .md son 200–800 tokens. Ahora, Panda ve solo lo que necesita.

Lo que ganamos (y que se siente todos los días)

Con este cambio, agregar nuevas funcionalidades pasó de ser algo complejo a algo que toma entre 5 y 15 minutos: creamos un archivo .md, lo subimos y el sistema lo reconoce al instante. (Antes implicaba reescribir un prompt gigante y cruzar los dedos).

También redujimos muchísimo el contexto. De 180–220 mil tokens a un promedio de 40–70 mil. Eso hizo que todo fuera más liviano, rápido y predecible. Bajaron los costos, bajó la latencia y disminuyeron las alucinaciones, porque ahora hay menos ruido compitiendo por atención.

El modelo ya no tiene que recorrer páginas y páginas de reglas; simplemente consulta qué herramienta usar, la ejecuta y sigue. Y como cada tool vive en su propio archivo, el mantenimiento es mucho más ordenado y fácil de manejar con Git.

Pero no todo fue color de rosa, el primer mes aplicando cambios fue un verdadero dolor de cabeza. Les comparto algunos trade- offs: 

  • Reescribir 25 funcionalidades como JSON schemas limpios y descripciones precisas tomó semanas.
  •  Al principio Panda consultaba list en cada paso.
  • Nos dimos cuenta que read es poderoso pero frágil,si las referencias se pierden o el output es muy largo, chain-of-thought se rompe.
  • Perdimos algo de creatividad en casos edge donde antes improvisaba bien.
  •  Antes un prompt roto se veía en un solo lugar. Ahora un bug puede estar en un .md mal escrito, en la orquestación de read/exec, o en cómo Panda razona el flujo.

Aun así, el trade-off neto es brutalmente positivo: Es alrededor de 10 veces más fácil de extender cuando quieres agregar algo nuevo, el gasto en tokens baja a casi un tercio, y las respuestas salen mucho más directas y enfocadas. 

¿Qué se viene?

Panda AI ya funciona con este nuevo sistema por dentro, y el siguiente paso es llevar la misma arquitectura a Vambe AI para todos los clientes. Cada uno tendrá sus propias herramientas personalizadas, pero sobre una base ordenada y escalable.

Será tan simple como crear un archivo nuevo, subirlo y activarlo. Estamos terminando las últimas pruebas para que cada cliente tenga sus propias herramientas, con accesos y permisos bien definidos.

Al final, no se trata solo de ahorrar tokens. Se trata de tener una base que pueda crecer con el negocio sin volverse un enredo difícil de mantener.

TechNews

¿Te gustó este artículo? Compártelo con tus amigos