Google ha introducido dos nuevos modos de inferencia para su API de Gemini: Flex y Priority. La estrategia no cambia los modelos base, como Gemini 2.5 Flash, sino que gestiona la prioridad en la cola de procesamiento. Esto permite a los desarrolladores elegir entre menor costo o menor tiempo de respuesta, adaptando el servicio a casos de uso muy distintos, desde análisis por lotes hasta asistentes conversacionales.

Cómo funcionan a nivel técnico los modos de cola ⚙️

Técnicamente, ambos modos usan los mismos endpoints y modelos, por lo que la calidad de la respuesta es idéntica. La diferencia radica en la gestión de la cola. Priority sitúa las peticiones al frente, garantizando los recursos disponibles para una respuesta rápida. Flex, en cambio, las ejecuta en momentos de baja utilización del sistema. Esta separación permite a Google optimizar el uso de su infraestructura y ofrecer un descuento del 75% en Flex, mientras Priority cuesta el doble del precio estándar.

¿Tu prompt es VIP o viaja en el vagón de carga? 🧳

Ahora toca hacer un examen de conciencia a cada consulta. ¿Tu petición es tan urgente que merece pagar el doble por ir en primera clase, o puede ir apretujada en el vagón de las ofertas, llegando cuando el sistema tenga un hueco? Es el mismo modelo de las aerolíneas, pero para tokens. Al menos no hay que pagar extra por llevar equipaje de mano (contexto) ni esperar a que despejen la pista de prompts en espera.

Google Gemini lanza modos Flex y Priority para optimizar costos y latencia

Cómo funcionan a nivel técnico los modos de cola ⚙️

¿Tu prompt es VIP o viaja en el vagón de carga? 🧳