Google a lancé Gemini 3.5 Flash, le premier modèle de sa nouvelle famille, conçu pour offrir une intelligence de pointe à une vitesse supérieure et pour moins de la moitié du prix de ses concurrents. Selon Google DeepMind, ce modèle produit quatre fois plus de tokens par seconde que les autres, surpassant Gemini 3.1 Pro dans des benchmarks clés comme Terminal-Bench 2.1 et CharXiv Reasoning. C'est le premier à occuper simultanément le quadrant supérieur droit de l'indice Artificial Analysis, combinant haute intelligence et rapidité.
Voici comment fonctionne la nouvelle génération de modèles ⚡
L'architecture de Gemini 3.5 Flash optimise le traitement parallèle, ce qui réduit la latence et augmente les performances sans sacrifier la précision. Lors de tests internes, le modèle montre des améliorations notables dans le raisonnement visuel et l'exécution de tâches complexes en terminal. Étant plus efficace, il permet aux développeurs d'exécuter des applications qui nécessitaient auparavant du matériel coûteux, réduisant ainsi le coût par requête. Google mise sur la démocratisation de l'accès à des modèles haute performance, concurrençant directement des solutions plus lentes et plus chères du marché.
L'IA qui répond avant que vous ayez fini de poser la question 🤯
Gemini 3.5 Flash est si rapide qu'il a probablement déjà généré une réponse avant que vous ayez fini de lire cette phrase. À ce rythme, nous verrons bientôt des modèles qui répondent à des questions que nous n'avons pas encore posées. En attendant, les concurrents regardent avec envie comment Google vend de l'intelligence à prix cassé, faisant en sorte que payer plus pour moins de tokens ressemble presque à une arnaque de la vieille école.