Google vient de lancer Gemini 2.0, son dernier modèle d’IA générative conçu pour alimenter une large gamme d’outils et d’expériences. Les développeurs peuvent déjà y accéder via l’API Gemini, tandis que les consommateurs découvriront son influence dès la semaine prochaine, avec des tests limités pour la recherche et les aperçus enrichis par IA. Son déploiement complet pour le grand public est prévu pour le début de l’année 2025.
Au cœur de Gemini 2.0, l’objectif est de rendre l’IA plus intuitive et proactive (ou, comme Google le dit, « agentique »). Il faut donc s’attendre à des réponses plus rapides, un raisonnement plus intelligent et une intégration fluide des outils. La grande nouveauté ici est le lancement de Gemini 2.0 Flash, une version surboostée deux fois plus rapide que son prédécesseur, Gemini 1.5 Pro. Déjà disponible pour les développeurs via des plateformes comme Google AI Studio et Vertex AI, Flash prend en charge des entrées multimodales. Cela inclut des images, de l’audio, des vidéos — et fournit des sorties textuelles ou vocales à la demande.
Qu’est-ce qui différencie Gemini 2.0 ?
Gemini 2.0 ne se limite pas à analyser vos requêtes : il agit sur commande. Comme l’explique le PDG Sundar Pichai, cette IA de nouvelle génération peut « anticiper plusieurs étapes à l’avance » et gérer des tâches comme des recherches en ligne ou des interactions avec des applications, sous supervision de l’utilisateur à chaque étape. Ce n’est pas seulement répondre à des questions, c’est résoudre des problèmes de manière dynamique.
L’une des mises à jour les plus discutées est l’utilisation native des outils : Gemini peut intégrer des fonctionnalités comme Google Search ou l’exécution de code directement dans les flux de travail. C’est le cas de Project Astra, une application Android actuellement en test qui utilise la caméra de votre téléphone pour analyser des éléments visuels du monde réel en temps réel (jusqu’à 10 minutes de vidéo). Il suffit pointer votre téléphone vers une plante ou un produit et obtenir instantanément des informations ou des recommandations a son sujet.
Aussi, Project Mariner, une extension expérimentale pour Chrome, permet à Gemini de résumer des pages ou même d’exécuter des actions comme naviguer entre les onglets ou effectuer des achats (avec votre approbation). « Ce n’est que le début », écrit Demis Hassabis de Google DeepMind, « mais Mariner montre à quelle vitesse les interactions humain-agent pourraient évoluer. »
Des outils pour les développeurs et les chercheurs
Les développeurs ne sont pas en reste. Jules, un assistant de codage intégré aux workflows GitHub via Gemini 2.0 Flash est aussi de la partie. Jules ne se contente pas de générer des extraits de code : il crée des plans détaillés, corrige les bugs et exécute des processus en plusieurs étapes sous la supervision des développeurs.
Pour les universitaires ou entrepreneurs travaillant sur des projets complexes, il y a Deep Research, un outil avancé connecté directement aux ressources en ligne. Vous lui soumettez un sujet, il rédige un plan de recherche que vous validez… puis il explore en profondeur la littérature existante pour produire des plans détaillés ou des analyses de données adaptées à vos besoins.
Réduire les menaces tout en élargissant le potentiel
Bien sûr, l’innovation apporte des risques. Google le reconnaît ouvertement en signalant des préoccupations autour des vulnérabilités de sécurité, comme les attaques par injection de commande (où des instructions malveillantes peuvent se glisser dans des e-mails ou des documents). Pour y remédier, des garde-fous sont en cours de développement afin de prévenir les tentatives de phishing dans des outils comme Project Mariner.
Malgré cela, l’entreprise semble convaincue que ces capacités « agentiques » posent les bases de ce qu’elle appelle sa vision d’un « assistant universel ». Il ne s’agit pas de remplacer les humains, mais d’étendre leur portée : résumer rapidement des sujets complexes avec les aperçus enrichis par IA, résoudre des équations avancées, combiner des résultats texte-image, piloter des interactions multilingues texte-voix… la liste ne cesse de s’allonger.
Et pour la suite ?
La feuille de route pour Gemini 2.0 est ambitieuse mais claire : la disponibilité générale débutera en janvier, avec d’autres tailles de modèles déployées tout au long du début de l’année 2025. Pendant ce temps, des testeurs de confiance explorent déjà des fonctionnalités expérimentales (Astra sur des lunettes prototypes semble particulièrement intriguant). Que vous soyez un développeur en quête d’API de pointe ou simplement curieux de savoir comment des assistants plus intelligents pourraient transformer la vie quotidienne, ce lancement annonce de grands changements à venir.