Google Gemini : Comprendre la Puissante IA Multimodale de Google

Gábor Bíró 24 janvier 2024
3 min de lecture

Gemini représente la famille de modèles d'IA la plus avancée et la plus flexible de Google à ce jour, conçue pour fonctionner efficacement sur diverses plateformes, des grands centres de données aux appareils mobiles. Construit dès le départ pour être multimodal, Gemini peut comprendre, fonctionner et combiner de manière transparente différents types d'informations, notamment du texte, du code, de l'audio, des images et de la vidéo, améliorant considérablement la façon dont les développeurs et les entreprises clientes peuvent intégrer et faire évoluer les applications d'IA.

Google Gemini : Comprendre la Puissante IA Multimodale de Google
Source: Création originale

Dès son annonce, le modèle phare, Gemini Ultra, a démontré des performances de pointe dans de nombreux benchmarks académiques. Notamment, son score rapporté de 90,0 % au benchmark MMLU (Massive Multitask Language Understanding) en a fait l'un des premiers modèles à avoir dépassé les performances d'experts humains à ce test spécifique.

MMLU est un benchmark complet utilisé pour évaluer les connaissances et les capacités de résolution de problèmes des modèles d'IA dans 57 sujets divers tels que les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique. L'obtention d'un score élevé témoigne de la large compréhension générale et des capacités de raisonnement d'un modèle, cruciales pour relever des défis linguistiques complexes du monde réel.

La famille Gemini a été introduite avec trois tailles distinctes, optimisées pour différents cas d'utilisation :

  • Gemini Ultra : Le modèle le plus grand et le plus performant, conçu pour des tâches très complexes nécessitant un raisonnement profond et de la créativité. Principalement accessible via le service d'abonnement Gemini Advanced.
  • Gemini Pro : Un modèle polyvalent offrant un bon équilibre entre performances et évolutivité, adapté à un large éventail de tâches. Alimente l'expérience de chatbot Gemini standard et est disponible via API pour les développeurs.
  • Gemini Nano : Le modèle le plus efficace, optimisé pour fonctionner directement sur les appareils des utilisateurs finaux comme les smartphones (par exemple, alimentant des fonctionnalités sur les téléphones Google Pixel et Gboard), permettant des capacités d'IA sur l'appareil même hors ligne.

Tous les modèles Gemini sont basés sur une architecture de transformeur de décodeur uniquement, similaire à d'autres LLM de premier plan, tirant parti de la profonde expertise de Google dans ce domaine. Ils ont été annoncés avec une fenêtre contextuelle de 32 768 jetons, leur permettant de traiter des quantités substantielles d'informations à la fois. Un différenciateur clé est leur multimodalité native, ce qui signifie qu'ils ont été pré-entraînés dès le départ sur divers types de données, permettant une compréhension plus sophistiquée et intégrée par rapport aux modèles où les modalités pourraient être ajoutées ultérieurement.

La première version de Gemini a démontré des capacités avancées dans la compréhension et la génération de code de haute qualité dans les langages de programmation populaires. Gemini Ultra a excellé dans plusieurs benchmarks de codage. De plus, AlphaCode 2, un système spécialisé alimenté par Gemini, a démontré des performances remarquables en programmation compétitive, capable de résoudre des problèmes complexes qui vont au-delà des tâches de codage standard.

Gemini 1.0 a été entraîné à grande échelle sur l'infrastructure optimisée pour l'IA de Google en utilisant ses Tensor Processing Units (TPU) propriétaires. Les TPU sont des accélérateurs matériels conçus sur mesure spécifiquement construits pour les charges de travail d'apprentissage automatique, offrant des avantages significatifs en termes d'efficacité à la fois pour l'entraînement de grands modèles comme Gemini et pour leur exécution pour l'inférence (génération de réponses).

Le lancement de Google Gemini 1.0 a intensifié le paysage concurrentiel, défiant particulièrement la position de Microsoft fortement investie dans les modèles GPT d'OpenAI. Bien que Gemini ait offert des fonctionnalités distinctes comme la multimodalité native et des tailles de modèles variées, son déploiement initial a rencontré des défis, notamment un examen minutieux des vidéos de démonstration et des problèmes signalés avec les fonctionnalités de chat ou les garde-fous de sécurité dans certaines langues ou contextes (comme la génération d'images plus tard), ce qui a pu affecter l'adoption précoce ou la perception.

Le marché des outils d'IA générative dans les environnements de production est encore en évolution, laissant de la place à la concurrence. Microsoft détient un avantage significatif grâce à son écosystème de développeurs établi, intégrant profondément l'IA via GitHub Copilot dans Visual Studio Code et exploitant sa plateforme cloud Azure. Google n'a pas de plateforme de développement ou d'IDE aussi dominante, ce qui signifie que même si Gemini s'avère supérieur dans certaines tâches d'assistance au codage, l'approche intégrée de Microsoft pourrait offrir un flux de travail plus transparent pour de nombreux développeurs, ce qui représente un défi clé pour les efforts de pénétration du marché de Google.

Source :

  • https://deepmind.google
  • https://arxiv.org/pdf/2009.03300
Gábor Bíró 24 janvier 2024