Le modèle multimodal de Mistral : Présentation de Pixtral 12B

Gábor Bíró 9 septembre 2024
3 min de lecture

La startup française d'IA en pleine ascension, Mistral AI, s'est aventurée dans le domaine de l'intelligence artificielle multimodale avec le lancement de Pixtral 12B. L'IA multimodale désigne des systèmes capables de traiter et de comprendre simultanément des informations provenant de plusieurs types de données, comme le texte et les images. Ce nouveau modèle de 12 milliards de paramètres positionne Mistral, connue pour son orientation vers les solutions open source et sa volonté de défier les géants technologiques américains, pour concurrencer les offres similaires de grands acteurs tels qu'OpenAI et Anthropic.

Le modèle multimodal de Mistral : Présentation de Pixtral 12B
Source: Mistral

Fonctionnalités de Pixtral 12B

Pixtral 12B s'appuie sur le modèle textuel Nemo 12B précédent de Mistral, en intégrant un encodeur visuel de 400 millions de paramètres qui lui permet de traiter des images en même temps que du texte. Bien que ses 12 milliards de paramètres le placent dans la catégorie des modèles de taille moyenne par rapport à certains géants du secteur, il offre des capacités significatives, en particulier en tant qu'offre open source. Le modèle peut traiter des images jusqu'à 1024x1024 pixels, en les décomposant en patchs de 16x16 pixels pour l'analyse. Il utilise la technologie 2D Rotary Position Embeddings (RoPE), qui aide de manière cruciale le modèle à mieux comprendre les relations spatiales entre les objets au sein d'une image. Avec un vocabulaire de 131 072 tokens et des tokens spécialisés dans le traitement d'images, Pixtral 12B excelle dans des tâches telles que le captioning d'images (décrire des scènes dans des images), le comptage d'objets (par exemple, compter les pommes dans un panier) et le questionnement visuel (VQA), comme répondre à la question "De quelle couleur est la voiture sur l'image ?".

Licence et disponibilité

Pixtral 12B est publié sous la licence permissive Apache 2.0. Il s'agit d'un avantage significatif pour la communauté de l'IA, car cela signifie que le modèle peut être téléchargé, utilisé, modifié et déployé librement, même à des fins commerciales, sans obliger les utilisateurs à partager leurs modifications. Cela favorise l'innovation, permet aux entreprises de l'intégrer à leurs produits sans crainte de dépendance vis-à-vis d'un fournisseur, et promeut la transparence. Les développeurs peuvent accéder au modèle, qui a une taille d'environ 24 Go, via GitHub et Hugging Face, ce qui leur permet de l'affiner pour diverses applications spécifiques.

Comparaison avec d'autres modèles

Pixtral 12B entre dans un domaine très concurrentiel peuplé de modèles multimodaux puissants tels que GPT-4o d'OpenAI, Claude d'Anthropic et la famille Gemini de Google. Un élément clé de différenciation pour le modèle de Mistral est sa nature open source. Alors que les concurrents offrent souvent un accès principalement par le biais d'API commerciales (Interfaces de Programmation d'Applications), la disponibilité ouverte de Pixtral 12B accorde aux chercheurs et aux développeurs un accès, une transparence et des capacités de personnalisation accrus. Cette approche est cruciale pour accélérer la recherche, permettre des audits indépendants et favoriser un écosystème de développement collaboratif. Bien que ses performances nécessitent un benchmarking complet par rapport à ces homologues à source fermée, sa taille accessible et sa flexibilité en font une alternative attrayante pour la communauté de l'IA.

Modèle Entreprise Fonctionnalités clés Disponibilité
Pixtral 12B Mistral AI 12 milliards de paramètres, traitement du texte & de l'image, open source Librement disponible sous licence Apache 2.0
GPT-4o OpenAI Modèle multimodal à grande échelle, raisonnement avancé Accès API commercial
Claude 3 (Opus/Sonnet/Haiku) Anthropic Compréhension du texte & de l'image, fortes performances, accent mis sur l'éthique Accès API commercial
Gemini (Pro/Ultra) Google Capacités multimodales, intégré aux services Google Accès API & via les produits Google

Perspectives d'avenir

Forte d'une récente levée de fonds de 645 millions de dollars qui a valorisé l'entreprise à un montant impressionnant de 6 milliards de dollars, Mistral AI est prête pour une croissance significative. Cet investissement substantiel témoigne de la confiance du marché et fournit les ressources nécessaires pour innover rapidement et rivaliser à l'échelle mondiale. Le lancement de Pixtral 12B s'inscrit parfaitement dans la stratégie de Mistral, qui consiste à proposer gratuitement de puissants modèles ouverts tout en générant des revenus grâce à des versions optimisées et gérées et à des services de conseil aux entreprises. Alors que Mistral continue d'élargir son portefeuille, Pixtral 12B devrait être intégré prochainement à la plateforme de chat de l'entreprise (Le Chat) et à la plateforme API (La Plateforme). Cette intégration permettra à un plus large éventail d'utilisateurs de tester, d'utiliser et d'explorer facilement les capacités croissantes du modèle, ce qui favorisera encore davantage son adoption et son développement.

Gábor Bíró 9 septembre 2024