OpenAI lance le modèle o1 pour améliorer les capacités de raisonnement de l'IA

Gábor Bíró 13 septembre 2024
3 min de lecture

Le dernier modèle d'intelligence artificielle d'OpenAI, o1 (nom de code interne "Strawberry"), est désormais disponible. Le modèle o1 est spécifiquement conçu pour améliorer les capacités de raisonnement de l'intelligence artificielle. Diverses sources indiquent que cette nouvelle famille de modèles vise à résoudre des problèmes complexes en science, programmation et mathématiques en passant plus de temps à "réfléchir" avant de fournir une réponse.

OpenAI lance le modèle o1 pour améliorer les capacités de raisonnement de l'IA
Source: Création originale

Raisonnement avancé et performances

Le modèle o1 a démontré des capacités remarquables en résolution de problèmes complexes, en particulier dans les domaines STEM (Science, Technologie, Ingénierie et Mathématiques). Lors de tests, o1 s'est classé dans le 89e percentile des concours de programmation compétitive (Codeforces) et parmi les 500 meilleurs étudiants au concours de qualification des Olympiades mathématiques américaines (AIME). Dans des domaines scientifiques tels que la physique, la biologie et la chimie, il a surpassé la précision humaine au niveau doctorat sur un ensemble de données de référence (GPQA). Son raisonnement avancé permet à o1 de s'attaquer à des questions complexes, de générer des algorithmes sophistiqués et d'exceller dans des tâches d'analyse comparative, telles que l'examen de contrats ou de documents juridiques.

Benchmarks de performance

Le modèle o1 a affiché des performances exceptionnelles dans divers benchmarks, prouvant ses compétences avancées en raisonnement. Le tableau ci-dessous résume les principaux résultats du modèle o1 :

Benchmark Performance
Codeforces (Programmation compétitive) 89e percentile
AIME (Concours de qualification des Olympiades mathématiques) Top 500 étudiants aux USA
GPQA (Physique, Biologie, Chimie) Surpasse la précision au niveau doctorat
Olympiade internationale d'informatique (IOI) 49e percentile mondial
Classement Elo Codeforces 1807 (93e percentile)
Sous-catégories MMLU Surpasse les modèles précédents dans 54 sur 57

Les performances du modèle o1 sont particulièrement remarquables dans les domaines STEM, démontrant sa capacité à résoudre des problèmes complexes et à travailler logiquement sur des tâches difficiles. Ses résultats élèvent les capacités de raisonnement de l'IA à un nouveau niveau, représentant une avancée significative pour les applications en science, mathématiques et programmation.

Variantes du modèle o1

Le modèle o1 a été publié en deux variantes : o1-preview et o1-mini. o1-mini est plus petit, plus rapide et plus économique, spécifiquement conçu pour les tâches de codage. o1-mini serait 80 % moins cher que o1-preview tout en offrant des performances compétitives élevées sur les benchmarks de codage. Les deux modèles sont accessibles dans ChatGPT et via l'API OpenAI.

Limitations et défis

Malgré ses capacités avancées, le modèle o1 fait face à plusieurs défis. Son utilisation est nettement plus coûteuse, avec des coûts d'entrée 3x et des coûts de sortie 4x plus élevés que GPT-4o via l'API. Le modèle o1 peut parfois être plus lent dans le traitement des requêtes, en particulier pour les problèmes complexes qui peuvent nécessiter plus de dix secondes de temps de calcul. Une autre limitation est que o1 ne prend actuellement pas en charge des fonctionnalités telles que la navigation web et l'analyse de fichiers, qui sont disponibles dans d'autres modèles d'IA.

Disponibilité et plans futurs

Le modèle o1 est actuellement disponible pour les utilisateurs de ChatGPT Plus et Team, avec des limites hebdomadaires de messages : 30 messages pour o1-preview et 50 messages pour o1-mini. Le modèle o1-mini devrait bientôt être disponible pour tous les utilisateurs gratuits de ChatGPT, bien qu'aucune date de sortie spécifique n'ait encore été annoncée. OpenAI prévoit d'améliorer encore les capacités du modèle, de résoudre ses limitations et d'intégrer des fonctionnalités supplémentaires telles que la navigation et le téléchargement de fichiers afin d'accroître son utilité dans diverses applications.

Gábor Bíró 13 septembre 2024