OpenAI lance le modèle o1 pour améliorer les capacités de raisonnement de l'IA
Le dernier modèle d'intelligence artificielle d'OpenAI, o1 (nom de code interne "Strawberry"), est désormais disponible. Le modèle o1 est spécifiquement conçu pour améliorer les capacités de raisonnement de l'intelligence artificielle. Diverses sources indiquent que cette nouvelle famille de modèles vise à résoudre des problèmes complexes en science, programmation et mathématiques en passant plus de temps à "réfléchir" avant de fournir une réponse.

Raisonnement avancé et performances
Le modèle o1 a démontré des capacités remarquables en résolution de problèmes complexes, en particulier dans les domaines STEM (Science, Technologie, Ingénierie et Mathématiques). Lors de tests, o1 s'est classé dans le 89e percentile des concours de programmation compétitive (Codeforces) et parmi les 500 meilleurs étudiants au concours de qualification des Olympiades mathématiques américaines (AIME). Dans des domaines scientifiques tels que la physique, la biologie et la chimie, il a surpassé la précision humaine au niveau doctorat sur un ensemble de données de référence (GPQA). Son raisonnement avancé permet à o1 de s'attaquer à des questions complexes, de générer des algorithmes sophistiqués et d'exceller dans des tâches d'analyse comparative, telles que l'examen de contrats ou de documents juridiques.
Benchmarks de performance
Le modèle o1 a affiché des performances exceptionnelles dans divers benchmarks, prouvant ses compétences avancées en raisonnement. Le tableau ci-dessous résume les principaux résultats du modèle o1 :
Benchmark | Performance |
---|---|
Codeforces (Programmation compétitive) | 89e percentile |
AIME (Concours de qualification des Olympiades mathématiques) | Top 500 étudiants aux USA |
GPQA (Physique, Biologie, Chimie) | Surpasse la précision au niveau doctorat |
Olympiade internationale d'informatique (IOI) | 49e percentile mondial |
Classement Elo Codeforces | 1807 (93e percentile) |
Sous-catégories MMLU | Surpasse les modèles précédents dans 54 sur 57 |
Les performances du modèle o1 sont particulièrement remarquables dans les domaines STEM, démontrant sa capacité à résoudre des problèmes complexes et à travailler logiquement sur des tâches difficiles. Ses résultats élèvent les capacités de raisonnement de l'IA à un nouveau niveau, représentant une avancée significative pour les applications en science, mathématiques et programmation.
Variantes du modèle o1
Le modèle o1 a été publié en deux variantes : o1-preview et o1-mini. o1-mini est plus petit, plus rapide et plus économique, spécifiquement conçu pour les tâches de codage. o1-mini serait 80 % moins cher que o1-preview tout en offrant des performances compétitives élevées sur les benchmarks de codage. Les deux modèles sont accessibles dans ChatGPT et via l'API OpenAI.
Limitations et défis
Malgré ses capacités avancées, le modèle o1 fait face à plusieurs défis. Son utilisation est nettement plus coûteuse, avec des coûts d'entrée 3x et des coûts de sortie 4x plus élevés que GPT-4o via l'API. Le modèle o1 peut parfois être plus lent dans le traitement des requêtes, en particulier pour les problèmes complexes qui peuvent nécessiter plus de dix secondes de temps de calcul. Une autre limitation est que o1 ne prend actuellement pas en charge des fonctionnalités telles que la navigation web et l'analyse de fichiers, qui sont disponibles dans d'autres modèles d'IA.
Disponibilité et plans futurs
Le modèle o1 est actuellement disponible pour les utilisateurs de ChatGPT Plus et Team, avec des limites hebdomadaires de messages : 30 messages pour o1-preview et 50 messages pour o1-mini. Le modèle o1-mini devrait bientôt être disponible pour tous les utilisateurs gratuits de ChatGPT, bien qu'aucune date de sortie spécifique n'ait encore été annoncée. OpenAI prévoit d'améliorer encore les capacités du modèle, de résoudre ses limitations et d'intégrer des fonctionnalités supplémentaires telles que la navigation et le téléchargement de fichiers afin d'accroître son utilité dans diverses applications.