Obtient-on de meilleures réponses en interrogeant les modèles en anglais ?

Gábor Bíró 30 décembre 2024
7 min de lecture

Lors de l'utilisation de grands modèles linguistiques (LLM) comme GPT-4o ou Claude Sonnet, une question fréquente se pose, en particulier pour le grand nombre d'utilisateurs à travers le monde qui interagissent avec ces outils dans des langues autres que l'anglais : quelle langue faut-il utiliser pour obtenir les résultats les plus efficaces ? Bien que les capacités multilingues de ces modèles permettent une communication efficace dans de nombreuses langues, leurs performances semblent souvent diminuées par rapport aux interactions menées uniquement en anglais. Cette exploration examine les raisons possibles de ce phénomène et les situations où passer à l'anglais pourrait être avantageux.

Obtient-on de meilleures réponses en interrogeant les modèles en anglais ?
Source: Création originale

Les fondements des capacités multilingues

L'entraînement des grands modèles linguistiques est généralement dominé par des données en langue anglaise, bien que des données multilingues soient également utilisées pour permettre des fonctionnalités dans différentes langues. La prédominance de l'anglais dans le contenu numérique et les publications scientifiques influence considérablement les capacités linguistiques des modèles. Par exemple, l'ensemble de données d'entraînement pour GPT-3 était composé de près de 93 % de contenu en anglais (il s'agissait des dernières données officielles publiées concernant les modèles d'OpenAI).

  1. Prédominance des données : La proportion de données utilisées pendant l'entraînement détermine la compétence du modèle dans une langue donnée. Pour les langues moins représentées (par exemple, le hongrois, le danois, le slovaque, de nombreuses langues africaines), les modèles peuvent fournir des réponses moins précises.

  2. Structures linguistiques et différences culturelles : La diversité des règles grammaticales et des spécificités culturelles rend la généralisation plus difficile pour les modèles, en particulier pour les tâches nécessitant un contexte culturel.

Bien que le hongrois ne figure pas parmi les langues comptant le plus grand nombre de locuteurs (comme l'anglais ou le chinois), la plupart des modèles offrent de très bonnes performances en hongrois. En effet, les ensembles de données d'entraînement contiennent une quantité suffisante de texte hongrois pour permettre la génération de réponses précises et naturelles, bien que ces réponses puissent parfois être moins détaillées ou moins naturelles qu'en anglais. La langue hongroise est riche en expressions idiomatiques et en argot, ce qui peut parfois poser des défis aux modèles.

Les LLM avancés actuels utilisent diverses techniques et un affinage pour optimiser les réponses dans des langues autres que l'anglais, mais leurs performances dépendent toujours considérablement de la langue d'entrée et du type de tâche. La recherche distingue les deux types de tâches suivants :

  • Tâches équivariantes à la traduction : Pour ces tâches, la réponse correcte ne dépend pas de la langue d'entrée. Les exemples comprennent les questions mathématiques et les requêtes factuelles. Les LLM ont tendance à être relativement constants dans ces domaines, quelle que soit la langue.

  • Tâches variantes à la traduction : Il s'agit de problèmes spécifiques à une langue, tels que les jeux de mots, les particularités grammaticales ou les références culturelles. Les performances dans ce cas peuvent varier considérablement en fonction de la langue.

Les LLM traduisent-ils en interne les textes non anglais vers l'anglais ?

Le principe de fonctionnement des grands modèles linguistiques (LLM) modernes est qu'ils ne traduisent pas en interne à partir d'autres langues, mais génèrent plutôt des réponses directement dans la langue cible. Cette approche offre plusieurs avantages qui contribuent à des interactions plus précises, plus rapides et plus naturelles. Lorsqu'un LLM est entraîné, il traite de grandes quantités de données textuelles (comme mentionné précédemment) écrites dans diverses langues. Le modèle ne stocke pas de données textuelles et ne mémorise pas explicitement d'exemples ; au lieu de cela, il apprend des schémas, des relations statistiques et des corrélations. Par conséquent, lorsqu'on lui pose une question ou une tâche, le modèle utilise ces schémas appris pour produire la réponse directement dans la langue cible, sans d'abord la traduire dans une autre langue.

Avantages de l'omission de l'étape de traduction

  • Réduction du potentiel d'erreur : Lors de la traduction, le sens de la langue source peut ne pas être parfaitement transmis dans la langue cible, en particulier en raison de différences culturelles ou grammaticales. La génération directe élimine ce problème car le modèle n'agit pas comme un « intermédiaire » mais se concentre sur la génération de la réponse dans la langue cible.
  • Utilisation plus naturelle de la langue : Les LLM peuvent tenir compte des caractéristiques spécifiques de la langue cible, telles que les expressions idiomatiques, les coutumes locales et les règles grammaticales. Ceci est particulièrement important pour produire un texte naturel et compréhensible.
  • Temps de réponse plus rapide : L'omission de l'étape de traduction réduit le temps nécessaire pour générer une réponse, car la réponse finale est créée en une seule étape.

Affinage linguistique : Les capacités générales d'un modèle multilingue peuvent être encore améliorées grâce à un affinage ciblé pour générer des réponses encore plus précises dans une langue spécifique. Embeddings et gestion du contexte : Les LLM fonctionnent avec des embeddings de texte, qui sont des représentations mathématiques exprimant le sens des mots, des phrases et des phrases. Cela permet au modèle d'interpréter le contexte directement dans la langue cible et de créer une réponse appropriée.

Que se passe-t-il si seules des sources anglaises étaient disponibles pour un sujet spécifique ?

Lorsqu'un grand modèle linguistique (LLM) est entraîné sur un sujet spécifique – par exemple, la chimie – en utilisant exclusivement des sources en langue anglaise, le modèle peut toujours être capable de répondre dans d'autres langues, comme le hongrois. Cependant, la qualité de ces réponses dépend de plusieurs facteurs qui influencent la précision et le naturel.

Capacités et limitations du modèle

L'un des avantages des LLM modernes est leur capacité à transférer les connaissances acquises dans une langue à d'autres. Ce « transfert interlingue » signifie que le modèle peut générer des réponses en hongrois à partir de sources anglaises. Cependant, ce n'est pas toujours parfait :

  • Imprécisions : Les concepts peuvent perdre leur sens original lors du transfert, ou le modèle peut utiliser des termes hongrois inappropriés.
  • Effet de traduction : Parfois, les réponses peuvent sembler excessivement « traduites », ce qui donne un phrasé moins naturel.
Gestion de la terminologie

La gestion de la terminologie technique est particulièrement importante dans des domaines tels que la chimie, la médecine ou la technologie. Les modèles entraînés principalement sur des sources anglaises peuvent gérer les termes comme suit :

  • Emprunt direct : Les termes anglais peuvent apparaître inchangés dans les réponses en hongrois, par exemple, « chemical bonding » apparaissant au lieu d'une traduction.
  • Traduction ou adaptation : Si le modèle a reçu une formation hongroise adéquate, il essaiera de trouver les équivalents hongrois, par exemple, « chemical bonding » → « kémiai kötés ».

L'impact des données d'entraînement hongroises

Si très peu ou pas de données textuelles hongroises ont été utilisées pour entraîner le modèle sur un sujet spécifique, comme la chimie, les problèmes suivants peuvent survenir :

  • Réponses inexactes : Le modèle tente de générer la réponse en hongrois en se basant sur le contexte anglais, ce qui peut entraîner des inexactitudes.
  • Langue non naturelle : Les réponses peuvent sembler trop formelles ou rigides parce que le modèle manque d'exemples hongrois suffisants pour un phrasé naturel.
Manque de contexte

L'absence de contexte hongrois rend difficile pour le modèle la prise en compte des nuances culturelles et stylistiques de la langue, ce qui peut conduire à :

  • Différences stylistiques : Les réponses peuvent ne pas correspondre entièrement à l'usage standard du hongrois.
  • Erreurs de vocabulaire : Un terme technique spécifique peut apparaître incorrectement ou de manière non conventionnelle.

Quand vaut-il la peine de poser la question en anglais ?

Pour les sujets spécifiques ou techniques, c'est-à-dire les sujets qui nécessitent des connaissances d'expert très détaillées – tels que la chimie, la physique, la médecine ou la technologie – poser des questions en anglais est plus susceptible de donner des réponses détaillées et précises.

  • En raison de l'abondance de sources anglaises, le modèle est mieux équipé pour traiter et structurer l'information.
  • De nombreux termes techniques sont originaires de l'anglais, ce qui les rend plus faciles à comprendre et à expliquer dans leur contexte original.

Manque de sources hongroises

Si la formation du modèle manquait de sources hongroises pour un sujet particulier, les réponses en hongrois pourraient parfois être moins précises. Poser la question en anglais permet au modèle d'utiliser directement les informations présentes dans sa base de données d'entraînement en langue anglaise.

Exemple de différences

L'exemple suivant montre comment nous pourrions recevoir une réponse plus détaillée à la même question en anglais :

En hongrois :
« Mi a fotoszintézis ? »
Réponse :
« A fotoszintézis egy olyan folyamat, amelyben a növények napfény segítségével szerves anyagokat állítanak elő. » (La photosynthèse est un processus dans lequel les plantes produisent de la matière organique en utilisant la lumière du soleil.)

En anglais :
« What is photosynthesis ? »
Réponse :
« Photosynthesis is the process by which green plants and some other organisms use sunlight to synthesize foods with the help of chlorophyll, converting carbon dioxide and water into glucose and oxygen. » (La photosynthèse est le processus par lequel les plantes vertes et certains autres organismes utilisent la lumière du soleil pour synthétiser des aliments avec l'aide de la chlorophylle, en convertissant le dioxyde de carbone et l'eau en glucose et en oxygène.)

La réponse en anglais explique le processus de manière plus approfondie, en incluant des détails sur les participants à la réaction chimique, qui peuvent être omis dans la réponse en hongrois.

Ainsi, le niveau de détail des réponses peut varier selon le domaine. Dans la vie de tous les jours, nous pouvons regrouper les situations où il pourrait être préférable de poser la question en anglais comme suit :

  • Sujets généraux : Précision similaire dans les deux langues.
  • Domaines spécialisés : Terminologie généralement plus précise en anglais.
  • Documentation technique : Peut être plus détaillée en anglais.

Une solution intermédiaire pourrait être de poser la question en hongrois, mais d'indiquer qu'en raison de la complexité du sujet, une réponse en anglais est acceptable. De cette façon, on peut atteindre un niveau de détail presque identique à celui obtenu si la question avait été posée en anglais dès le départ.

Résumé

L'utilisation de l'anglais est particulièrement avantageuse lorsque une grande précision et un niveau de détail plus approfondi sont requis. Cependant, il est important de noter que l'amélioration continue des réponses en hongrois – grâce aux progrès des LLM multilingues – permet de plus en plus d'obtenir des informations naturelles et précises également en hongrois. Il est clair que le fonctionnement des LLM, le transfert interlingue et la gestion de la terminologie technique sont des facteurs déterminants pour la qualité et la convivialité des réponses. Choisir la langue appropriée peut être essentiel pour obtenir des résultats optimaux.

Gábor Bíró 30 décembre 2024