¿Obtenemos mejores respuestas al consultar modelos en inglés?

Gábor Bíró 30 de diciembre de 2024
7 min de lectura

Al usar Modelos de Lenguaje Extensos (LLM) como GPT-4o o Claude Sonnet, surge una pregunta común, especialmente para la gran cantidad de usuarios en todo el mundo que interactúan con estas herramientas en idiomas distintos al inglés: ¿qué idioma se debe usar para lograr los resultados más efectivos? Si bien las capacidades multilingües de estos modelos permiten una comunicación efectiva en numerosos idiomas, su rendimiento a menudo parece disminuir en comparación con las interacciones realizadas puramente en inglés. Esta exploración profundiza en por qué podría ser este el caso y cuándo cambiar al inglés podría ser beneficioso.

¿Obtenemos mejores respuestas al consultar modelos en inglés?
Fuente: Elaborado por el autor

Los Fundamentos de las Capacidades Multilingües

El entrenamiento de los Modelos de Lenguaje Extensos está típicamente dominado por datos en inglés, aunque también se utilizan datos multilingües para habilitar la funcionalidad en diferentes idiomas. El dominio del inglés en el contenido digital y las publicaciones científicas influye significativamente en las habilidades lingüísticas de los modelos. Por ejemplo, el conjunto de datos de entrenamiento para GPT-3 consistió en casi un 93% de contenido en inglés (este fue el último dato oficial publicado sobre los modelos de OpenAI).

  1. Dominio de los Datos: La proporción de datos utilizados durante el entrenamiento determina la competencia del modelo en un idioma dado. Para los idiomas con menos representación (por ejemplo, húngaro, danés, eslovaco, muchas lenguas africanas), los modelos pueden proporcionar respuestas menos precisas.

  2. Estructuras Lingüísticas y Diferencias Culturales: Las diferentes reglas gramaticales y especificidades culturales dificultan la generalización de los modelos, especialmente para las tareas que requieren contexto cultural.

Aunque el húngaro no se encuentra entre los idiomas con mayor número de hablantes (como el inglés o el chino), la mayoría de los modelos tienen un alto rendimiento en húngaro. Esto se debe a que los conjuntos de datos de entrenamiento contienen una cantidad suficiente de texto en húngaro para permitir la generación de respuestas precisas y naturales, aunque estas respuestas a veces pueden ser menos detalladas o sonar menos naturales que las del inglés. El idioma húngaro es rico en expresiones idiomáticas y jerga, lo que ocasionalmente puede plantear desafíos para los modelos.

Los LLM avanzados actuales utilizan diversas técnicas y ajustes para optimizar las respuestas en idiomas distintos del inglés, pero su rendimiento sigue dependiendo significativamente del idioma de entrada y del tipo de tarea. La investigación distingue entre los siguientes dos tipos de tareas:

  • Tareas invariantes a la traducción: Para estas tareas, la respuesta correcta no depende del idioma de entrada. Los ejemplos incluyen preguntas matemáticas y consultas factuales. Los LLM tienden a tener un rendimiento relativamente consistente en estas áreas en todos los idiomas.

  • Tareas variantes a la traducción: Estas incluyen problemas que son específicos del idioma, como juegos de palabras, peculiaridades gramaticales o referencias culturales. El rendimiento en estas puede variar mucho según el idioma.

¿Traducen internamente los LLM textos no ingleses al inglés?

El concepto detrás del funcionamiento de los Modelos de Lenguaje Extensos (LLM) modernos es que no traducen internamente desde otros idiomas, sino que generan respuestas directamente en el idioma de destino. Este enfoque ofrece varias ventajas que contribuyen a interacciones más precisas, rápidas y naturales. Cuando se entrena un LLM, procesa grandes cantidades de datos de texto (como se mencionó anteriormente) escritos en varios idiomas. El modelo no almacena datos de texto ni memoriza ejemplos explícitamente; en cambio, aprende patrones, relaciones estadísticas y correlaciones. En consecuencia, cuando se le da una pregunta o tarea, el modelo utiliza estos patrones aprendidos para producir la respuesta directamente en el idioma de destino, sin traducirla primero a otro idioma.

Beneficios de omitir el paso de traducción

  • Potencial reducido de error: Durante la traducción, el significado del idioma de origen podría no transmitirse perfectamente al idioma de destino, especialmente debido a diferencias culturales o gramaticales. La generación directa elimina este problema, ya que el modelo no actúa como un "intermediario", sino que se centra en generar la respuesta en el idioma de destino.
  • Uso más natural del idioma: Los LLM pueden considerar las características específicas del idioma de destino, como expresiones idiomáticas, costumbres locales y reglas gramaticales. Esto es particularmente importante para producir un texto natural y comprensible.
  • Tiempo de respuesta más rápido: Omitir el paso de traducción reduce el tiempo necesario para generar una respuesta, ya que la respuesta final se crea en un solo paso.

Ajuste fino del idioma: Las capacidades generales de un modelo multilingüe pueden mejorarse aún más mediante un ajuste fino específico para generar respuestas aún más precisas en un idioma específico. Embeddings y manejo del contexto: Los LLM trabajan con embeddings de texto, que son representaciones matemáticas que expresan el significado de palabras, frases y oraciones. Esto permite que el modelo interprete el contexto directamente en el idioma de destino y cree una respuesta adecuada.

¿Qué sucede si solo se dispusiera de fuentes en inglés para un tema específico?

Cuando un Modelo de Lenguaje Extenso (LLM) se entrena en un tema específico, digamos, química, utilizando exclusivamente fuentes en inglés, el modelo aún podría ser capaz de responder en otros idiomas, como el húngaro. Sin embargo, la calidad de estas respuestas depende de varios factores que influyen en la precisión y la naturalidad.

Capacidades y limitaciones del modelo

Una ventaja de los LLM modernos es su capacidad para transferir el conocimiento adquirido en un idioma a otros. Esta "transferencia interlingüística" significa que el modelo puede generar respuestas en húngaro basándose en fuentes en inglés. Sin embargo, esto no siempre es impecable:

  • Imprecisiones: Los conceptos podrían perder su significado original durante la transferencia, o el modelo podría utilizar términos húngaros inapropiados.
  • Efecto de Traducción: A veces, las respuestas pueden sonar excesivamente "como traducción", lo que resulta en una fraseología menos natural.
Manejo de la terminología

Gestionar la terminología técnica es particularmente importante en campos como la química, la medicina o la tecnología. Los modelos entrenados principalmente con fuentes en inglés podrían manejar los términos de la siguiente manera:

  • Préstamo directo: Los términos en inglés podrían aparecer sin cambios en las respuestas en húngaro, por ejemplo, "chemical bonding" apareciendo en lugar de una traducción.
  • Traducción o adaptación: Si el modelo ha recibido un entrenamiento adecuado en húngaro, intentará encontrar los equivalentes en húngaro, por ejemplo, "chemical bonding" → "kémiai kötés".

El impacto de los datos de entrenamiento en húngaro

Si se utilizaron muy pocos o ningún dato de texto en húngaro para entrenar al modelo en un tema específico, como la química, podrían surgir los siguientes problemas:

  • Respuestas imprecisas: El modelo intenta generar la respuesta en húngaro basándose en el contexto en inglés, lo que puede llevar a imprecisiones.
  • Lenguaje poco natural: Las respuestas podrían sonar demasiado formales o rígidas porque el modelo carece de suficientes ejemplos en húngaro para una fraseología natural.
Falta de contexto

La ausencia de contexto húngaro dificulta que el modelo considere los matices culturales y estilísticos del idioma, lo que puede llevar a:

  • Diferencias estilísticas: Las respuestas pueden no ajustarse completamente al uso estándar del húngaro.
  • Errores de vocabulario: Un término técnico específico podría aparecer incorrectamente o de una manera no convencional.

¿Cuándo vale la pena preguntar en inglés?

Para temas específicos o técnicos, es decir, temas que requieren un conocimiento experto muy detallado, como la química, la física, la medicina o la tecnología, es más probable que hacer preguntas en inglés produzca respuestas detalladas y precisas.

  • Debido a la abundancia de fuentes en inglés, el modelo está mejor equipado para procesar y estructurar la información.
  • Muchos términos técnicos se originaron en inglés, lo que facilita su comprensión y explicación en su contexto original.

Falta de fuentes en húngaro

Si el entrenamiento del modelo carecía de fuentes en húngaro para un tema en particular, las respuestas en húngaro a veces podrían ser menos precisas. Preguntar en inglés permite que el modelo utilice directamente la información presente en su base de datos de entrenamiento en inglés.

Ejemplo de diferencias

El siguiente ejemplo muestra cómo podríamos recibir una respuesta más detallada a la misma pregunta en inglés:

En húngaro:
„Mi a fotoszintézis?”
Respuesta:
„A fotoszintézis egy olyan folyamat, amelyben a növények napfény segítségével szerves anyagokat állítanak elő.” (La fotosíntesis es un proceso en el que las plantas producen materia orgánica utilizando la luz solar.)

En inglés:
„What is photosynthesis?”
Respuesta:
„Photosynthesis is the process by which green plants and some other organisms use sunlight to synthesize foods with the help of chlorophyll, converting carbon dioxide and water into glucose and oxygen.” (La fotosíntesis es el proceso por el cual las plantas verdes y algunos otros organismos utilizan la luz solar para sintetizar alimentos con la ayuda de la clorofila, convirtiendo dióxido de carbono y agua en glucosa y oxígeno.)

La respuesta en inglés explica el proceso con mayor profundidad, incluyendo detalles sobre los participantes de la reacción química, que podrían omitirse en la respuesta en húngaro.

Por lo tanto, el nivel de detalle en las respuestas puede variar según el área temática. En la vida cotidiana, podemos agrupar cuándo podría ser mejor preguntar en inglés de la siguiente manera:

  • Temas generales: Precisión similar en ambos idiomas.
  • Campos especializados: Generalmente terminología más precisa en inglés.
  • Documentación técnica: Puede ser más detallada en inglés.

Una solución intermedia podría ser hacer la pregunta en húngaro pero indicar que, debido a la complejidad del tema, una respuesta en inglés es aceptable. De esta manera, se puede lograr casi el mismo nivel de detalle que si la pregunta se hubiera hecho en inglés desde el principio.

Resumen

Usar el inglés es particularmente ventajoso cuando se requiere alta precisión y mayor detalle. Sin embargo, es importante tener en cuenta que la mejora continua de las respuestas en húngaro, gracias al avance de los LLM multilingües, permite cada vez más la recuperación de información natural y precisa también en húngaro. Está claro que cómo funcionan los LLM, la transferencia interlingüística y el manejo de la terminología técnica son factores que determinan la calidad y la usabilidad de las respuestas. Elegir el idioma apropiado puede ser clave para lograr resultados óptimos.

Gábor Bíró 30 de diciembre de 2024