Meta presenta Code Llama 70B: Desafiando a GPT-4 de OpenAI en la arena de la codificación con IA

Gábor Bíró 13 de febrero de 2024
3 min de lectura

El modelo de IA de Meta más reciente para generar código, Code Llama 70B, entra en el mercado como competidor directo de GPT-4 de OpenAI, ofreciendo mayor precisión y capacidades de programación avanzadas como una alternativa de código abierto.

Meta presenta Code Llama 70B: Desafiando a GPT-4 de OpenAI en la arena de la codificación con IA
Fuente: Elaborado por el autor

Meta ha presentado recientemente su modelo de IA de código abierto y herramienta de programación más novedosa, Code Llama 70B, posicionándolo como un competidor para GPT-4 de OpenAI en el ámbito de la codificación asistida por IA. Como la última incorporación al conjunto de herramientas de programación de IA de Meta, Code Llama 70B se basa en los cimientos del modelo de lenguaje Llama 2 y cuenta con 70 mil millones de parámetros, superando a sus predecesores tanto en tamaño como en capacidad.

Esta nueva versión aporta mejoras significativas en la generación de secuencias de código más largas y en la mejora de las capacidades de depuración. Permite a los desarrolladores ejecutar consultas más complejas al manejar mayores cantidades de contexto dentro de las indicaciones, aumentando así la precisión de la generación de código.

La capacidad de Code Llama 70B para manejar más contexto significa que los desarrolladores pueden proporcionar instrucciones más detalladas o fragmentos de código más grandes dentro de una sola indicación durante la programación, lo que lleva a una precisión potencialmente mayor en el código generado.

Code Llama 70B demuestra un rendimiento sobresaliente, alcanzando un 53% de precisión en el benchmark HumanEval. Esta puntuación supera a GPT-3.5 (48,1%) y reduce significativamente la brecha con el 67% de precisión reportado para GPT-4 en el mismo benchmark.

El benchmark HumanEval es un conjunto de datos elaborado manualmente que contiene 164 problemas de programación. Cada problema incluye una firma de función, una cadena de documentación, un cuerpo y varias pruebas unitarias, con un promedio de 7,7 pruebas por problema. El benchmark está diseñado para evaluar la corrección funcional del código generado, centrándose en si el modelo puede resolver eficaz y precisamente los desafíos de programación en lugar de solo la similitud del texto. Esto representa un paso significativo hacia el aumento de las capacidades humanas y la resolución de problemas de manera innovadora y eficiente mediante la evaluación de modelos de IA basados en su destreza para resolver problemas. El benchmark HumanEval se ha convertido en una herramienta valiosa para evaluar el rendimiento de los grandes modelos lingüísticos en tareas de generación de código.

Según las estadísticas y las pruebas de rendimiento, GPT-4 generalmente exhibe un rendimiento general superior en tareas de codificación en comparación con los modelos Code Llama. GPT-4 también es más versátil que la familia Llama, capaz de manejar una gama más amplia de tareas, como generar formatos de texto creativos, traducir idiomas, responder preguntas e incluso procesar entradas de imágenes (multimodalidad), para lo que Code Llama 70B no fue diseñado.

Sin embargo, los modelos Code Llama han demostrado excelencia en tareas específicas como la finalización y generación de código, y, crucialmente, Code Llama 70B está disponible gratuitamente tanto para investigación como para uso comercial bajo los términos de la licencia de Meta. Esta apertura puede fomentar una adopción más rápida entre los desarrolladores y permite mejoras impulsadas por la comunidad.

Por lo tanto, aunque GPT-4 puede liderar en rendimiento general de codificación y versatilidad, Code Llama 70B de Meta representa un importante paso adelante en la carrera de la codificación con IA, ofreciendo capacidades avanzadas de generación de código como una alternativa competitiva y de acceso abierto.

Diferencias clave entre Code Llama 70B y GPT-4

  • 1. Rendimiento y versatilidad:
    • GPT-4 generalmente demuestra un mayor rendimiento en benchmarks de codificación y es más versátil, capaz de manejar una gama más amplia de tareas, incluyendo la generación de texto creativo, la traducción, la respuesta a preguntas y el procesamiento de entradas de imágenes.
    • Code Llama 70B está altamente especializado y optimizado para la generación, finalización y depuración de código, logrando un sólido rendimiento en estas áreas específicas.
  • 2. Tamaño del modelo y parámetros:
    • Code Llama 70B cuenta con 70 mil millones de parámetros, significativamente más grande y más capaz que las versiones anteriores de Code Llama.
    • GPT-4 es un modelo multimodal muy grande capaz de manejar entradas de texto largas (se han reportado más de 25.000 palabras) y aceptar imágenes como entrada. Su número exacto de parámetros no se divulga públicamente, pero se presume que es significativamente mayor que 70B.
  • 3. Costo y accesibilidad:
    • Code Llama 70B está disponible gratuitamente tanto para investigación como para uso comercial bajo términos de licencia específicos proporcionados por Meta. Ser abierto permite el ajuste fino y costos operativos potencialmente más bajos.
    • GPT-4 es un modelo propietario accesible principalmente a través de APIs de pago (como la API de OpenAI o Microsoft Azure), incurriendo en costos de uso que pueden ser más altos en comparación con el auto-hospedaje potencial o el uso de versiones optimizadas de Code Llama.
Gábor Bíró 13 de febrero de 2024