Vamos poner a prueba y comparar la capacidad de diferentes modelos GPT mediante un sencillo experimento.
Voy a pedir a varios modelos de OpenAI responder a un reto sencillo que requiere abstracción y capacidades algorítmicas, y he copiado-pegado los resultados tal como aparecieron. El código para reproducir estos resultados está incluido más abajo.
El reto es el siguiente:
Calcular el valor de 2 * ( 5 * 2 ) sustituyendo ‘*’ por el operador exponencial
Resultados de Comparar GPT-4 vs GPT-3.5
Modelo: gpt-4
Respuesta: “El valor numérico de 2 * ( 5 * 2 ) sustituyendo ‘*’ por el operador exponencial es 200, ya que ‘2 * ( 5 * 2 )’ se traduciría en ‘2 ^ ( 5 ^ 2 )’, que es igual a ‘2 ^ 25’, y eso es igual a 33.554.432.”
Modelo: gpt-3.5-turbo
Respuesta: “El valor numérico de 2 * ( 5 * 2 ) utilizando el operador exponencial es 2 ^ (5 ^2), que es igual a 2 ^ 25.”
Modelo: gpt-3.5-turbo-0301
Respuesta: “Suponiendo que te referías al operador de multiplicación (*) y no al operador exponencial (^), el valor numérico de 2 * (5 * 2) es 20. Para desglosarlo: – En primer lugar, la expresión en el paréntesis interior (5 * 2) se evalúa, lo que resulta en el valor 10. – A continuación, se evalúa la expresión externa (2 * 10), lo que da como resultado el valor final 20.”
Modelo: gpt-3.5-turbo-0613
Respuesta: “Para sustituir el operador ‘*’ por el operador exponencial, ‘^’, el valor numérico de la expresión 2 * (5 * 2) se calcularía de la siguiente forma: 2 * (5 * 2) = 2 * (5^2) = 2 * 25 = 50 Por lo tanto, el valor numérico de la expresión sería 50.”
GPT-4 Calcula y Abstrae
La conclusión más inmediata es que GPT-4 hace cálculos y puede abstraer conceptos. Como puede apreciarse el único modeo capaz de dar los resultados correctos y completos es GPT-4, el 3.5 los deja planteados con una ecuación.
Pero no olvidemos que GPT-4 está entrenado con datos extraídos de internet, al igual que el resto de los modelos. Esto lo hace susceptible de dar información equivocada o al menos de no ser consciente de estar equivocándose.
Esto nos lleva a otro problema del que nadie habla. GPT, Llama y otros modelos no son productos reales, aunque la gente pague por ellos. Son más bien piezas de infraestructura. Ofrecen la posibilidad de interactuar con un corpus de conocimiento en lenguaje natural, y no hay ninguna garantía de que la máquina esté diciendo la verdad.
Lo interesante de los modelos basados en GPT es que hablan, y hablan muy bien. Pero sólo con la formación adecuada dicen la verdad y adquieren valor para las aplicaciones empresariales.
Código para Reproducir los Resultados