Skip to content

2. Los tres problemas estudiados y los resultados

Vamos a pedir a las IA que estudien tres problemas, de más sencillo a más complicado. Veamos una captura de pantalla de Google Gemini:

 
  • En [1], la URL de Gemini;
  • En [2], la versión de Gemini utilizada;
  • En [3-5], los tres problemas planteados a Gemini;

2.1. Problema 1

El problema 1 es una pregunta sencilla:

 

Todas las IA responderán correctamente a esta pregunta.

2.2. Problema 2

El problema 2 es el siguiente (captura de pantalla de Gemini):

 
  • En [1], se explica en un PDF el principio del cálculo del impuesto de 2019 sobre los ingresos de 2018. Volveremos sobre ello;
  • En [2], se dan instrucciones precisas a Gemini sobre lo que se quiere: un script de Python limpio que resuelva el problema planteado y que valide la solución propuesta con 11 pruebas unitarias;
  • En [3], para ejecutar Gemini hay que escribir algo;

Nos encontramos exactamente en el mismo caso que el de un trabajo práctico de la universidad.

Las IA probadas resolverán el problema, a excepción de MistralAI y Perplexity.

2.3. Problema 3

Siempre con una captura de pantalla de Google Gemini, el problema 3 es el siguiente:

 
  • En [1] damos nuestras instrucciones, las mismas que antes. Pero como no proporcionamos el PDF que contenía las reglas exactas de cálculo, la IA tendrá que buscar esas reglas en Internet;
  • En [3], se inicia la ejecución de la IA;

Solo tres IA han superado esta prueba, por orden de excelencia (opinión estrictamente personal, como es lógico):

  1. ChatGPT de OpenAI;
  1. Grok de xAI;
  2. Goggle Gemini;

La IA ClaudeAI falló en el problema 3. La IA MistralAI falló en los problemas 2 y 3, al igual que la IA Perplexity. La IA DeepSeek falló en el problema 3.