Skip to content

6. Resolución de los tres problemas con Grok

6.1. Introducción

 
  • En [1], la URL de la IA Grok, propiedad de la empresa xAI [https://x.ai/company];
  • En [2], el historial de tus conversaciones. Para obtenerlo, debes crearte una cuenta;
  • En [3], formula tu pregunta;
  • En [4], puede adjuntar archivos;
  • En [5], se inicia la ejecución de la IA;

A diferencia de Gemini y ChatGPT, no he encontrado límites en cuanto a preguntas, tiempo o número de archivos adjuntos. Esto no significa que dichos límites no existan.

6.2. El problema 1

 

Grok responde correctamente a esta pregunta.

6.3. El problema 2

Le pedimos a Grok que resuelva el cálculo del impuesto utilizando el PDF generado por ChatGPT y le damos nuestras instrucciones en un archivo de texto.

 

El archivo de texto es el mismo que ya se utilizó con las dos IA probadas, pero en él se han incluido las 25 pruebas validadas por ChatGPT y Gemini. El PDF utilizado es el generado por ChatGPT:

Grok proporciona entonces un script muy limpio, pero al ejecutarlo en PyCharm, prácticamente ninguna prueba pasa. Entonces le proporciono los registros de sus errores:

Esta vez, Grok supera las 25 pruebas. En [1-3], se muestra el script [grok1] generado, así como los dos archivos adjuntos a la pregunta.

6.4. El problema 3

Esta vez, no se proporciona ningún PDF con las reglas de cálculo. Grok tendrá que buscarlas en Internet. Las instrucciones de texto [instructionsSansPDF5.txt] le dan las mismas 25 pruebas que antes para verificar.

 

Grok casi lo consigue a la primera. Genera un script que supera 24 de las 25 pruebas. Se le proporcionan sus registros.

A la segunda va bien. En [1], el script generado por Grok; en [2], las instrucciones a seguir.

Ahora le pedimos que genere un PDF que explique las reglas de cálculo que ha utilizado para superar las 25 pruebas:

 

Grok no genera entonces un PDF, sino un archivo [MarkDown]. He utilizado una herramienta gratuita para convertirlo a PDF. Por otra parte, PyCharm sabe leer archivos [MarkDown]:

 

6.5. El problema 4

Para validar el PDF generado anteriormente, se le entrega a Grok.

 

Su primera versión es correcta. El script supera las 25 pruebas. De hecho, las IA no parecen deterministas. Se les puede plantear dos veces la misma pregunta y ver que sus respuestas difieren. Este ha sido el caso aquí con Grok. La primera vez, se me había olvidado que no debía conectarse a Internet y que debía utilizar únicamente su PDF. Entonces generó un script erróneo. Le proporcioné sus registros y ahí vi que se conectaba a Internet para verificar cosas. En la pregunta anterior, le pedí que no lo hiciera. Por lo tanto, en general, Grok ha funcionado bien.