6. Resolução das três questões com o Grok

6.1. Introdução

Em [1], o URL do Grok AI, propriedade da xAI [https://x.ai/company];
Em [2], o seu histórico de conversas. Para aceder, é necessário criar uma conta;
Em [3], faça a sua pergunta;
Em [4], pode anexar ficheiros;
Em [5], execute a IA;

Ao contrário do Gemini e do ChatGPT, não encontrei quaisquer limites quanto ao número de perguntas, tempo ou número de ficheiros anexados. Isso não significa que esses limites não existam.

6.2. Problema 1

O Grok responde corretamente a esta pergunta.

6.3. Problema 2

Pedimos ao Grok para calcular o imposto utilizando o PDF gerado pelo ChatGPT e fornecemos as nossas instruções num ficheiro de texto.

O ficheiro de texto é o mesmo utilizado com as duas IAs testadas anteriormente, mas incluímos os 25 testes validados pelo ChatGPT e pelo Gemini. O PDF utilizado é o gerado pelo ChatGPT:

O Grok fornece então um script muito limpo, mas quando portado para o PyCharm, praticamente nenhum dos testes é aprovado. Em seguida, forneço-lhe os registos de erros:

Desta vez, o Grok passa nos 25 testes. Em [1-3], mostramos o script [grok1] gerado juntamente com os dois ficheiros anexados à pergunta.

6.4. Problema 3

Desta vez, não é fornecido nenhum PDF com as regras de cálculo. O Grok terá de as encontrar online. As instruções de texto [instructionsSansPDF5.txt] apresentam-lhe os mesmos 25 testes para verificar, tal como anteriormente.

O Grok quase consegue à primeira tentativa. Gera um script que passa 24 dos 25 testes. Fornecemos-lhe os seus registos.

Na segunda tentativa, funciona. Em [1], o script gerado pelo Grok; em [2], as instruções a seguir.

Pedimos-lhe agora que gere um PDF explicando as regras de cálculo que utilizou para passar nos 25 testes:

O Grok não gera um PDF, mas sim um ficheiro [Markdown]. Utilizei uma ferramenta gratuita para o converter para PDF. Além disso, o PyCharm consegue ler ficheiros [Markdown]:

6.5. Problema 4

Para validar o PDF gerado anteriormente, enviamo-lo para o Grok.

A sua primeira versão está correta. O script passa nos 25 testes. Na verdade, as IAs não parecem ser determinísticas. Pode fazer-lhes a mesma pergunta duas vezes e ver que as respostas divergem. Foi o que aconteceu aqui com o Grok. Na primeira vez, tinha-me esquecido de que ele não devia aceder à Internet e que devia usar apenas o seu PDF. Ele produziu então um script incorreto. Entreguei-lhe os registos, e foi aí que vi que ele estava a aceder à Internet para verificar as coisas. Na pergunta acima, pedi-lhe para não fazer isso. Como resultado, no geral, o Grok teve um bom desempenho.