5. Resolução dos três problemas com o ChatGPT
5.1. Introdução
Eis uma primeira captura de ecrã de uma sessão do ChatGPT:
![]() ![]() |
- No [1-3], os três problemas apresentados no ChatGPT;
- Na sessão [4], o URL da sessão ChatGPT;
- No [5], a versão do ChatGPT utilizada;
O ChatGPT é um produto do OpenAI disponível no URL e no [https://chatgpt.com/]. Para ter um histórico das suas sessões de perguntas e respostas, tal como acima, terá de criar uma conta. Além disso, tal como todas as outras versões testadas, o IA limita o número de perguntas e o número de ficheiros descarregados. Quando este limite é atingido, a sessão é encerrada e é-lhe sugerido que a continue mais tarde. Os limites impostos pelo ChatGPT são atingidos muito rapidamente. Para realizar este tutorial, tive de subscrever um plano pago de um mês.
A interface do ChatGPT é a seguinte:
![]() |
- No [1], para anexar ficheiros à pergunta colocada;
- No [2], a pergunta colocada;
- No [3], para iniciar a execução do IA;
5.2. O problema 1
A pergunta no ChatGPT:
![]() |
O ChatGPT responde corretamente.
5.3. Problema 2
Trata-se do cálculo do imposto com o PDF. Para ser sincero, vamos utilizar o PDF gerado pelo Gemini, que corrige os erros do PDF inicial.
![]() |
- No [1], indicámos o PDF gerado pelo Gemini;
- No [2], foi adicionado o teste unitário através do qual o Gemini demonstrou a sua superioridade:
Executamos o ChatGPT. Demora cerca de 3 minutos a gerar a sua resposta. Ao contrário do Gemini, este fornece efetivamente um link funcional para recuperar o script gerado. Carregamos este script no PyCharm:
![]() |
O script [chatGPT1] funciona à primeira tentativa. Não há comparação: neste problema, o ChatGPT teve um desempenho superior ao do Gemini.
O script [chatGPT1] fornecido pelo ChatGPT é o seguinte:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 | |
5.4. O problema 3
Agora, pedimos ao ChatGPT para procurar na Internet as regras de cálculo do imposto:
![]() |
Desta vez, não fornecemos o PDF que indicava as regras de cálculo a seguir. Apenas fornecemos as nossas instruções no ficheiro de texto. Recorde-se que este ficheiro de texto contém agora 12 testes unitários, após termos adicionado aos 11 testes iniciais aquele utilizado pelo Gemini para demonstrar que o meu PDF inicial estava errado.
O ChatGPT responde em 8 minutos e fornece um link para descarregar o script gerado. Uma vez carregado no PyCharm, este script passa nos 12 testes. Assim, relativamente aos dois problemas colocados, o ChatGPT respondeu corretamente à primeira tentativa, superando assim o Gemini.
O ChatGPT indica as suas fontes na resposta:
![]() |
Não há nada a dizer, é um excelente trabalho.
Agora, podemos pedir-lhe, tal como fizemos com o Gemini, que gere um PDF para os estudantes.
![]() |
A resposta de ChatGPT foi obtida após várias idas e vindas, pois o PDF gerado utilizava um tipo de letra que substituía os caracteres por um quadrado. Mas, por fim, gerou o PDF. Apresento-o porque fornece regras diferentes do PDF da Gemini e perguntei-me, então, quem estaria certo. Vamos investigar.
![]() |
![]() |
![]() | ![]() |
![]() |
A diferença em relação ao PDF da Gemini reside no cálculo do desconto. Os dois IA não seguem a mesma abordagem. A Gemini tinha escrito:
![]() |
![]() |
![]() |
Os dois IA têm duas abordagens diferentes. Quem está certo?
5.5. Problema 4
Vamos pedir ao ChatGPT que se baseie no seu PDF para calcular o imposto:
![]() | ![]() |
Tal como nas vezes anteriores, ele gera um script Python que funciona à primeira. Tínhamos adicionado às instruções um teste adicional:
Os 13 testes foram concluídos com sucesso.
5.6. De volta ao Gemini
Agora, voltamos ao Gemini, ao qual vamos apresentar o PDF a partir do ChatGPT. Uma vez que as regras implementadas neste PDF são diferentes das implementadas no PDF do Gemini, podemos questionar-nos sobre o que irá acontecer:
![]() |
O Gemini gerou, em primeiro lugar, um script Python que falhava nos testes. Apresentámos-lhe os registos:
Pergunta 2
![]() |
Pergunta 3
Ainda há erros. Continuamos.
![]() |
Pergunta 4
Continuam a ocorrer erros na execução:
![]() |
Desta vez está tudo bem.
No entanto, é intrigante que, apesar de os PDF terem regras de cálculo bastante diferentes, os IA gerem ambos resultados corretos.
Colocamos a seguinte questão ao Gemini:
![]() |
A pergunta completa é a seguinte:
A resposta do Gemini é categórica:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
5.7. O que pensa o ChatGPT
Fazemos a ChatGPT a mesma pergunta que fizemos à Gemini.
![]() |
A resposta de ChatGPT é a seguinte:
![]() |
![]() |
Assim, o ChatGPT propõe-nos um teste unitário para decidir entre os dois métodos. Reproduzimos:
- O script [gemini3] gerado pelo Gemini, tomando como fonte o seu PDF; o [Le problème selon Gemini] é duplicado no script [gemini4];
- O script [chatGPT3], gerado pelo ChatGPT a partir dos seus scripts PDF e [Le problème selon ChatGPT], é duplicado no script [chatGPT4];
![]() | ![]() |
Além disso, adiciona-se em cada um dos scripts [gemini4, chatGPT4] o teste unitário proposto pelo ChatGPT para distinguir os dois IA.
A execução de [gemini4] produz os seguintes resultados:
C:\Data\st-2025\dev\python\code\python-flask-2025-cours\.venv\Scripts\python.exe "C:/Program Files/JetBrains/PyCharm 2025.2.1.1/plugins/python-ce/helpers/pycharm/_jb_unittest_runner.py" --path "C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\gemini\gemini4.py"
Testing started at 17:45 ...
Launching unittests with arguments python -m unittest C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\gemini\gemini4.py in C:\Data\st-2025\dev\python\code\python-flask-2025-cours
SubTest failure: Traceback (most recent call last):
File "C:\Program Files\Python313\Lib\unittest\case.py", line 58, in testPartExecutor
yield
File "C:\Program Files\Python313\Lib\unittest\case.py", line 556, in subTest
yield
File "C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\gemini\gemini4.py", line 234, in test_cas_verifies_simulateur_officiel
self.assertAlmostEqual(calcul_impot, attendu_impot, delta=1, msg="Échec sur le montant de l'impôt")
~~~~~~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
AssertionError: 2669 != 2270 within 1 delta (399 difference) : Échec sur le montant de l'impôt
Ran 1 test in 0.010s
FAILED (failures=1)
One or more subtests failed
Failed subtests list: [Test 'test12' avec entrée (2, 0, 43333)]
Process finished with exit code 1
Portanto, o Gemini falha no teste adicionado por ChatGPT.
A execução de [chatGPT4] produz os seguintes resultados:
C:\Data\st-2025\dev\python\code\python-flask-2025-cours\.venv\Scripts\python.exe "C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\chatGPT\chatGPT4.py"
Test (2, 2, 55555) -> obtenu (impôt=2814, décote=0, réduction=0) | attendu (2815, 0, 0) | OK
Test (2, 2, 50000) -> obtenu (impôt=1384, décote=384, réduction=347) | attendu (1385, 384, 346) | OK
Test (2, 3, 50000) -> obtenu (impôt=0, décote=721, réduction=0) | attendu (0, 720, 0) | OK
Test (1, 2, 100000) -> obtenu (impôt=19884, décote=0, réduction=0) | attendu (19884, 0, 0) | OK
Test (1, 3, 100000) -> obtenu (impôt=16782, décote=0, réduction=0) | attendu (16782, 0, 0) | OK
Test (2, 3, 100000) -> obtenu (impôt=9200, décote=0, réduction=0) | attendu (9200, 0, 0) | OK
Test (2, 5, 100000) -> obtenu (impôt=4230, décote=0, réduction=0) | attendu (4230, 0, 0) | OK
Test (1, 0, 100000) -> obtenu (impôt=22986, décote=0, réduction=0) | attendu (22986, 0, 0) | OK
Test (2, 2, 30000) -> obtenu (impôt=0, décote=0, réduction=0) | attendu (0, 0, 0) | OK
Test (1, 0, 200000) -> obtenu (impôt=64210, décote=0, réduction=0) | attendu (64211, 0, 0) | OK
Test (2, 3, 200000) -> obtenu (impôt=42842, décote=0, réduction=0) | attendu (42843, 0, 0) | OK
Test (2, 2, 49500) -> obtenu (impôt=1296, décote=431, réduction=325) | attendu (1297, 431, 324) | OK
Test (1, 0, 18535) -> obtenu (impôt=359, décote=491, réduction=90) | attendu (359, 491, 90) | OK
Test (2, 0, 43333) -> obtenu (impôt=2268, décote=0, réduction=401) | attendu (2270, 0, 400) | ECHEC
Détails tolérance ±1€ : impôt ok? False, décote ok? True, réduction ok? True
Résultat global : AU MOINS UN TEST ÉCHOUE ❌
Process finished with exit code 0
O ChatGPT também falha no teste adicionado, mas não pelas mesmas razões que o Gemini. O ChatGPT encontrou os resultados corretos, mas com uma diferença de 2 euros, em vez do 1 euro exigido.
Portanto, a partir de agora, será o PDF gerado pelo ChatGPT que utilizaremos com os seguintes IA. É importante referir que foi devido à falta de testes unitários propostos nas minhas instruções que os dois IA passaram ambos nos primeiros testes. Daí, neste exemplo específico, a importância de incluir testes unitários para os casos-limite do cálculo do imposto. Uma vez que é bastante difícil imaginar esses testes por conta própria. Vamos pedir aos IA que os adicionem eles próprios.
5.8. O problema 3 com testes unitários gerados pelos IA
Os resultados obtidos com o Gemini e o ChatGPT deixam dúvidas. Será que os IA encontraram uma solução geral que passa em todos os testes imagináveis ou encontraram apenas uma solução que passa nos testes impostos? Vamos recomeçar com uma solução sem o PDF, para obrigar o IA a aceder à Internet e procurar as informações de que necessita. E alteramos as nossas instruções da seguinte forma:
![]() |
O ficheiro de texto [instructionsSansPDF4.txt] já contém 14 testes obrigatórios. A estes testes, acrescentamos as seguintes instruções:
7 - tu ajouteras autant de tests unitaires que nécessaires pour vérifier les cas limites du calcul de l'impôt.
Pour le code tu complèteras le script suivant auquel tu auras rajouté tes propres tests.
# =========================
# Testes unitários (tolerância de ±1 €)
# =========================
TESTS = [
# (adultos, crianças, rendimentos) -> (imposto, desconto, redução)
((2, 2, 55555), (2815, 0, 0)),
((2, 2, 50000), (1385, 384, 346)),
((2, 3, 50000), (0, 720, 0)),
((1, 2, 100000), (19884, 0, 0)),
((1, 3, 100000), (16782, 0, 0)),
((2, 3, 100000), (9200, 0, 0)),
((2, 5, 100000), (4230, 0, 0)),
((1, 0, 100000), (22986, 0, 0)),
((2, 2, 30000), (0, 0, 0)),
((1, 0, 200000), (64211, 0, 0)),
((2, 3, 200000), (42843, 0, 0)),
((2, 2, 49500), (1297, 431, 324)),
((1, 0, 18535), (359, 491, 90)),
((2, 0, 43333), (2270, 0, 400)),
]
def _ok(a, b, tol=1):
return abs(a - b) <= tol
def run_tests(verbose: bool = True) -> bool:
all_ok = True
for (params, expected) in TESTS:
a, e, r = params
exp_impot, exp_decote, exp_reduc = expected
res = calcul_impot_2019(a, e, r)
ok_impot = _ok(res.impot, exp_impot)
ok_decote = _ok(res.decote, exp_decote)
ok_reduc = _ok(res.reduction, exp_reduc)
test_ok = ok_impot and ok_decote and ok_reduc
if verbose:
print(
f"Test {params} -> obtenu (impôt={res.impot}, décote={res.decote}, réduction={res.reduction}) | attendu {expected} | {'OK' if test_ok else 'ECHEC'}")
if not test_ok:
print(
f" Détails tolérance ±1€ : impôt ok? {ok_impot}, décote ok? {ok_decote}, réduction ok? {ok_reduc}")
all_ok &= test_ok
if verbose:
print("\nRésultat global :", "TOUS LES TESTS PASSENT ✅" if all_ok else "AU MOINS UN TEST ÉCHOUE ❌")
return all_ok
if __name__ == "__main__":
run_tests()
- Linhas 11-24: os 14 testes predefinidos;
- Linhas 5-55: este código provém do script gerado por ChatGPT. Vamos obrigar o Gemini a utilizar este código para facilitar as comparações entre os dois scripts gerados.
Começamos pelo ChatGPT:
![]() |
A sua primeira resposta está incorreta. Digo-lhe isso, fornecendo-lhe os registos da execução:
![]() | ![]() |
A sua segunda resposta está correta. O ChatGPT acrescentou os seguintes 11 testes aos 14 testes exigidos:
Existem agora 25 testes unitários. Verifiquei manualmente os 11 novos testes com o simulador oficial do DGIP e está tudo bem.
Agora, passamos para o Gemini. Isto vai ser muito mais complicado. Ele vai conseguir gerar um script que passe nos 25 testes do ChatGPT, mas só depois de uma longa depuração.
![]() |
Segue-se a lista de depuração:
![]() |
Estranhamente, a maioria dos testes falhou, mesmo entre os 14 exigidos, quando, no passado, o Gemini tinha gerado código que os passava todos.
A resposta seguinte do Gemini continua a não estar correta:
![]() |
A resposta seguinte também não:
![]() |
A resposta seguinte também não. Por isso, mudo de estratégia. Peço-lhe que passe nos 25 testes que o ChatGPT passou, anexando-lhe os registos do ChatGPT:
![]() |
O Gemini falha. Ele adicionou corretamente os testes de ChatGPT. Anexo-lhe os registos da sua execução:
![]() |
Ainda não:
![]() |
Ainda não:
![]() |
Ainda não:
![]() |
Ainda não, mas já está melhor:
![]() |
O Gemini comete novos erros:
![]() |
Está a melhorar novamente:
![]() |
Desta vez, está tudo bem:
![]() |
Indiscutivelmente, neste exemplo específico do cálculo do imposto de 2019 com as restrições definidas no ficheiro de instruções, o ChatGPT revelou-se mais adequado do que o Gemini. Mas isto é apenas um exemplo.
Podemos ir mais longe. Podemos pedir ao Gemini para regenerar um PDF de acordo com as regras de cálculo que utilizou para passar nos 25 testes. Queremos ver se alterou o seu raciocínio inicial sobre os cálculos do abatimento e da redução de 20%:
![]() | ![]() |
Desta vez, o Gemini gerou um ficheiro MarkDown que eu, posteriormente, transformei em PDF [Le problème selon Gemini version 2]. E o Gemini alterou, de facto, o seu raciocínio:
![]() |
![]() |
Verifica-se que já não existe o cálculo específico do desconto nem a regra de repescagem. O Gemini adotou agora o raciocínio de ChatGPT.






















































