5. Resolver os três problemas com o ChatGPT
5.1. Introdução
Aqui está uma primeira captura de ecrã de uma sessão do ChatGPT:
![]() ![]() |
- Em [1-3], os três problemas apresentados ao ChatGPT;
- Em [4], o URL do ChatGPT;
- Em [5], a versão do ChatGPT utilizada;
O ChatGPT é um produto da OpenAI disponível no URL [https://chatgpt.com/]. Para visualizar um histórico das suas sessões de perguntas e respostas, como a acima, é necessário criar uma conta. Além disso, tal como todas as outras IAs testadas, o ChatGPT limita o número de perguntas que pode fazer e o número de ficheiros que pode carregar. Quando este limite é atingido, a sessão termina e é-lhe oferecida a opção de continuar mais tarde. Os limites impostos pelo ChatGPT são atingidos muito rapidamente. Para criar este tutorial, tive de adquirir uma subscrição paga de um mês.
A interface do ChatGPT é a seguinte:
![]() |
- Em [1], para anexar ficheiros à pergunta feita;
- Em [2], a pergunta feita;
- Em [3], para executar a IA;
5.2. Problema 1
A pergunta para o ChatGPT:
![]() |
O ChatGPT responde corretamente.
5.3. Problema 2
Isto envolve calcular o imposto utilizando o PDF. Para ser sincero, vamos utilizar o PDF gerado pelo Gemini, que corrige os erros do PDF original.
![]() |
- Em [1], fornecemos o PDF gerado pelo Gemini;
- Em [2], adicionámos o teste unitário através do qual o Gemini demonstrou a sua superioridade:
Executamos o ChatGPT. Demora cerca de 3 minutos a gerar a sua resposta. Ao contrário do Gemini, este fornece um link funcional para recuperar o script gerado. Carregamos isto no PyCharm:
![]() |
O script [chatGPT1] funciona à primeira tentativa. Não há comparação possível; neste problema, o ChatGPT superou o Gemini.
O script [chatGPT1] fornecido pelo ChatGPT é o seguinte:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 | |
5.4. Problema 3
Agora pedimos ao ChatGPT para pesquisar as regras de cálculo de impostos na Internet:
![]() |
Desta vez, não fornecemos o PDF que continha as regras de cálculo a seguir. Apenas fornecemos as nossas instruções no ficheiro de texto. Note-se que este ficheiro de texto contém agora 12 testes unitários, após adicionarmos, aos 11 testes iniciais, aquele utilizado pelo Gemini para demonstrar que o meu PDF inicial estava incorreto.
O ChatGPT responde em 8 minutos, fornecendo um link para descarregar o script gerado. Uma vez carregado no PyCharm, este script passa nos 12 testes. Assim, para ambos os problemas colocados, o ChatGPT acertou as respostas à primeira tentativa, superando assim o Gemini.
O ChatGPT fornece as suas fontes na sua resposta:
![]() |
Não há mais nada a dizer — é um trabalho bem feito.
Agora, podemos pedir-lhe, tal como fizemos com o Gemini, para gerar um PDF para os alunos.
![]() |
A resposta do ChatGPT surgiu após várias trocas de mensagens, porque o PDF gerado utilizava um tipo de letra que substituía os caracteres por quadrados. Mas, por fim, gerou o PDF. Estou a partilhá-lo porque apresenta regras diferentes das do PDF do Gemini, e fiquei a pensar qual delas estaria correta. Vamos investigar.
![]() |
![]() |
![]() | ![]() |
![]() |
A diferença em relação ao PDF da Gemini reside na forma como o desconto é calculado. As duas IA adotam abordagens diferentes. A Gemini escreveu:
![]() |
![]() |
![]() |
As duas IAs têm duas abordagens diferentes. Qual delas está certa?
5.5. Problema 4
Vamos pedir ao ChatGPT para usar o seu PDF para calcular o imposto:
![]() | ![]() |
Tal como em casos anteriores, ele gera um script Python que funciona à primeira tentativa. Tínhamos adicionado um teste adicional às instruções:
Todos os 13 testes foram concluídos com sucesso.
5.6. Voltar ao Gemini
Agora, voltamos ao Gemini, ao qual iremos apresentar o PDF do ChatGPT. Uma vez que as regras implementadas neste PDF diferem das do PDF do Gemini, perguntamo-nos o que irá acontecer:
![]() |
O Gemini gerou primeiro um script em Python que falhou em alguns testes. Apresentámos-lhe os registos:
Pergunta 2
![]() |
Pergunta 3
Ainda há erros. Vamos continuar.
![]() |
Pergunta 4
Ainda ocorrem erros durante a execução:
![]() |
Desta vez está correto.
Continuamos intrigados com o facto de, mesmo com PDFs que têm regras de cálculo bastante diferentes, ambas as IAs gerarem resultados corretos.
Fazemos a seguinte pergunta ao Gemini:
![]() |
A pergunta completa é a seguinte:
A resposta do Gemini é inequívoca:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
5.7. O que pensa o ChatGPT?
Fazemos ao ChatGPT a mesma pergunta que fizemos ao Gemini.
![]() |
A resposta do ChatGPT é a seguinte:
![]() |
![]() |
Assim, o ChatGPT sugere um teste unitário para decidir entre os dois métodos. Duplicamos:
- O script [gemini3] gerado pelo Gemini utilizando o seu PDF [O Problema Segundo o Gemini] como fonte é duplicado no script [gemini4];
- O script [chatGPT3] gerado pelo ChatGPT utilizando o seu PDF [O Problema Segundo o ChatGPT] como fonte é duplicado no script [chatGPT4];
![]() | ![]() |
Além disso, adicionamos o teste unitário proposto pelo ChatGPT a cada um dos scripts [gemini4, chatGPT4] para distinguir entre as duas IAs.
A execução de [gemini4] produz os seguintes resultados:
C:\Data\st-2025\dev\python\code\python-flask-2025-cours\.venv\Scripts\python.exe "C:/Program Files/JetBrains/PyCharm 2025.2.1.1/plugins/python-ce/helpers/pycharm/_jb_unittest_runner.py" --path "C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\gemini\gemini4.py"
Testing started at 17:45 ...
Launching unittests with arguments python -m unittest C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\gemini\gemini4.py in C:\Data\st-2025\dev\python\code\python-flask-2025-cours
SubTest failure: Traceback (most recent call last):
File "C:\Program Files\Python313\Lib\unittest\case.py", line 58, in testPartExecutor
yield
File "C:\Program Files\Python313\Lib\unittest\case.py", line 556, in subTest
yield
File "C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\gemini\gemini4.py", line 234, in test_cas_verifies_simulateur_officiel
self.assertAlmostEqual(calcul_impot, attendu_impot, delta=1, msg="Échec sur le montant de l'impôt")
~~~~~~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
AssertionError: 2669 != 2270 within 1 delta (399 difference) : Échec sur le montant de l'impôt
Ran 1 test in 0.010s
FAILED (failures=1)
One or more subtests failed
Failed subtests list: [Test 'test12' avec entrée (2, 0, 43333)]
Process finished with exit code 1
Portanto, o Gemini falha no teste adicionado pelo ChatGPT.
A execução do [chatGPT4] produz os seguintes resultados:
C:\Data\st-2025\dev\python\code\python-flask-2025-cours\.venv\Scripts\python.exe "C:\Data\st-2025\dev\python\code\python-flask-2025-cours\outils ia\chatGPT\chatGPT4.py"
Test (2, 2, 55555) -> obtenu (impôt=2814, décote=0, réduction=0) | attendu (2815, 0, 0) | OK
Test (2, 2, 50000) -> obtenu (impôt=1384, décote=384, réduction=347) | attendu (1385, 384, 346) | OK
Test (2, 3, 50000) -> obtenu (impôt=0, décote=721, réduction=0) | attendu (0, 720, 0) | OK
Test (1, 2, 100000) -> obtenu (impôt=19884, décote=0, réduction=0) | attendu (19884, 0, 0) | OK
Test (1, 3, 100000) -> obtenu (impôt=16782, décote=0, réduction=0) | attendu (16782, 0, 0) | OK
Test (2, 3, 100000) -> obtenu (impôt=9200, décote=0, réduction=0) | attendu (9200, 0, 0) | OK
Test (2, 5, 100000) -> obtenu (impôt=4230, décote=0, réduction=0) | attendu (4230, 0, 0) | OK
Test (1, 0, 100000) -> obtenu (impôt=22986, décote=0, réduction=0) | attendu (22986, 0, 0) | OK
Test (2, 2, 30000) -> obtenu (impôt=0, décote=0, réduction=0) | attendu (0, 0, 0) | OK
Test (1, 0, 200000) -> obtenu (impôt=64210, décote=0, réduction=0) | attendu (64211, 0, 0) | OK
Test (2, 3, 200000) -> obtenu (impôt=42842, décote=0, réduction=0) | attendu (42843, 0, 0) | OK
Test (2, 2, 49500) -> obtenu (impôt=1296, décote=431, réduction=325) | attendu (1297, 431, 324) | OK
Test (1, 0, 18535) -> obtenu (impôt=359, décote=491, réduction=90) | attendu (359, 491, 90) | OK
Test (2, 0, 43333) -> obtenu (impôt=2268, décote=0, réduction=401) | attendu (2270, 0, 400) | ECHEC
Détails tolérance ±1€ : impôt ok? False, décote ok? True, réduction ok? True
Résultat global : AU MOINS UN TEST ÉCHOUE ❌
Process finished with exit code 0
O ChatGPT também falha no teste adicional, mas não pelas mesmas razões que o Gemini. O ChatGPT encontrou os resultados corretos, mas errou por 2 euros em vez do 1 euro exigido.
Assim, a partir de agora, utilizaremos o PDF gerado pelo ChatGPT com as seguintes IAs. Vale a pena referir que foi devido à falta de testes unitários nas minhas instruções que ambas as IAs passaram nos primeiros testes. Daí, neste exemplo específico, a importância de incluir testes unitários para casos extremos no cálculo de impostos. Uma vez que é bastante difícil conceber estes testes por conta própria, pediremos às IAs que os adicionem elas próprias.
5.8. Problema 3 com testes unitários gerados pelas IAs
Os resultados obtidos com o Gemini e o ChatGPT deixam margem para dúvidas. Será que as IAs encontraram uma solução geral que passa em todos os testes concebíveis, ou encontraram uma solução que apenas passa nos testes exigidos? Vamos recomeçar com uma solução sem PDF para forçar as IAs a acederem à Internet e a procurarem a informação de que necessitam. E vamos modificar as nossas instruções da seguinte forma:
![]() |
O ficheiro de texto [instructionsSansPDF4.txt] já contém 14 testes obrigatórios. A estes testes, acrescentamos as seguintes instruções:
7 - tu ajouteras autant de tests unitaires que nécessaires pour vérifier les cas limites du calcul de l'impôt.
Pour le code tu complèteras le script suivant auquel tu auras rajouté tes propres tests.
# =========================
# Tests unitaires (tolérance de ±1 €)
# =========================
TESTS = [
# (adultes, enfants, revenus) -> (impot, decote, reduction)
((2, 2, 55555), (2815, 0, 0)),
((2, 2, 50000), (1385, 384, 346)),
((2, 3, 50000), (0, 720, 0)),
((1, 2, 100000), (19884, 0, 0)),
((1, 3, 100000), (16782, 0, 0)),
((2, 3, 100000), (9200, 0, 0)),
((2, 5, 100000), (4230, 0, 0)),
((1, 0, 100000), (22986, 0, 0)),
((2, 2, 30000), (0, 0, 0)),
((1, 0, 200000), (64211, 0, 0)),
((2, 3, 200000), (42843, 0, 0)),
((2, 2, 49500), (1297, 431, 324)),
((1, 0, 18535), (359, 491, 90)),
((2, 0, 43333), (2270, 0, 400)),
]
def _ok(a, b, tol=1):
return abs(a - b) <= tol
def run_tests(verbose: bool = True) -> bool:
all_ok = True
for (params, expected) in TESTS:
a, e, r = params
exp_impot, exp_decote, exp_reduc = expected
res = calcul_impot_2019(a, e, r)
ok_impot = _ok(res.impot, exp_impot)
ok_decote = _ok(res.decote, exp_decote)
ok_reduc = _ok(res.reduction, exp_reduc)
test_ok = ok_impot and ok_decote and ok_reduc
if verbose:
print(
f"Test {params} -> obtenu (impôt={res.impot}, décote={res.decote}, réduction={res.reduction}) | attendu {expected} | {'OK' if test_ok else 'ECHEC'}")
if not test_ok:
print(
f" Détails tolérance ±1€ : impôt ok? {ok_impot}, décote ok? {ok_decote}, réduction ok? {ok_reduc}")
all_ok &= test_ok
if verbose:
print("\nRésultat global :", "TOUS LES TESTS PASSENT ✅" if all_ok else "AU MOINS UN TEST ÉCHOUE ❌")
return all_ok
if __name__ == "__main__":
run_tests()
- Linhas 11–24: os 14 testes obrigatórios;
- Linhas 5-55: este código provém do script gerado pelo ChatGPT. Iremos solicitar ao Gemini que utilize este código para facilitar as comparações entre os dois scripts gerados.
Começaremos com o ChatGPT:
![]() |
A sua primeira resposta está incorreta. Indico-lhe isso fornecendo os registos de execução:
![]() | ![]() |
A sua segunda resposta está correta. O ChatGPT adicionou os seguintes 11 testes aos 14 testes exigidos:
Existem agora 25 testes unitários. Verifiquei manualmente os 11 novos testes utilizando o simulador oficial do DGIP, e eles foram aprovados.
Agora, vamos passar para o Gemini. Isto vai ser muito mais complicado. Conseguirá gerar um script que passe nos 25 testes do ChatGPT, mas só após um longo processo de depuração.
![]() |
Segue-se o registo de depuração:
![]() |
Estranhamente, a maioria dos testes falhou, mesmo entre os 14 testes obrigatórios, enquanto no passado o Gemini tinha gerado código que os passava todos.
A seguinte resposta do Gemini continua incorreta:
![]() |
A resposta a seguir também não está correta:
![]() |
Nem a resposta a seguir. Por isso, estou a mudar a minha abordagem. Estou a pedir-lhe que passe nos 25 testes que o ChatGPT passou, anexando os registos do ChatGPT:
![]() |
O Gemini falha. Acrescentou os testes do ChatGPT. Anexo os registos da sua execução:
![]() |
Ainda não:
![]() |
Ainda não:
![]() |
Ainda não:
![]() |
Ainda não, mas está melhor:
![]() |
O Gemini está a cometer novos erros:
![]() |
Está a melhorar novamente:
![]() |
Desta vez, está certo:
![]() |
Sem dúvida, neste exemplo específico de cálculo do imposto de 2019 com as restrições especificadas no ficheiro de instruções, o ChatGPT foi mais preciso do que o Gemini. Mas este é apenas um exemplo.
Podemos ir mais longe. Podemos pedir ao Gemini para regenerar um PDF com base nas regras de cálculo que utilizou para passar nos 25 testes. Queremos ver se alterou o seu raciocínio inicial relativamente aos cálculos do desconto e da redução de 20%:
![]() | ![]() |
Desta vez, o Gemini gerou um ficheiro Markdown que eu converti para PDF [O Problema Segundo o Gemini Versão 2]. E o Gemini alterou, de facto, o seu raciocínio:
![]() |
![]() |
Podemos ver que o cálculo específico do desconto e a regra de transferência já não estão presentes. A Gemini adotou agora o raciocínio do ChatGPT.






















































