2. Die drei untersuchten Probleme und die Ergebnisse
Wir werden die KI bitten, drei Probleme zu untersuchen, vom einfachsten bis zum kompliziertesten. Sehen wir uns einen Screenshot von Google Gemini an:
![]() |
- In [1] die URL von Gemini;
- In [2] die verwendete Gemini-Version;
- In [3-5] die drei an Gemini gestellten Probleme;
2.1. Problem 1
Problem 1 ist eine einfache Frage:
![]() |
Alle KI-Systeme werden diese Frage richtig beantworten.
2.2. Aufgabe 2
Aufgabe 2 lautet wie folgt (Screenshot von Gemini):
![]() |
- In [1] wird das Prinzip der Berechnung der Steuer 2019 auf die Einkünfte 2018 in einem PDF erklärt. Wir werden darauf zurückkommen;
- In [2] gibt man Gemini genaue Anweisungen, was man will: ein sauberes Python-Skript, das das gestellte Problem löst und die vorgeschlagene Lösung mit 11 Unit-Tests validiert;
- Unter [3] muss man etwas eingeben, um Gemini zu starten;
Wir befinden uns hier genau in derselben Situation wie bei einer Übung an der Universität.
Die getesteten KI-Systeme werden das Problem lösen, mit Ausnahme von MistralAI und Perplexity.
2.3. Problem 3
Wiederum mit einem Screenshot von Google Gemini lautet Problem 3 wie folgt:
![]() |
- In [1] geben wir unsere Anweisungen ein, dieselben wie zuvor. Da wir jedoch nicht die PDF-Datei bereitstellen, die die genauen Berechnungsregeln enthielt, muss die KI diese Regeln im Internet suchen;
- In [3] starten wir die Ausführung der KI;
Nur drei KI-Systeme haben diesen Test bestanden, in der Reihenfolge ihrer Leistung (rein persönliche Meinung, versteht sich):
- ChatGPT von OpenAI;
- Grok von xAI;
- Google Gemini;
Die KI ClaudeAI ist bei Aufgabe 3 gescheitert. Die KI MistralAI ist bei den Aufgaben 2 und 3 gescheitert, ebenso wie die KI Perplexity. Die KI DeepSeek ist bei Aufgabe 3 gescheitert.



