Skip to content

2. Die drei untersuchten Probleme und die Ergebnisse

Wir werden die KI bitten, drei Probleme zu untersuchen, vom einfachsten bis zum kompliziertesten. Sehen wir uns einen Screenshot von Google Gemini an:

 
  • In [1] die URL von Gemini;
  • In [2] die verwendete Gemini-Version;
  • In [3-5] die drei an Gemini gestellten Probleme;

2.1. Problem 1

Problem 1 ist eine einfache Frage:

 

Alle KI-Systeme werden diese Frage richtig beantworten.

2.2. Aufgabe 2

Aufgabe 2 lautet wie folgt (Screenshot von Gemini):

 
  • In [1] wird das Prinzip der Berechnung der Steuer 2019 auf die Einkünfte 2018 in einem PDF erklärt. Wir werden darauf zurückkommen;
  • In [2] gibt man Gemini genaue Anweisungen, was man will: ein sauberes Python-Skript, das das gestellte Problem löst und die vorgeschlagene Lösung mit 11 Unit-Tests validiert;
  • Unter [3] muss man etwas eingeben, um Gemini zu starten;

Wir befinden uns hier genau in derselben Situation wie bei einer Übung an der Universität.

Die getesteten KI-Systeme werden das Problem lösen, mit Ausnahme von MistralAI und Perplexity.

2.3. Problem 3

Wiederum mit einem Screenshot von Google Gemini lautet Problem 3 wie folgt:

 
  • In [1] geben wir unsere Anweisungen ein, dieselben wie zuvor. Da wir jedoch nicht die PDF-Datei bereitstellen, die die genauen Berechnungsregeln enthielt, muss die KI diese Regeln im Internet suchen;
  • In [3] starten wir die Ausführung der KI;

Nur drei KI-Systeme haben diesen Test bestanden, in der Reihenfolge ihrer Leistung (rein persönliche Meinung, versteht sich):

  1. ChatGPT von OpenAI;
  1. Grok von xAI;
  2. Google Gemini;

Die KI ClaudeAI ist bei Aufgabe 3 gescheitert. Die KI MistralAI ist bei den Aufgaben 2 und 3 gescheitert, ebenso wie die KI Perplexity. Die KI DeepSeek ist bei Aufgabe 3 gescheitert.