2. المشاكل الثلاث التي تمت دراستها والنتائج

سنطلب من الذكاء الاصطناعي دراسة ثلاث مشكلات، من الأبسط إلى الأكثر تعقيدًا. لنلقِ نظرة على لقطة شاشة من Google Gemini:

في [1]، عنوان URL لـ Gemini؛
في [2]، إصدار Gemini المستخدم؛
في [3-5]، المشاكل الثلاث التي طرحت على Gemini؛

2.1. المشكلة 1

المشكلة 1 هي سؤال بسيط:

ستجيب جميع أنظمة الذكاء الاصطناعي على هذا السؤال بشكل صحيح.

2.2. المسألة 2

المسألة 2 هي كما يلي (لقطة شاشة من Gemini):

في [1]، يشرح ملف PDF مبدأ حساب ضرائب عام 2019 على دخل عام 2018. سنعود إلى هذا الموضوع لاحقًا؛
في [2]، نقدم لـ Gemini تعليمات دقيقة حول ما نريده: نصوص برمجية Python نظيفة تحل المشكلة وتتحقق من صحة الحل المقترح باستخدام 11 اختبارًا وحدة؛
في [3]، لتشغيل Gemini، عليك كتابة بعض الأكواد؛

هذا هو بالضبط نفس السيناريو الذي يحدث في واجبات المختبرات الجامعية.

ستحل الذكاءات الاصطناعية التي تم اختبارها المشكلة، باستثناء MistralAI و Perplexity.

2.3. المشكلة 3

باستخدام لقطة شاشة من Google Gemini، فإن المشكلة 3 هي كما يلي:

في [1]، نقدم تعليماتنا، كما في السابق. ولكن بما أننا لا نقدم ملف PDF الذي يحتوي على قواعد الحساب الدقيقة، فسيتعين على الذكاء الاصطناعي البحث عن هذه القواعد عبر الإنترنت؛
في [3]، نقوم بتشغيل الذكاء الاصطناعي؛

لم يجتز هذا الاختبار سوى ثلاثة أنظمة ذكاء اصطناعي، مرتبة حسب التميز (وهذا رأي شخصي بحت، بالطبع):

ChatGPT من OpenAI؛

Grok من xAI؛
Google Gemini؛

فشل الذكاء الاصطناعي ClaudeAI في حل المسألة 3. فشل الذكاء الاصطناعي MistralAI في حل المسألتين 2 و 3، وكذلك الذكاء الاصطناعي Perplexity. فشل الذكاء الاصطناعي DeepSeek في حل المسألة 3.