Skip to content

2. 研究的三道题目及结果

我们将要求人工智能研究三个问题,从最简单的到最复杂的。让我们来看一张来自 Google Gemini 的截图:

 
  • 在[1]中,Gemini的URL;
  • 在[2]中,所使用的Gemini版本;
  • 在[3-5]中,向Gemini提出的三个问题;

2.1. 问题 1

问题 1 是一个简单的问题:

 

所有人工智能都能正确回答这个问题。

2.2. 问题 2

问题 2 如下(截图来自 Gemini):

 
  • 在[1]中,一份PDF文档详细阐述了如何根据2018年的收入计算2019年税款。我们稍后会再回到这一点;
  • 在[2]中,我们向Gemini提供了明确的要求:编写一个简洁的Python脚本,既能解决问题,又能通过11个单元测试验证所提出的解决方案;
  • 在[3]中,要运行Gemini,你需要编写一些代码;

这与大学实验室作业的情景完全一致。

接受测试的AI系统都能解决该问题,唯独MistralAI和Perplexity除外。

2.3. 问题 3

问题3仍采用Google Gemini的截图,内容如下:

 
  • 在[1]中,我们提供了与之前相同的指令。但由于我们未提供包含确切计算规则的PDF文件,AI将不得不在线搜索这些规则;
  • 在[3]中,我们启动了AI;

只有三款AI通过了这项测试,按表现优劣排序(当然,这完全是个人主观判断):

  1. OpenAI的ChatGPT;
  1. xAI的Grok;
  2. Google Gemini;

ClaudeAI 在第 3 题中失败。MistralAI 在第 2 和第 3 题中失败,Perplexity AI 也是如此。DeepSeek AI 在第 3 题中失败。