2. 研究的三道题目及结果
我们将要求人工智能研究三个问题,从最简单的到最复杂的。让我们来看一张来自 Google Gemini 的截图:
![]() |
- 在[1]中,Gemini的URL;
- 在[2]中,所使用的Gemini版本;
- 在[3-5]中,向Gemini提出的三个问题;
2.1. 问题 1
问题 1 是一个简单的问题:
![]() |
所有人工智能都能正确回答这个问题。
2.2. 问题 2
问题 2 如下(截图来自 Gemini):
![]() |
- 在[1]中,一份PDF文档详细阐述了如何根据2018年的收入计算2019年税款。我们稍后会再回到这一点;
- 在[2]中,我们向Gemini提供了明确的要求:编写一个简洁的Python脚本,既能解决问题,又能通过11个单元测试验证所提出的解决方案;
- 在[3]中,要运行Gemini,你需要编写一些代码;
这与大学实验室作业的情景完全一致。
接受测试的AI系统都能解决该问题,唯独MistralAI和Perplexity除外。
2.3. 问题 3
问题3仍采用Google Gemini的截图,内容如下:
![]() |
- 在[1]中,我们提供了与之前相同的指令。但由于我们未提供包含确切计算规则的PDF文件,AI将不得不在线搜索这些规则;
- 在[3]中,我们启动了AI;
只有三款AI通过了这项测试,按表现优劣排序(当然,这完全是个人主观判断):
- OpenAI的ChatGPT;
- xAI的Grok;
- Google Gemini;
ClaudeAI 在第 3 题中失败。MistralAI 在第 2 和第 3 题中失败,Perplexity AI 也是如此。DeepSeek AI 在第 3 题中失败。



