如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 05:15:14
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-22 23:30:18目前美军还有哪些领域是明显领先于解放军的?
- 2025-06-22 23:25:17什么是最好的编程用显示器?
- 2025-06-23 00:50:16如何看待M4单核性能吊打9950x?
- 2025-06-22 23:45:17Electron是否有作为游戏引擎的潜力?
- 2025-06-23 01:00:15你和你老婆是怎么认识的?
- 2025-06-23 00:15:18各位前端大触们,一般怎么定颜色的?
- 2025-06-22 23:20:18为什么感觉wps的用户越来越多,office没人用了?
- 2025-06-23 00:55:17如何看待 Git 的 Windows 安装程序称 Vim「很难用」?
- 2025-06-22 23:30:18鸿蒙电脑应用开发和鸿蒙手机是一样的吗?
- 2025-06-22 23:55:18为什么中国引进的ap1000机组实际建设周期远比当初预计的长的多?这是否严重耽误了中国核电的发展?
推荐产品
-
国内大厂现在用rust的多吗?
RUST在linux内核中持续了好几年,不断有特性合入lin -
count(*) count(1)哪个更快?
团队 code review 时,一位同事把 count(* -
不限制语言,客户端GUI开发用什么好?
不考虑信创: Electron 唯一真神! WPF Wind -
面试中被嘲笑Token放在redis里,该如何应对这种情况呢?
token放在redis里只是一种很正常的方案。 在有多个后
新闻动态
最新资讯