中新经纬2024年10月12日发布:今年参加高考的AI，分数出来了

在2024年河南省高考新课标Ⅰ卷大模型评测报告中，OpenAI的Chat GPT - 4o以562分在众多AI中排名文科总分第一。Chat GPT - 4o不愧是全能（4o的o就是“Omini”，全能之意）。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。

与文科相比，大模型的理科成绩要差很多，最高分还不到480分，大多数大模型的理科总分在400分以下。相比河南理科511分的一本线，大模型尚有较大差距。

各大模型高考评测取得的分数

本次大模型高考评测与河南省高考考卷完全相同，按照录取分数线，豆包等三款国产AI成功冲上一本线。但如果豆包同学在河南，恐怕依然上不了一本大学。

在大模型的各个科目得分中我们不难发现，无论是Chat GPT - 4o还是众多的国产大模型，都有明显的劣势，尤其是数学和语文的写作，都没有获得太高的分数。

大模型也和人类一样“偏科” 大模型也和人类一样“偏科”

为什么写作无法获得高分？原因是Chat GPT实际上是无法真正理解问题的。Chat GPT所做的是模式匹配，它可以通过算法找到和输入问题相关的信息，然后提取出信息中的答案。

这种答案其条理性、逻辑性拉满，但是在阅卷过程中，还要考虑人类写作的特点，比如递进关系、思维过程、层次、修辞等等。在这些方面，人工智能的表现更像是信息的堆砌。

试着把大模型的写作给专业的阅卷老师看，得到了如下回复。老师也是一眼辨识出了大模型写作的结果，现场戳穿，大写的尴尬。

AI写作被一眼认出

既然写作不灵，那以推理与逻辑为主的数学，为什么大模型反而也得不到高分呢？

还以2024年高考数学卷中的两道题为例，从结果中可以看到，国产大模型几乎全军覆没，只有Chat GPT给出了正确答案，其中一题是这样的：

甲、乙两人各有四张卡片，每张卡片上标有一个数字，甲的卡片分别标有数字 1，3，5，7，乙的卡片上分别标有数字2，4，6，8，两人进行四轮比赛，在每轮比赛中，两个各自从自己持有的卡片中随机选一张，并比较所选卡片的数字的大小，数字大的人得1分，数字小的人得0分，然后各自弃置此轮所选的卡片（弃置的卡片在此后的轮次中不能使用）。则四轮比赛后，甲的总得分小于2的概率为多少？

这道题，我是肯定算不出来的（你们可以试试），正确答案为1/2。再来看看大模型的作答结果。

原本以为算概率这种事情，应该是计算机最擅长的。结果，国内的8款大模型全部翻车。

究其原因还要从大模型自身讲起，大模型是基于人类语言研发和训练的，要想准确回答问题，首先是要理解人类语言，明白题目本身的含义。

来看一个非常典型的例子，“3个苹果加2个梨总共有几个水果”，这道小学生都会做的题，在大模型诞生之初，给出的回答往往是错误或者不知所云的答案，原因就是人类可以很容易地把苹果和梨抽象为水果，大模型无法做到。

而随着技术的进步，大模型的进步已经能够给出这类抽象问题的答案，但如果你问点复杂的，大模型还是会胡扯。以足球运动员为例：

而正确答案是：

这种抽象的概念，到了高中阶段就会变得更加复杂，无法将语言题目转化为数学公式是大模型是个数学学渣的原因之一。

其次是大模型回答问题的方式，前文提到过，大模型是通过匹配的方式找寻与之最相关的内容再通过缜密的逻辑组合成答案。

比如我们让模型画一幅人类肖像，在模型的训练数据中海量的关系证明，眼睛下方是鼻子，鼻子下方是嘴，所以模型很容易通过找寻匹配的方式画出与要求相近的答案。因为结果单一，但文字不然。比如我们提到一款手机，那与之相关的内容可能是电路板，可能是价格，可能是品牌，大模型需要不断地推理，找到最近似的结果。这就是所谓的扩散模型。

所以当给到模型的信息不全，或者存在很多隐含寓意的时候，模型就开始了一本正经地胡说八道，这就是我们常说的“模型幻觉”。

问题其实是在问我有多少个水果，Chat GPT回答为16，它没有正确理解“banana weighs 0.5 lbs and I have 7 lbs”这句话的含义，正确答案应该是7/0.5+9=23个。

看多了大模型不着边际的答案以及一本正经的胡说八道之后，我们甚至会怀疑号称颠覆性的大模型技术，连小学数学都做不利索，到底行不行？

答案是肯定的，大模型在很多专业领域，尤其是尖端科学领域，依然是人类社会的希望。

海量数据的处理能力

虽然在大模型之前也有类似的数据中心、超级计算机，但是其本质区别还是方法。传统的方法是查找与匹配，找到近似的结果给用户展示，大模型的工作机制除了查找与匹配之外还有推理，简单说就是能够像人一样思考。这样给出的结果更加精确。

泛化能力

我们都遇到过使用百度的时候搜不到结果的情况，是因为对于未知数据确实是找不到结果的，机器也给了正确的返回。但其实机器并没有思考输入问题的本质，大模型可以通过不断地理解和泛化，适应新的未曾见过的数据。

自我学习进化能力

目前人类自诞生以来有文字记载的各种知识、数据、资料都可以作为训练的数据，以Chat GPT - 4o为例，据OpenAI表示大概已经把目前人类的知识都看过一遍了。模型本身会不断进化，这个过程时刻都在发生。

基于这些强大基因，大模型已经被应用于很多专业领域，并取得了前人无法企及的成果。

一群来自上海财经大学、哈尔滨工业大学（深圳）、北京语言大学、西安电子科技大学、加拿大皇后大学以及万得信息技术有限公司的博士生和工程师收集了超过三万七千个问题，以及对应的超过8万条人类专家回答和超过4万条Chat GPT回答。覆盖了开放域、计算机、金融、医疗、法律、心理学等多个领域。对比大模型和专家的作答。评判标准是在双盲的情况下看谁的答案更加有用？结果如下：

大模型的答案略胜于人类专家，但是如果被评测者被告知哪个是大模型的话，结果是专家答案反超20%。可见大模型在专业知识方面接近人类专家水平，专家的优势在于能够简明扼要，直指核心，而大模型的回答略显拖沓和格式化。

心理学领域，大模型在情感上比人类更中立，甚至偏积极，能够更好地提供情绪支持和疏导。

在表述的方式上，人类比大模型拥有更大的词汇量且回答更加简短。

除了普遍的语言问答，大模型在推理上也是大放光彩。

Google DEEP MIND 公司的Alphafold3发布，生物领域Al即将参与人类的生老病死

一款药物从开始研发到上市销售要经历漫长的时间，极端情况下，有些科学家甚至都看不到“孩子”上市就已经离世。更别说研发期间巨大的资金消耗。所以像《我不是药神》中提到的“格列卫”，也经历了漫长的岁月。而作为垄断企业的药企，显然不会轻易地交出专利。

但大模型的出现让这个过程至少提高了36%的速度，其重要的功能就是在推测先导药物分子式这一过程中，通过模型极强的学习和推理能力，极大地加快了发现新的分子式（新药物基础）的过程。

也许几年后就会有无数种新药问世，它们可以治疗多种目前束手无策的病症，并大幅降低研发成本，而最终受益的依然是患者和家属。整个人类群体的寿命和生活质量也将同步提升。

前几天openAI宣布禁止中国地区用户使用API（应用编程接口）方式访问其服务，技术垄断的背后，中国也在不遗余力地研发自己的技术。在同样的技术背景下，其商业模式以及对用户的影响，中美可能会走上两条不同的路线。

如果回顾一下AI的上一波浪潮，即移动互联网，不难发现，同样的技术和终端，在商业模式上走上了两条不同的道路。

细数移动互联网诞生的十余年里，以原创产品为标准。中国涌现出了支付宝，字节跳动，美团网，共享自行车，短视频，直播带货，手机游戏等。反观美国企业则主要集中在生态和更上游，比如硬件制造的苹果，操作系统安卓和iOS，云服务器等，元宇宙等。

再看当下的AI生态，中国的公司更聚焦在终端用户的身上，比如AI虚拟人、AI绘图作画、AI写ppt、AI做淘宝模特图、AI试衣等等。并把上一波浪潮中的经验完美融合其中，比如会员制订阅收费、营销手段等等。移动互联网“先圈用户再赚钱”这个逻辑一直被默默地继承了下来。

AI作图的生硬“直译”

诚然，美国也有多如牛毛的类似公司，比如C.AI（虚拟人）、Notion（写作）、Replica（元宇宙）、Cavana（创意），但是目前在硅谷投资行业中更为投资人看好的，并已经实现盈利的却是一些“to B”（面向企业）的生意。有个很生动的例子，阐释了AI的巨大作用。

美国有一种工伤保险，当员工因公受伤在家休养期间，保险公司会支付50%的薪水给员工，该保险由企业投保，员工受益。但是在被保险客户中，其伤愈的时间是因人而异的，很多人并不知道自己已经可以回去上班领全额的薪水，也不知道自己的医疗到何种阶段。这项工作以前是由人工完成的，即保险公司致电每一个可以或即将可以上班的员工返回工作岗位。显然这是极其低效的。AI应用在电话回访之后极大地提高了效率和准确性，AI接收医院的医疗信息，找出对应的被保险人，然后拨打电话，无需任何人为干预，一天可以打几百上千个电话。而一旦被保险人返回工作，保险公司便可以停止支付工伤期间的薪水。据统计一年下来，仅这一项应用为该公司节省了至少6000万美元的保费。