中新经纬2024年10月12日发布:今年参加高考的AI,分数出来了

⭐发布日期:2024年10月12日 | 来源:中新经纬

⭐作者:乔丹娜·布莱克 责任编辑:Admin

⭐阅读量:970 评论:9人

【新澳门六开奖结果记录】

【2024澳门历史记录】

【2024新澳今晚资料66期】 【今晚澳门特马开的什么图片】 【2024年今晚澳门特马开奖结果】 【澳门六开彩天天免费开奖】 【2024年澳门的资料热】 【新澳开奖结果记录史免费】 【新澳门直播现场开奖直播视频大全】 【二四六香港资料期期准2024】
【344456CCm彩民新奥彩】 【2024香港开奖记录查询表格】 【2024.085.澳门彩资料】 【2024今晚澳门开奖号码】 【7777788888王中王中特】 【马会传真澳门免费资料十年】 【2024澳门开奖历史记录结果查询】 【2024香港特马今晚开奖】

这几天你还在等录取通知书吗?每次高考完,总有一些人特别招人烦。要么是高考博主分享人生感悟,也有复读班常客带你估分,最讨厌的就属一群中年人,在那里看着作文题高谈阔论找存在感。

但他们敢做数学题吗?今年之后,AI大概就会直接断送了这些人吹牛的机会。

2024年的河南高考分数线已经出炉,文科本科一批录取分数线为521分,理科511分。

众所周知,河南是人口大省,根据2023年的数据,河南以9605万排名全国第三。相应地,河南也是高考大省,2023年河南高考考生高达131万人。

经历过高考的人,都会记得班主任常常会说这样一句话:“高考是你们人生中唯一一次公平的竞争”。在全国的大多数省份,考生要想考上心仪的学校,除了过线,必须高出分数线不少分才能被录取,像是清北这样的名校,甚至要超过百分。

河南高考一直被称为“地狱难度”

数据也支持这样的判断,以河南省为例,在全国历年985和211学校的录取比例中,河南一直处于倒数5名左右,这意味着考生们不仅要和同学内卷,更要和“名额数量”“录取比例”斗争。

如今,高考的赛道上又多了一名新“同学”。当AI也参与其中之后,所取得的成绩也同样令人目瞪口呆,并且以我们意想不到的速度进步着。

在2024年河南省高考新课标Ⅰ卷大模型评测报告中,OpenAI的Chat GPT - 4o以562分在众多AI中排名文科总分第一。Chat GPT - 4o不愧是全能(4o的o就是“Omini”,全能之意)。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。

与文科相比,大模型的理科成绩要差很多,最高分还不到480分,大多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。

各大模型高考评测取得的分数

本次大模型高考评测与河南省高考考卷完全相同,按照录取分数线,豆包等三款国产AI成功冲上一本线。但如果豆包同学在河南,恐怕依然上不了一本大学。

在大模型的各个科目得分中我们不难发现,无论是Chat GPT - 4o还是众多的国产大模型,都有明显的劣势,尤其是数学和语文的写作,都没有获得太高的分数。

大模型也和人类一样“偏科” 大模型也和人类一样“偏科”

为什么写作无法获得高分?原因是Chat GPT实际上是无法真正理解问题的。Chat GPT所做的是模式匹配,它可以通过算法找到和输入问题相关的信息,然后提取出信息中的答案。

这种答案其条理性、逻辑性拉满,但是在阅卷过程中,还要考虑人类写作的特点,比如递进关系、思维过程、层次、修辞等等。在这些方面,人工智能的表现更像是信息的堆砌。

试着把大模型的写作给专业的阅卷老师看,得到了如下回复。老师也是一眼辨识出了大模型写作的结果,现场戳穿,大写的尴尬。

AI写作被一眼认出

既然写作不灵,那以推理与逻辑为主的数学,为什么大模型反而也得不到高分呢?

还以2024年高考数学卷中的两道题为例,从结果中可以看到,国产大模型几乎全军覆没,只有Chat GPT给出了正确答案,其中一题是这样的:

甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片分别标有数字 1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两个各自从自己持有的卡片中随机选一张,并比较所选卡片的数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用)。则四轮比赛后,甲的总得分小于2的概率为多少?

这道题,我是肯定算不出来的(你们可以试试),正确答案为1/2。再来看看大模型的作答结果。

原本以为算概率这种事情,应该是计算机最擅长的。结果,国内的8款大模型全部翻车。

究其原因还要从大模型自身讲起,大模型是基于人类语言研发和训练的,要想准确回答问题,首先是要理解人类语言,明白题目本身的含义。

来看一个非常典型的例子,“3个苹果加2个梨总共有几个水果”,这道小学生都会做的题,在大模型诞生之初,给出的回答往往是错误或者不知所云的答案,原因就是人类可以很容易地把苹果和梨抽象为水果,大模型无法做到。

而随着技术的进步,大模型的进步已经能够给出这类抽象问题的答案,但如果你问点复杂的,大模型还是会胡扯。以足球运动员为例:

而正确答案是:

这种抽象的概念,到了高中阶段就会变得更加复杂,无法将语言题目转化为数学公式是大模型是个数学学渣的原因之一。

其次是大模型回答问题的方式,前文提到过,大模型是通过匹配的方式找寻与之最相关的内容再通过缜密的逻辑组合成答案。

比如我们让模型画一幅人类肖像,在模型的训练数据中海量的关系证明,眼睛下方是鼻子,鼻子下方是嘴,所以模型很容易通过找寻匹配的方式画出与要求相近的答案。因为结果单一,但文字不然。比如我们提到一款手机,那与之相关的内容可能是电路板,可能是价格,可能是品牌,大模型需要不断地推理,找到最近似的结果。这就是所谓的扩散模型。

所以当给到模型的信息不全,或者存在很多隐含寓意的时候,模型就开始了一本正经地胡说八道,这就是我们常说的“模型幻觉”。

问题其实是在问我有多少个水果,Chat GPT回答为16,它没有正确理解“banana weighs 0.5 lbs and I have 7 lbs”这句话的含义,正确答案应该是7/0.5+9=23个。

看多了大模型不着边际的答案以及一本正经的胡说八道之后,我们甚至会怀疑号称颠覆性的大模型技术,连小学数学都做不利索,到底行不行?

答案是肯定的,大模型在很多专业领域,尤其是尖端科学领域,依然是人类社会的希望。

海量数据的处理能力

虽然在大模型之前也有类似的数据中心、超级计算机,但是其本质区别还是方法。传统的方法是查找与匹配,找到近似的结果给用户展示,大模型的工作机制除了查找与匹配之外还有推理,简单说就是能够像人一样思考。这样给出的结果更加精确。

泛化能力

我们都遇到过使用百度的时候搜不到结果的情况,是因为对于未知数据确实是找不到结果的,机器也给了正确的返回。但其实机器并没有思考输入问题的本质,大模型可以通过不断地理解和泛化,适应新的未曾见过的数据。

自我学习进化能力

目前人类自诞生以来有文字记载的各种知识、数据、资料都可以作为训练的数据,以Chat GPT - 4o为例,据OpenAI表示大概已经把目前人类的知识都看过一遍了。模型本身会不断进化,这个过程时刻都在发生。

基于这些强大基因,大模型已经被应用于很多专业领域,并取得了前人无法企及的成果。

一群来自上海财经大学、哈尔滨工业大学(深圳)、北京语言大学、西安电子科技大学、加拿大皇后大学以及万得信息技术有限公司的博士生和工程师收集了超过三万七千个问题,以及对应的超过8万条人类专家回答和超过4万条Chat GPT回答。覆盖了开放域、计算机、金融、医疗、法律、心理学等多个领域。对比大模型和专家的作答。评判标准是在双盲的情况下看谁的答案更加有用?结果如下:

大模型的答案略胜于人类专家,但是如果被评测者被告知哪个是大模型的话,结果是专家答案反超20%。可见大模型在专业知识方面接近人类专家水平,专家的优势在于能够简明扼要,直指核心,而大模型的回答略显拖沓和格式化。

心理学领域,大模型在情感上比人类更中立,甚至偏积极,能够更好地提供情绪支持和疏导。

在表述的方式上,人类比大模型拥有更大的词汇量且回答更加简短。

除了普遍的语言问答,大模型在推理上也是大放光彩。

Google DEEP MIND 公司的Alphafold3发布, 生物领域Al即将参与人类的生老病死

一款药物从开始研发到上市销售要经历漫长的时间,极端情况下,有些科学家甚至都看不到“孩子”上市就已经离世。更别说研发期间巨大的资金消耗。所以像《我不是药神》中提到的“格列卫”,也经历了漫长的岁月。而作为垄断企业的药企,显然不会轻易地交出专利。

但大模型的出现让这个过程至少提高了36%的速度,其重要的功能就是在推测先导药物分子式这一过程中,通过模型极强的学习和推理能力,极大地加快了发现新的分子式(新药物基础)的过程。

也许几年后就会有无数种新药问世,它们可以治疗多种目前束手无策的病症,并大幅降低研发成本,而最终受益的依然是患者和家属。整个人类群体的寿命和生活质量也将同步提升。

前几天openAI宣布禁止中国地区用户使用API(应用编程接口)方式访问其服务,技术垄断的背后,中国也在不遗余力地研发自己的技术。在同样的技术背景下,其商业模式以及对用户的影响,中美可能会走上两条不同的路线。

如果回顾一下AI的上一波浪潮,即移动互联网,不难发现,同样的技术和终端,在商业模式上走上了两条不同的道路。

细数移动互联网诞生的十余年里,以原创产品为标准。中国涌现出了支付宝,字节跳动,美团网,共享自行车,短视频,直播带货,手机游戏等。反观美国企业则主要集中在生态和更上游,比如硬件制造的苹果,操作系统安卓和iOS,云服务器等,元宇宙等。

再看当下的AI生态,中国的公司更聚焦在终端用户的身上,比如AI虚拟人、AI绘图作画、AI写ppt、AI做淘宝模特图、AI试衣等等。并把上一波浪潮中的经验完美融合其中,比如会员制订阅收费、营销手段等等。移动互联网“先圈用户再赚钱”这个逻辑一直被默默地继承了下来。

AI作图的生硬“直译”

诚然,美国也有多如牛毛的类似公司,比如C.AI(虚拟人)、Notion(写作)、Replica(元宇宙)、Cavana(创意),但是目前在硅谷投资行业中更为投资人看好的,并已经实现盈利的却是一些“to B”(面向企业)的生意。有个很生动的例子,阐释了AI的巨大作用。

美国有一种工伤保险,当员工因公受伤在家休养期间,保险公司会支付50%的薪水给员工,该保险由企业投保,员工受益。但是在被保险客户中,其伤愈的时间是因人而异的,很多人并不知道自己已经可以回去上班领全额的薪水,也不知道自己的医疗到何种阶段。这项工作以前是由人工完成的,即保险公司致电每一个可以或即将可以上班的员工返回工作岗位。显然这是极其低效的。AI应用在电话回访之后极大地提高了效率和准确性,AI接收医院的医疗信息,找出对应的被保险人,然后拨打电话,无需任何人为干预,一天可以打几百上千个电话。而一旦被保险人返回工作,保险公司便可以停止支付工伤期间的薪水。据统计一年下来,仅这一项应用为该公司节省了至少6000万美元的保费。

所以,一个现存的需求,利用AI的高效率解决问题。这种生意显然Open AI不会做,马斯克也不会做,足够的垂直和足够大的体量,是极度受投资者青睐的。

反观中国对于AI的投资,呈现两种截然不同的境遇,其一是大厂做AI,不差钱但不能错过风口,担心“别人有我没有”是战略决策失误,怕被落下。另一种是大模型套娃,大多雷同,投资人认为门槛低复制简单,也没有竞争优势,绝大多数被冷遇。

留给中国大模型的机会很多,参加高考不过是牛刀小试,成绩也不会像很多人进了复读班一样,不升反降。AI能为人类提供更精密的推导,更厉害的算力,我们很高兴能看到这些被应用在药物研究、外太空探索之上。

电影《流浪地球》中的 人工智能MOSS

但就像一个孩子说的一样:科技是为人类服务的。大模型的出现,是希望能够给人类提供更多的机会和便捷的生活方式,而不是以一些急功近利的方式,去剥夺人们赖以生存的手段。或许,智能驾驶是解决交通拥堵和未来人类出行的手段,但挤占人类的生存空间的方式,显然不是人工智能的初衷。

END



来源:微信公众号“三联生活实验室”

作者:Jimmy

编辑:潘茜、杨敏(实习)

【声明:本号为“全民阅读推广”官方公益账号,转载此文是出于传递更多信息之目的。若有来源标注错误或其它不妥之处,请联系我们。我们将及时更正。谢谢】

【2024今晚澳门开什么号码】 【新澳门精准10码中特】
【2024年香港开奖结果记录】 【香港今晚六给彩开奖结果八十九期】
【2024澳门正版开奖结果】 【澳彩机密六码中特】
【新澳好彩免费资料查询2024期】 【新澳门最快开奖记录】
【今晚澳门开奖结果开奖记录表65】 【香港近15期开奖记录MBA智库百科】
【2024澳门特马今晚开奖香港】 【2024天天开好彩大全正版】 【2024年新澳门天天开彩大全】
上一条新闻 下一条新闻

推荐文章

发表评论

万斯布兰顿

9秒前:而随着技术的进步,大模型的进步已经能够给出这类抽象问题的答案,但如果你问点复杂的,大模型还是会胡扯。

IP:88.45.1.*

Yi

1秒前:一群来自上海财经大学、哈尔滨工业大学(深圳)、北京语言大学、西安电子科技大学、加拿大皇后大学以及万得信息技术有限公司的博士生和工程师收集了超过三万七千个问题,以及对应的超过8万条人类专家回答和超过4万条Chat GPT回答。

IP:98.69.3.*

Yuexi

8秒前:显然这是极其低效的。

IP:12.25.3.*

中新经纬APP介绍

APP图标

澳门开奖结果开奖记录表888APP名:中新经纬

版本:V7.13.691

更新时间:2024-10-11 16:17

二四六香港管家婆期期准资料大全这是一个功能强大的2024今晚澳门码特开什么号码APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:看多了大模型不着边际的答案以及一本正经的胡说八道之后,我们甚至会怀疑号称颠覆性的大模型技术,连小学数学都做不利索,到底行不行?

2024新奥马新免费资料APP介绍

APP图标

澳彩资料免费的资料大全wweAPP名:中新经纬

版本:V4.86.344

更新时间:2024-10-11 13:23

无论是澳门今晚必开一肖快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2024特马最新开奖结果APP介绍

APP图标

新澳门彩最新开奖记录28鼠APP名:中新经纬

版本:V4.96.124

更新时间:2024-10-11 15:22

4949开奖免费大全应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

新奥资料免费精准2024APP介绍

APP图标

2024今晚澳门开特马开49图库APP名:中新经纬

版本:V7.79.957

更新时间:2024-10-11 23:16

204年新奥开什么今晚这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

最准一肖一码一一孑中特APP介绍

APP图标

二四六香港天天开彩大全APP名:中新经纬

版本:V6.65.175

更新时间:2024-10-11 18:22

这是一款功能强大的新澳门开奖号码2024年开奖结果应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:5分,其后依次是百度文心一言4.。无论是获取信息还是提升效率,这款APP都是您理想的助手。

新澳门澳精准大全APP介绍

APP图标

2024香港今期开奖号码APP名:中新经纬

版本:V1.26.941

更新时间:2024-10-11 17:19

这是一款功能强大的2024澳门特马今晚开奖记录应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:试着把大模型的写作给专业的阅卷老师看,得到了如下回复。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2024年开码结果澳门开奖APP介绍

APP图标

新澳门直播现场开奖直播视下大全APP名:中新经纬

版本:V5.24.865

更新时间:2024-10-11 13:16

这是一款功能强大的2024澳门开奖结果查询应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:0的537.,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

澳门内部一码精准公开网站APP介绍

APP图标

2024新奥开奖记录39期APP名:中新经纬

版本:V3.28.693

更新时间:2024-10-11 17:21

今天的最新动态包括:泛化能力我们都遇到过使用百度的时候搜不到结果的情况,是因为对于未知数据确实是找不到结果的,机器也给了正确的返回。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

新奥全部开奖记录查询APP介绍

APP图标

2024今晚香港开特马37期APP名:中新经纬

版本:V8.86.800

更新时间:2024-10-11 19:20

这是一款功能强大的2024澳门天天开好彩大全开奖记录应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.。

2024年澳门管家婆今晚开什么APP介绍

APP图标

2024年澳门天天开好彩大全APP名:中新经纬

版本:V5.69.449

更新时间:2024-10-11 14:22

这款功能强大的2024年澳门六开彩开奖结果直播应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

澳新彩近39期开奖记录APP介绍

APP图标

2024澳门精准正版APP名:中新经纬

版本:V9.75.141

更新时间:2024-10-11 18:19

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

2024澳门六开彩开奖结果查询表APP介绍

APP图标

新澳门最快开奖结果开奖APP名:中新经纬

版本:V5.83.878

更新时间:2024-10-11 23:16

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。