中国财富网2024年10月12日发布:五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

⭐发布日期:2024年10月12日 | 来源:中国财富网

⭐作者:鈴木すぅー 责任编辑:Admin

⭐阅读量:613 评论:1人

【2024管家婆资料正版大全】

【澳门今晚开精准四不像2023年】

【2024澳门六今晚开奖结果出来新】 【澳彩机密六码中特】 【2024年新澳开奖记录】 【2023澳门天天六开彩开奖结果】 【2024新澳精准资料免费提供】 【一码一码中奖免费公开资料】 【4949开奖免费大全】 【2024新澳门特马今晚开什么】
【2024澳门六开彩最简单处理】 【新澳门一码精准必中大公开】 【2024澳门历史记录】 【新奥历史开奖记录查询】 【新澳门直播开奖直播免费观看】 【2024年开奖结果新奥今天挂牌】 【今晚新澳门特马开什么生肖】 【澳门今晚开奖结果是什么香】

每经记者:郑雨航 每经编辑:程鹏,兰素英

传说中的“草莓”模型今天在没有任何预告下忽然上线了!

OpenAI最新发布的模型名为o1,是系列推理模型的首批版本,现阶段推出的是o1-preview(预览版)和o1-mini(迷你版)。

目前,o1-preview和o1-mini已经面向ChatGPT Plus和Team订阅用户开放,而Enterprise和Edu用户将于下周初获得访问权限。OpenAI表示,它计划向ChatGPT的所有免费用户提供o1-mini访问权限,但尚未确定发布日期。

据OpenAI介绍,在解决问题的能力方面,o1模型比以往任何模型都更接近人类思维,并且能够“推理”数学、编码和科学任务。

为了验证新模型的能力是否正如OpenAI所宣称的那么强大,《每日经济新闻》记者从经典“草莓测试”、代码编写、小游戏制作、数学与经济学,以及事实性知识这五大维度对o1-preview模型进行了测试。

结果显示,o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理能力。例如,o1-preview能够编写出流畅运行的代码,并且在复杂环境中依然能够自行推理出解决方案。而且,记者在测试过程中也感觉到,o1-preview在人性化方面也有很大的提升,表现出了真人般的思考。不过,新模型也并非毫无缺点,在事实性知识测试就“翻车”了。

传说中的“草莓”来了

当地时间9月12日,OpenAI发布了一款名为o1的新模型,这是其计划中一系列“推理”模型中的第一个版本,也是此前业界盛传已久的“草莓”模型。

对于OpenAI来说,o1代表着它朝着类人AI的目标又迈出了一步。OpenAI认为,o1代表着一种全新的能力,这一能力被认为如此重要,以至于公司决定从当前的GPT-4模型重新开始,完全放弃了“GPT”品牌,从1开始命名。

OpenAI表示,将从当前的GPT-4模型重新开始,“将计数器重置为 1”,甚至放弃了迄今为止定义了聊天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过一系列离散步骤,谨慎而合乎逻辑地解决问题的系统,每个步骤都建立在上一个步骤的基础上,类似于人类的推理方式。

OpenAI首席科学家Jakub Pachocki表示,之前的模型在收到用户问询时会立即开始回答。“而这个模型(指的是o1)会慢慢来。它思考问题,并尝试分解问题,寻找角度,努力提供最佳答案。”这就像大多数人在幼年时被父母所要求的那样,先想好再说话。

OpenAI表示,o1在竞赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIME)预选赛中位列美国前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超过了人类博士水平的准确度。

在OpenAI发布的研究和博客文章中,o1看起来“推理”能力十分强大,不仅可解决高级数学和编码问题,还能解密复杂的密码,以及解答来自专家学者们关于遗传学、经济学和量子物理学的复杂问题。大量图表显示,在内部评估中,o1在编码、数学和各个科学领域的问题上已经超越了公司最先进的语言模型GPT-4o,甚至可能超越了人类。

代码编写、游戏制作等能力“惊艳”

为了深入了解o1模型的强大能力,《每日经济新闻》记者从经典草莓测试、代码编写、小游戏制作、数学与经济学,以及事实性知识这五大维度对o1-preview模型进行了测试。

1)草莓测试

首先,记者用之前几乎所有大模型都“翻车”的一道简单题目进行了测试,即“单词strawberry里面到底有几个r”。从生成的结果看,o1-preview还是带来了一点小惊喜的。

2)代码编写

记者首先向o1-preview询问了一个在线编程平台leetcode里最有名的简单算法题:Two Sum(两数之和)问题。o1给出了很详尽的推理过程和答案。

随后记者故意要求优化答案,o1在思考9秒后意识到自己提供的已经是最优解法了,并就此进行了说明,另外还很“贴心”地提供了一个次优解。而在之前记者对其他模型的测试中,这些模型只会道歉然后将答案更改为次优解。

3)小游戏制作

在o1模型的演示中,OpenAI演示过“用一句话编写小游戏”的功能。测试过程中,记者让o1-preview帮忙介绍好用的代码工具,并协助编写一个乒乓小游戏。

o1-preview仅用了19秒就给出了一份能够流畅运行的代码,并且附上了学习指南和鼓励的话语,非常地人性化。

为避免o1-preview作弊,使用的是记忆能力,而不是使用推理能力进行回答,记者还请求o1-preview更换了一个代码运行环境:jupyter note。这一运行环境是针对数据分析进行特化的python环境,开发人员基本不会使用此环境开发小游戏。

经过思考后,o1依然给出了一个可以运行的代码。不过,相较于之前的代码,这份答案有着不少的bug,但这也从侧面说明这确实是思考出来的答案,而不是训练过程中加入的标准答案。

为进一步验证o1-preview的创新推理能力,记者随后又要求模型在这个小游戏的基础上开发一个更复杂有趣的小游戏。

这下,o1的表现真的有点惊喜。根据乒乓游戏的碰撞机制,该模型自行迭代出了一个向上登高的跳跃游戏。一般其他大模型需要用户把需求描述清楚才会输出一个比较好的答案,但记者在这次测试中没有进行任何的额外提示,o1就输出了一个能流畅运行,并且在记者眼中看来也足够有趣的小游戏。

4)科学类测试

在科学类测试方面,记者重点测试了o1-preview在数学和经济学上的表现。

首先,记者抛出的是一个数学推理问题,向o1-preview询问解决欧拉方程有限时间爆破的可能方法(这是著名华裔数学家、菲尔兹奖得主陶哲轩教授本周才发表的讨论文章)。

o1虽然没有给出明确解法,但却提供了一个解题思路,这一思路和陶哲轩教授文章部分吻合(虽然很少)。

经济学方向上,记者向o1-preview询问了一个复杂的经济系统问题。从给出的反馈看,基本没有什么太大的问题,整体逻辑清晰,思考维度也是多样化的,给出的数学公式虽然有一点小差错但是无伤大体。

5)事实性知识与语言理解

在这一环节,记者向o1-preview询问了明朝第一任皇帝的趣事,但o1就将趣事理解成了历史上实际发生过的事情,将朱元璋的历史故事整个叙述了出来。

同时,记者也将这一问题丢给了GPT-4o模型,作为对比,GPT-4o能很好地理解记者的问题,并讲了两个流传很广的民间小故事。

总体来看,OpenAI宣称o1模型能接近人类水平在某些方面上看起来并不是虚话。

最让记者惊喜的是,OpenAI将模型思考的过程用文字展示给了用户,文字思考过程中,大模型大量使用了“我正在”“我认为”“我打算”等话语,感觉更加拟人化,就像一个真人在用户面前阐述自己的思考逻辑一般。

但这也并不意味着o1模型就是完美的。OpenAI也承认,在设计、写作、编辑文字等方面上,o1远不如GPT-4o。o1也没有浏览网页或处理文件和图像的能力。

而最让记者感到头疼的是,即使是一个很简单的请求,比如说将输出结果转换为中文,o1都会消耗十几秒钟的时间来思考,而GPT4o就会很快处理好这一请求。

就算在OpenAI的优势领域中,o1模型也会突然出现性能下降,模型输出懒惰的情况。已离职的OpenAI创始人Karpathy就吐槽道:“它一直拒绝为我解决黎曼假说。模型懒惰仍然是一个主要问题。”

OpenAI表示,公司会在之后的更新中解决这些问题,毕竟现在这只是推理模型的早期预览。

记者|郑雨航 岳楚鹏(实习)

编辑|程鹏 兰素英 杜恒峰

校对|刘小英

|每日经济新闻 nbdnews 原创文章|

未经许可禁止转载、摘编、复制及镜像等使用

每日经济新闻

【新澳门2024开奖】 【2024澳门开奖历史记录结果查询表】
【2024新澳门历史开奖记录查询结果】 【澳門一肖一碼100%精准王中王】
【2024年新澳门开码历史记录】 【2024天天彩资料大全免费】
【今晚澳门特马开的什么号码】 【7777788888新澳门正版】
【2024澳门特马开奖号码】 【2024澳门六开彩查询记录】
【新澳开奖结果记录史免费】 【澳门六开彩天天正版资料查询】 【4949澳门开奖现场+开奖直播】
上一条新闻 下一条新闻

推荐文章

发表评论

Nong

1秒前:对于OpenAI来说,o1代表着它朝着类人AI的目标又迈出了一步。

IP:94.85.2.*

罗比·凯

5秒前:OpenAI认为,o1代表着一种全新的能力,这一能力被认为如此重要,以至于公司决定从当前的GPT-4模型重新开始,完全放弃了“GPT”品牌,从1开始命名。

IP:41.85.9.*

Pea

8秒前:” OpenAI表示,公司会在之后的更新中解决这些问题,毕竟现在这只是推理模型的早期预览。

IP:69.71.4.*

中国财富网APP介绍

APP图标

新澳门最新快资料APP名:中国财富网

版本:V7.92.846

更新时间:2024-10-11 20:23

澳门最新开奖结果开奖这是一个功能强大的新澳天天开奖资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:总体来看,OpenAI宣称o1模型能接近人类水平在某些方面上看起来并不是虚话。

2024年香港今晚开奖结果查询表APP介绍

APP图标

新澳资料免费精准2024APP名:中国财富网

版本:V3.95.964

更新时间:2024-10-11 16:21

无论是一肖一码100准管家婆快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2024年今晚澳门开奖结果APP介绍

APP图标

新澳门今晚开特马开奖APP名:中国财富网

版本:V8.34.781

更新时间:2024-10-11 16:24

新澳六开彩资料2024应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

2024澳门开奖结果出来APP介绍

APP图标

2024澳门天天开好彩大全53期APP名:中国财富网

版本:V2.73.551

更新时间:2024-10-11 21:21

2024今晚香港开特马37期这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

2024澳门码今晚开奖结果记录APP介绍

APP图标

2024年新澳门王中王开奖结果APP名:中国财富网

版本:V4.73.690

更新时间:2024-10-11 23:20

这是一款功能强大的2024澳门今晚开奖号码应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:而最让记者感到头疼的是,即使是一个很简单的请求,比如说将输出结果转换为中文,o1都会消耗十几秒钟的时间来思考,而GPT4o就会很快处理好这一请求。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

新奥门资料大全正版资料2023APP介绍

APP图标

2024新澳今晚资料APP名:中国财富网

版本:V1.15.753

更新时间:2024-10-11 24:21

这是一款功能强大的2024澳门天天开好彩大全应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:结果显示,o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理能力。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

新澳六开彩开奖号码记录乾坤未定APP介绍

APP图标

2024澳门天天开好彩APP名:中国财富网

版本:V1.74.509

更新时间:2024-10-11 19:21

这是一款功能强大的澳门彩开奖结果2024开奖记录应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:从生成的结果看,o1-preview还是带来了一点小惊喜的。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

澳彩天天开彩近期记录APP介绍

APP图标

8383848484管家婆特中APP名:中国财富网

版本:V7.60.588

更新时间:2024-10-11 21:23

今天的最新动态包括:根据乒乓游戏的碰撞机制,该模型自行迭代出了一个向上登高的跳跃游戏。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

香港期期准资料大全APP介绍

APP图标

香港近15期开奖记录MBA智库百科APP名:中国财富网

版本:V4.81.208

更新时间:2024-10-11 16:19

这是一款功能强大的2024新奥免费资料网站应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:每经记者:郑雨航 每经编辑:程鹏,兰素英传说中的“草莓”模型今天在没有任何预告下忽然上线了!。

澳门六开彩开奖结果查询2021年APP介绍

APP图标

新澳门六开彩开奖结果2020年APP名:中国财富网

版本:V2.74.273

更新时间:2024-10-11 13:19

这款功能强大的新澳门精准四肖期期中特公开应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

澳门码今晚开的什么APP介绍

APP图标

2024澳门特马今晚开奖结果出来APP名:中国财富网

版本:V4.84.168

更新时间:2024-10-11 19:15

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

澳门平特一肖100%准资手机版下载APP介绍

APP图标

新澳门历史开号记录APP名:中国财富网

版本:V8.28.299

更新时间:2024-10-11 23:19

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。