首页 / 文化 / 正文

OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍。

2024-12-22 07:38 阅读量:7.9万+

华人号：文化圈儿

今天凌晨2点，OpenAI的12天直播，终于来到了最终章。

奥特曼，也在一片圣诞的气息中终于回归。

为大家带来了最后的压轴大戏。

OpenAI o3。

又一次超群，又一次把模型的能力，推到了新的高度。

也向全世界证明了，OpenAI，依然在铁王座上牢不可摧。

我也想起了OpenAI研究员在发布o1之前的那句话：

“我们通往AGI的路上，已经没有任何阻碍了”

之所以OpenAI直接发布o3没有o2，原因也挺简单的。

因为跟英国电信服务提供商O2可能存在版权或商标冲突，所以直接跳过了。。。

直接到o3。

而OpenAI直播一完，X上基本就沸腾了。

o3的能力，对现在所有模型，几乎都直接是降维打击。

看下o3的能力吧。

一些粗的评测集简单过一下。

左边的是软件工程考试（SWE-Bench Verified），这就像是一个考写程序的考试，比如你写一个软件要它快速、准确，还不能有 bug（小错误）。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。

o3 的成绩：71.7%，比o1还强了不少。

右边的那个基准比较猛，Codeforces，一个全球著名的编码竞赛平台。

o3的得分是2727，这个得分，相当于整个榜单的第175名，已经超越了99.99%的人类了。

o1的代码能力已经强到爆炸了，而o3，又向AGI的山顶，前进了一大步。

数学竞赛AIEM 2024和博士级科学考试GPQA Diamond。

AIEM 2024接近满分，如果我没记错的话，这应该也是第一次AI能达到有AIEM接近满分的水平。

博士级科学考试有进化，但没数学和编程进化的这么猛。

接下来的这个数学基准比较有趣一点。

FrontierMath，Epoch AI 开发的一个数学基准测试，由60多位顶尖数学家的合作开发，旨在评估人工智能在高级数学推理方面的能力。

而且为了避免数据污染，所有的题目都是原创的且从来没有发布过的新题目。

之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候，成功功率不足2%，与其他传统数学基准（如 GSM-8K 和 MATH）中超过90%的成功率形成鲜明对比。

而这一次，o3直接达到了25.2。

当各大其他模型都还在卷传统数学基准的时候，o3真的已经进入了另一个世界了。。。

就像大家还在大斗师阶段互相卷，你是五星大斗师，我是八星大斗师。

两者争论不休，正准备要比试比试，忽然就看到一个斗宗强者踏空而行，留下一地的卧槽。

这还比个鬼。

然后，就是我觉得，整个基准里，最有趣的一个基准了：

ARC-AGI。

先说说这是个啥玩意。

ARC-AGI于2019年首次提出，旨在通过一系列抽象和推理任务来测试AI系统的能力。

主要是因为传统的技能测量方法并不能有效代表智能，因为它们往往依赖于先前知识和经验，而真正的智能应体现在广泛的适应能力和通用性上。

所以，ARC-AGI诞生了，里面的这些任务要求AI识别模式并解决新问题，每个任务由输入输出示例组成。这些任务以网格形式呈现，每个方块可以是十种颜色中的一种，网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出，测试其推理和抽象能力。

可以简单的理解成，找规律。

大概就是这样的。

非常的难且抽象。

过去几代模型的评分在此：

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): ~50%

但是今天，o3的分数，达到了恐怖的87.5%。

从0%到5%，整整花了5年的时间，而如今，从5%到87.5%，仅仅只花了半年。

而对应的，人类的阈值分数，是85%。

我们通往AGI的路上，已经没有任何阻碍了。

不过o3强归强，但是又是一个期货，OpenAI目前只对红队开放，如果是巨佬的话，可以去申请试试。

网址在此：https://openai.com/index/early-access-for-safety-testing/

目前不知道o3什么时候放出，但是OpenAI又基于o3，训了3个小尺寸的o3模型。

目前o3-mimi，预估在1月底可以对外开放，但是感觉到时候，肯定又是pro会员专属的模型了。

我越来越期待，2025年AI行业的进化了。

推理模型、Agent、AI硬件、世界模型。

每一个都是比这个中间态的2024，都更让人兴奋的东西。

2025，必是AI行业，真正的星辰大海。

我们也在最后，回顾一下这12天的直播吧。

Day 1：满血o1上线，ChatGPT Pro会员上线，o1 pro推出。

Day 2：基于o1的强化微调。

Day 3：Sora正式发布。

Day 4：ChatGPT Canvas全员开放以及小功能更新。

Day 5：给苹果站台，宣传苹果全系接入GPT。

Day 6：4o的实时视频理解上线。

Day 7：ChatGPT发布新建文件夹“项目”功能。

Day 8：ChatGPT Search全量开放，搜索体验大幅优化。

Day 9：发布了o1的API、更新了实时语音的API、发布了偏好微调能力（PFT）。

Day 10：物理意义上的可以给ChatGPT打电话了。

Day 11：炒冷饭，ChatGPT 桌面版能读到别的应用。

Day 12：OpenAI o3正式发布。

这12天，稍微有点惊喜的日子大概只有2、3天，其他都是垃圾时间。

还好，今天的大货，补上了之前的阴霾。

最后，还是忍不住感叹一声。

这12天，像一场漫长的马拉松。

我们经历了深夜中数不胜数的垃圾时间。

却也迎来了最后的高光时刻。

这感觉。

还挺AI的。

以上就是小编为您分享《OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍。》的全部内容，更多有关埃及华人最新消息、新闻，请多多关注华人头条文化频道。您还可以下载我们的手机APP，每天个性化推荐你想要看的华人资讯！

免责申明

1、本站（网址：52hrtt.com）为用户提供信息存储空间等服务，用户保证对发布的内容享有著作权或已取得合法授权，不会侵犯任何第三方的合法权益。

2、刊载的文章由平台用户所有权归属原作者，不代表同意原文章作者的观点和立场。

3、因平台信息海量，无法杜绝所有侵权行为，如有侵权烦请联系我们（福建可比信息科技有限公司邮箱：hrtt@52hrtt.com），以便及时删除。

举报收藏点赞

评论 (0条)

您需要登录后才能评论，点击此处进行登录。

登录后评论

埃及

中国

国际

侨务

财经

出国

土耳其埃及索马里发生多起爆炸袭击埃及总理马德布利在内阁会议后的发布会上，发生短暂昏厥卢克索卡纳克神庙现冬至奇观，日出阳光与神殿的所有轴线对齐美国授权向埃及出售价值50亿美元武器，包括555辆M1坦克，2183枚空对地导弹等欧盟批准向埃及发放第一笔10亿欧元的贷款，总额为74亿欧元 2025年埃及法定节假日表美国军方宣布一架飞机在红海上空被击落埃及央行将于12月26日召开今年最后一次议息会议埃及央行发行价值550亿埃镑的国库券

【长弓】生查子·囯士叹

中华古典诗词13分钟前

聆听自然之声，守护人类家园｜欧盟环境司司长呼吁青年人为自然发声携手保护自然

英伦飞鸿1小时前

七律•即景感怀

东张西望客1小时前

同气连枝共绘华章港澳校长“知行吉林”游学开发活动综述

华人头条-南非3小时前

11年来伊朗总统首访埃及与埃及总统举行会谈

埃及外长会见泰达控股董事长曲德福

11年来首次！伊朗总统将访问埃及

王毅会见阿拉伯各国驻华使节

作为糖尿病大国，埃及成功实现本土生产胰岛素，将满足1000多万糖尿病患者需求

美国授权向埃及出售价值50亿美元武器，包括555辆M1坦克，2183枚空对地导弹等

以色列计划将戈兰高地人口翻倍！埃及、沙特等多国表示谴责！叙利亚导弹基地和武器库再遭空袭

埃及专家：应对重重挑战 “全球南方”需要中国贡献

汇宇制药(688553.SH)药品获得埃及、西班牙、葡萄牙、德国上市许可

徐州所与开罗巴德尔大学共同签署谅解备忘录

下载华人头条

关于我们

服务热线 : 0591-83771172

ICP许可证号闽ICP备10203582号

闽公网安备35010202000536号

直播备案号闽ILS备201708250005

举报热线：0591-83771172

举报邮箱：hrtt@52hrtt.com

免责声明

1、本站（网址：52hrtt.com）为用户提供信息存储空间等服务，用户保证对发布的内容享有著作权或已取得合法授权，不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者，不代表同意原文章作者的观点和立场。
3、因平台信息海量，无法杜绝所有侵权行为，如有侵权烦请联系我们（福建可比信息科技有限公司邮箱：hrtt@52hrtt.com），以便及时删除。

分享