OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
今天凌晨2点,OpenAI的12天直播,终于来到了最终章。
也向全世界证明了,OpenAI,依然在铁王座上牢不可摧。
我也想起了OpenAI研究员在发布o1之前的那句话:
之所以OpenAI直接发布o3没有o2,原因也挺简单的。
因为跟英国电信服务提供商O2可能存在版权或商标冲突,所以直接跳过了。。。
o3的能力,对现在所有模型,几乎都直接是降维打击。
左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。
右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。
o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。
o1的代码能力已经强到爆炸了,而o3,又向AGI的山顶,前进了一大步。
数学竞赛AIEM 2024和博士级科学考试GPQA Diamond。
AIEM 2024接近满分,如果我没记错的话,这应该也是第一次AI能达到有AIEM接近满分的水平。
博士级科学考试有进化,但没数学和编程进化的这么猛。
FrontierMath,Epoch AI 开发的一个数学基准测试,由60多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。
而且为了避免数据污染,所有的题目都是原创的且从来没有发布过的新题目。
之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候,成功功率不足2%,与其他传统数学基准(如 GSM-8K 和 MATH)中超过90%的成功率形成鲜明对比。
当各大其他模型都还在卷传统数学基准的时候,o3真的已经进入了另一个世界了。。。
就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。
两者争论不休,正准备要比试比试,忽然就看到一个斗宗强者踏空而行,留下一地的卧槽。
然后,就是我觉得,整个基准里,最有趣的一个基准了:
ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。
主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。
所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。
从0%到5%,整整花了5年的时间,而如今,从5%到87.5%,仅仅只花了半年。
不过o3强归强,但是又是一个期货,OpenAI目前只对红队开放,如果是巨佬的话,可以去申请试试。
网址在此:https://openai.com/index/early-access-for-safety-testing/
目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。
目前o3-mimi,预估在1月底可以对外开放,但是感觉到时候,肯定又是pro会员专属的模型了。
每一个都是比这个中间态的2024,都更让人兴奋的东西。
Day 1:满血o1上线,ChatGPT Pro会员上线,o1 pro推出。
Day 4:ChatGPT Canvas全员开放以及小功能更新。
Day 7:ChatGPT发布新建文件夹“项目”功能。
Day 8:ChatGPT Search全量开放,搜索体验大幅优化。
Day 9:发布了o1的API、更新了实时语音的API、发布了偏好微调能力(PFT)。
Day 10:物理意义上的可以给ChatGPT打电话了。
Day 11:炒冷饭,ChatGPT 桌面版能读到别的应用。
这12天,稍微有点惊喜的日子大概只有2、3天,其他都是垃圾时间。
以上就是小编为您分享《OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。》的全部内容,更多有关埃及华人最新消息、新闻,请多多关注华人头条文化频道。您还可以下载我们的手机APP,每天个性化推荐你想要看的华人资讯!
免责申明
1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。