目录
概述
目录
有什么大不了的?
Openai O1的用例
令人印象深刻的测试结果
高级数学比赛
科学专业知识
编码
其他基准和视觉理解
了解视觉信息(视觉感知)
医学成像测试(MMMU基准)
广泛的知识(MMLU基准)
认识O1-Mini
使用O1 mini的数学
谁可以使用O1-preiview?
如何访问O1-preview?
安全也很重要
接下来是什么?
最后的想法
首页 科技周边 人工智能 Openai O1:一种在回答问题之前'思考”的新模型

Openai O1:一种在回答问题之前'思考”的新模型

Apr 13, 2025 am 09:26 AM

你听到了大新闻吗? Openai刚刚推出了一系列新型AI模型的预览 - OpenAi O1 (也称为草莓/Q*)。这些模型很特别,因为它们在给您答案之前花费更多的时间“思考”。这意味着与早期模型相比,他们更好地解决了科学,编码和数学等领域的真正棘手问题,这在很大程度上要归功于先进的OpenAI O1参数

Openai以O1系列的方式将座右铭“思考”以“思考”

概述

  • Openai的新O1模型系列在数学,科学和编码方面的棘手问题上表现出色,使以前的版本超出了以前的版本。
  • O1概览模型可以解决高级任务,解决了93%的AIME数学问题并超过了科学基准的人类专家。这些成功的大部分取决于如何有效地设置OpenAI O1参数来处理复杂的任务。
  • Openai的O1-Mini以80%的成本提供了强大的编码功能,使其成为开发人员的可访问工具。
  • 通过改进的安全措施,O1模型确保了负责的AI使用,同时为研究人员,开发人员和教育者提供了增强的问题。

目录

  • 有什么大不了的?
  • Openai O1的用例
  • 令人印象深刻的测试结果
    • 高级数学比赛
    • 科学专业知识
    • 编码
    • 其他基准和视觉理解
  • 认识O1-Mini
  • 使用O1 mini的数学
  • 谁可以使用O1-preiview?
  • 如何访问O1-preview?
  • 安全也很重要
  • 接下来是什么?
  • 最后的想法

有什么大不了的?

O1-preiview模型经过训练,可以退后一步,并真正思考事物,就像面临棘手的问题时人类一样。他们考虑了不同的方法,完善自己的想法,甚至在此过程中遇到自己的错误。这种更深层次的思维水平使他们能够解决旧模型无法应付的问题。

Openai O1的用例

用Openai O1编码

用Openai O1编写难题

HTML蛇与Openai O1

令人印象深刻的测试结果

要查看与较早的GPT-4O模型相比,O1的更好,OpenAI使他们通过一系列艰难的测试,包括人类考试和机器学习基准。猜猜是什么? O1在大多数这些推理的任务中的表现都优于GPT-4O!

让我们分解一些结果:

高级数学比赛

他们在AIME(美国邀请赛数学考试)上测试了模型,这是美国顶尖学生的超级挑战性数学考试

  • GPT-4O :解决了大约12%的问题(大约15个问题中的1.8个)。
  • Openai O1 :每次尝试仅一尝试就解决了74% (大约15个中的11.1)。当他们让模型多次尝试并取出最常见的答案时,它得分为83% 。使用更高级的方法,它达到了93% ,解决了15个问题中约13.9个!

综上所述,在全国500名学生中,将获得13.9的成绩,超过美国数学奥林匹克运动会的临界。那是一些严重的脑力!

科学专业知识

他们还评估了O1在GPQA-Diamond上的O1,这是一种艰难的基准测试,可测试化学,物理学和生物学方面的知识。 Openai甚至引进了博士学位的专家来回答这些问题。

  • 结果:O1优于这些人类专家,成为第一个在此基准下这样做的AI模型!这表明O1可以在很高的水平上解决复杂的科学问题。

编码

在诸如CodeForces之类的编码竞赛中,新模型达到了第89个百分位,表明它们可以轻松生成和调试复杂的代码。

Openai O1:一种在回答问题之前'思考”的新模型

其他基准和视觉理解

但这不是全部! O1模型还显示了其他领域的显着改善:

了解视觉信息(视觉感知)

O1模型现在可以解释和理解图像 - 一种称为视觉感知的功能。这意味着它可以分析视觉数据并回答有关它的问题,这对于AI来说是一大步。

医学成像测试(MMMU基准)

Openai在一个名为MMMU的具有挑战性的基准上测试了O1(该基准(该基准)代表了多模式的医疗机器理解)。该测试评估了AI可以理解医学图像并进行准确评估的程度,类似于医疗专业人员执行的任务。

结果:O1在此测试中得分78.2% ,这使其成为第一个以与人类医学成像专家相当的水平执行的AI模型。这很大,因为理解和解释医学图像需要深厚的知识和精度。

广泛的知识(MMLU基准)

还对O1模型进行了测试,该模型在MMLU(大量的多任务语言理解)基准上进行了测试,该基准涵盖了57个不同的主题,从历史和文学到数学和计算机科学。

结果:O1在57名受试者中有54位优于GPT-4O!这表明O1不仅在一个领域中专业,还表明了广泛主题的理解得到了提高。

Openai O1:一种在回答问题之前'思考”的新模型

用更简单的话来说,O1能够同时了解文本和图像的能力意味着它变得更加通用和有能力。无论是分析复杂的医学图像,解决高级数学问题还是在各种主题上回答问题,O1都为AI做些什么制定了新的标准。

认识O1-Mini

Openai还推出了O1-Mini ,这是O1-Preigiew模型的较小,更快,更实惠的版本,特别擅长编码任务。它便宜80% ,这是对于需要强大推理能力的开发人员而无需破坏银行的开发人员的绝佳选择。

我们还发布了Openai O1-Mini,这是一种具有成本效益的推理模型,在STEM上表现出色,尤其是数学和编码。

- 2024年9月12日Openai(@Openai)

使用O1 mini的数学

另请阅读:Openai的O1-Mini:具有成本效益推理的STEM的改变游戏规则的模型

谁可以使用O1-preiview?

这些新型号是针对任何处理复杂问题的人的游戏规则改变者:

  • 研究人员和科学家:它们可以帮助注释细胞测序数据或在量子物理等领域中产生所需的复杂公式。
  • 开发人员:构建和执行多步骤工作流变得更加容易,更高效。
  • 学生和教育工作者:他们提供了一种探索数学和科学中具有挑战性概念的新方法。

如何访问O1-preview?

Chatgpt Plus和团队用户:您可以从今天开始访问ChatGPT中的O1-preview和O1-Mini模型。只需从模型选择器中选择它们即可。目前有每周的消息限制(O1-preiview的30条消息,O1-Mini的50条消息),但Openai正在努力尽快增加这些限制。

Openai O1:一种在回答问题之前'思考”的新模型

  • CHATGPT Enterprise和EDU用户:从下周开始,您将可以访问这两种型号。
  • 开发人员:如果您处于API使用层5,则可以立即通过API开始尝试这些模型。某些功能诸如函数调用和流媒体之类的功能尚不可用,但是它们正在路上。
  • chatgpt免费用户:好消息! OpenAI计划使所有自由用户都可以使用O1-Mini。

安全也很重要

Openai还通过这些型号提高了安全功能。他们已经接受了培训,以更好地理解和遵循安全指南,通过对对话期间的规则进行推理。这意味着他们不太可能被欺骗去做他们不应该做的事情(您可能听说过“越狱”的AI模型)。

在艰难的安全测试中,O1-preview模型得分为100分,而GPT-4O的得分为22 。这是一个重大的改进,表明他们倾向在安全和适当的界限范围内更好。

Openai与美国和英国的安全组织紧密合作,他们甚至鉴于这些机构的早期访问模型,以帮助研究并确保一切都达到标准。

接下来是什么?

这只是开始。 Openai正在计划对这些模型进行定期更新和改进。他们正在寻找添加诸如浏览网络,上传文件和图像之类的功能,以及更多的功能,以使它们更有帮助。

他们还继续在GPT系列中与这个新的O1系列一起开发模型,因此有很多期待。

最后的想法

在AI世界中,O1-preview和O1-Mini模型的推出是一件大事。它们代表了AI如何通过复杂问题推理的重要一步。通过更好的性能和增强的安全措施,这些模型将成为许多从事挑战任务的人的游戏改变者。

请继续关注Analytics Vidhya博客,以了解有关O1和O1 Mini的用途的更多信息!

以上是Openai O1:一种在回答问题之前'思考”的新模型的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

最佳AI艺术生成器(免费付款)创意项目 最佳AI艺术生成器(免费付款)创意项目 Apr 02, 2025 pm 06:10 PM

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

最佳AI聊天机器人比较(Chatgpt,Gemini,Claude&更多) 最佳AI聊天机器人比较(Chatgpt,Gemini,Claude&更多) Apr 02, 2025 pm 06:09 PM

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

Chatgpt 4 o可用吗? Chatgpt 4 o可用吗? Mar 28, 2025 pm 05:29 PM

Chatgpt 4当前可用并广泛使用,与诸如ChatGpt 3.5(例如ChatGpt 3.5)相比,在理解上下文和产生连贯的响应方面取得了重大改进。未来的发展可能包括更多个性化的间

顶级AI写作助理来增强您的内容创建 顶级AI写作助理来增强您的内容创建 Apr 02, 2025 pm 06:11 PM

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

构建AI代理的前7个代理抹布系统 构建AI代理的前7个代理抹布系统 Mar 31, 2025 pm 04:25 PM

2024年见证了从简单地使用LLM进行内容生成的转变,转变为了解其内部工作。 这种探索导致了AI代理的发现 - 自主系统处理任务和最少人工干预的决策。 Buildin

选择最佳的AI语音生成器:评论的顶级选项 选择最佳的AI语音生成器:评论的顶级选项 Apr 02, 2025 pm 06:12 PM

本文评论了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高级AI语音生成器,重点介绍其功能,语音质量和满足不同需求的适用性。

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

See all articles