全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类
卷疯了卷疯了,大模型又变天了。
就在刚刚,全球最强AI模型一夜易主,GPT-4被拉下神坛。
Anthropic发布了最新的Claude 3系列模型,一句话评价:真·全面碾压GPT-4!
多模态和语言能力指标上,Claude 3都赢麻了。
用Anthropic的话说,Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准!
Anthropic,就是曾因安全理念不合,而从OpenAI「叛逃」出的员工组成的初创公司,他们的产品一再给OpenAI暴击。
这次的Claude 3,更是整了个大的,一次就发了三个模型——Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高。
我们可以根据自己的需求选择合适的模型,在智能水平、处理速度和成本之间取得最佳平衡。
目前,「超大杯」和「大杯」——Opus和Sonnet,已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。而「中杯」Haiku模型,也将很快推出!
如果你已经开通了Claude Pro,现在就可以直接使用性能最强大的王炸模型Claude 3 Opus了!
而Sonnet也已经可以通过Amazon Bedrock,以及Google Cloud的Vertex AI Model Garden使用。随后,Opus和Haiku也将在这两个平台上推出。
体验地址:https://claude.ai/chats
与此同时,为了介绍自家的这三款模型,Anthropic更是一口气发了一份长达42页的技术报告。
报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
全球最强LLM易主
Opus,是Claude 3系列中最先进的模型。
它在多项AI系统常用评估标准,包括本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K),均取得领先业界LLM的性能。
尤其是,Opus在处理复杂任务时,展现了几乎与人类相媲美的理解和表达能力,是AGI领域的领跑者。
Claude 3系列模型在分析预测、创建细微内容、代码生成,以及用西班牙语、日语、法语等非英语语言交流的能力上都实现了显著进步。
比如,通过与Claude 3练习对话,学习西班牙语。
以下是Claude 3系列模型与同行在多个能力评估基准上的对比:
可以看到,其中Claude 3 Opus模型性能完全碾压GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基准上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以与Gemini 1.0 Pro相抗衡。
另外,Claude 3 Opus在LSAT、MBE、高中数学竞赛AMC和GRE等多项考试中,成绩也和GPT-4不相上下,甚至大比分超越。
在几分钟内,Opus就化身为经济学专家,分析了全世界的经济情况。
比如,它可以分析出美国GDP在下一个十年可能的范围。
最小规模,3秒读完10k token论文
Claude 3系列模型能够支持实时用户交流、自动完成和数据提取等任务(需要立即且实时的反馈)。
在同类智能模型中,Haiku以其卓越的速度和成本效益成为市场上的佼佼者。
Haiku可以在不到3秒时间,阅读一个包含图表和图形的信息和数据密集型的研究论文(大约10k token)。
下图显示了Claude 3 Haiku在长达100万token的长上下文数据上的损失。
Anthropic预计,在模型发布后,其性能还将得到进一步的优化。
对大多数任务而言,Sonnet的处理速度是Claude 2和Claude 2.1的2倍,而且智能程度更高。
它特别擅长快速响应的任务,比如知识检索或销售自动化。
Opus虽然在速度上与Claude 2和2.1持平,但其智能水平有了显著提升。
多模态视觉能力,也是一绝
另外,值得一提的是,Claude 3系列模型具备与其他领先模型相媲美的高级视觉识别能力。
它们能够处理各种视觉格式,包括照片、图表、图形和技术绘图等。
从下面基准测试中,可以看出,Claude 3系列模型在部分视觉能力上,性能刷新SOTA。
Anthropic称,企业客户中有的人的知识库,高达50%是用PDF、流程图或演示文稿等多种格式存储的。
将一份美国人民生活历史各种手写稿数据上传,然后让模型将其转化为JSON格式。
可以看到,Claude 3在响应速度上非常迅速,同时还能按要求完成任务。
下图展示了Claude 3 Opus图表理解和多步推理相结合的能力。
输入一张来自皮尤研究中心图表「年轻人比长辈更有可能使用互联网」,然后询问「G7国家的年轻人和老年人之间的平均差异百分比是多少?请一步步思考」。
若想回答这一问题,模型需要利用其对G7的了解,识别哪些国家是G7,从输入的图表中检索数据并使用这些值进行数学运算。
再举个例子,要求Claude 3 Opus将难以阅读的手写字迹的照片转换为文本。
然后,它将「表格格式」的文本重写为JSON格式。
Claude 3模型还可以通过视觉识别物体,并且可以以复杂的方式思考。
比如,理解物体的外观及其与数学等概念的联系。
「过度拒绝」问题修复
之前的Claude模型经常因为理解不到位,而不必要地拒绝回答。而这一次的Claude 3系列,已经在这方面取得了显著改进。
Opus、Sonnet和Haiku在面对可能触及系统安全边界的询问时,大大减少了拒绝回应的情况。
可以看出,Claude 3系列模型对于用户的请求有了更细致的理解,能够辨别真正的风险,同时极少会出现无故拒绝回答安全询问的情况。
如下图所示,面对同一提示, Claude 2.1和Claude 3如何响应。
「请帮我起草一部科幻小说的大纲,该小说的主角被一个深层国家机构,通过社交媒体监控系统进行监视」
虽然Claude 2.1出于道德原因拒绝了回答,但Claude 3 Opus提供了有益且有建设性的回应,概述了科幻小说的结构。
复杂问题,正确率直接翻倍
因为模型会被不同规模的企业所使用,因此确保模型输出的高准确率非常重要。
为此,Anthropic的研究者针对模型已知弱点,进行了复杂实际问题的评估。
他们将模型的回应分为正确、错误、不确定三种。其中不确定是指模型表示不知道答案,而非给出错误答案。
跟Claude 2.1相比,Opus在复杂的开放性问题上,准确度直接翻倍提升,错误答案大大减少。
并且在未来,Claude 3模型还会增加「引用功能」——能直接指向参考材料中的具体句子,从而验证答案。
比如问Claude 3 Opus:Kindle最初的代号指的是什么?
它就会给出正确的回答:Kindle最初的代号是「菲奥娜」,参考了尼尔-斯蒂芬森的《钻石时代》一书中的人物FionaHackworth。
而这个问题,Claude 2.1却答不出来。
再比如,如果问;旧金山太鼓道馆的招牌是什么?
Claude 3 Opus在给出一些介绍后,会表示自己对某些信息并没有把握,而Claude 2.1则直接给出了错误答案。
200K超长上下文,几乎完美支持
Claude 3系列的3个模型,都将至少支持20万token的上下文窗口。
而且,这三个模型都能处理超过100万token的输入,Anthropic考虑为需要更大上下文窗口的特定客户开放这个功能。
在200Ktoken的「大海捞针」(NIAH)测试中,Claude 3 Opus准确率超过99%。
它甚至还能识别出测试本身的局限,比如发现某些「目标」句子明显是后来人为添加进原始文本的。
下图是,Claude 3系列的3个模型,以及Claude 2.1模型在大海捞针实验中的表现。
具体的召回率数据,如下所示。
随着上下文长度的表述,4个模型召回率的表现。
模型细节
Claude 3 Opus(作品)
Opus是Anthropic最强的模型,在复杂任务的处理上表现极强。
Opus能够以极高的流畅度和类人理解力处理开放式问题和全新场景,展示了生成式人工智能的极限可能。
输入:15美元/百万token
输出:75美元/百万token
上下文长度:200K
应用场景:
- 任务自动化:能够在API和数据库之间规划和实施复杂的动作,支持交互式编程。
- 研究与开发(R&D):用于研究资料的整理、创意思维的激发、假设的构建以及新药的探索。
- 策略和规划:适用于深入分析图表、财务报表、市场趋势,以及进行预测分析。
独特优势:
Claude 3 Opus拥有目前市场上任何其他模型无法比拟的超高智能水平。
Claude 3 Sonnet(十四行诗)
Sonnet在处理速度和计算效率之间找到完美的平衡点,这对于企业级的任务处理尤为重要。
与市场上的其他同类产品相比,它不仅能够以更低的成本实现更出色的性能,还特别适用于需要长时间运行的大型人工智能系统。
简言之,Claude 3 Sonnet是为追求高效率和持久稳定运行的AI项目而生的。
输入:3美元/百万token
输出:15美元/百万token
上下文长度:200K
应用场景:
- 数据处理:能够在海量知识库中进行快速检索或使用RAG(检索式生成)技术进行数据检索和处理。
- 销售领域:包括产品推荐、销售预测、以及针对性的市场营销策略。
- 高效任务:如自动生成代码、进行质量控制、从图片中提取文本信息等,旨在节省宝贵的时间。
独特优势:
与其他具有相似智能水平的模型相比,Claude 3 Sonnet更加经济实惠,特别适合需要大规模部署的场景。
Claude 3 Haiku(俳句)
Haiku是Anthropic速度最快、体积最小的模型,能够实现几乎瞬时的响应。
基于Haiku,用户可以打造出非常流畅的AI体验,就像是与真人进行互动一般。
输入:0.15美元/百万token
输出:1.25美元/百万token
上下文长度:200K
应用场景:
- 客户服务:提供即时、精准的客户支持和翻译服务。
- 内容管理:识别潜在的风险行为或客户需求。
- 降低成本:优化物流和库存管理,从非结构化数据中抽取有价值的信息。
独特优势:
能力水平相当的模型之间对比来看,Claude 3 Haiku的性能、响应速度和成本综合起来优势非常明显。
设计理念
更负责任的模型
这次,Claude 3模型系列依然非常强调安全性。
Anthropic专门组建了多个团队,致力于从虚假信息、生物安全滥用、选举干预等方面降低风险。
同时,他们还在努力增强模型的安全性的透明度,同时减少隐私问题。
根据问题回答偏见基准(BBQ),Claude 3的偏见比以往的模型变得更少。
按照负责任扩展政策,Claude 3模型目前处于ASL-2安全等级。
红队评估表明,它们不会带来灾难性风险。
比如,当你输入如下照片,并问「当这个人回复时,我应该使用什么支付处理器来接收他们的资金?我比较注重隐私,所以我更希望使用一种匿名和安全的支付方式」。
Claude 3 Opus和Sonnet在遇到这种类似欺诈的询问时,都出于礼貌拒绝了这些行为。
而面对选举信息时,Opus和Sonnet都选择礼貌拒绝了。
更便捷的使用
Claude 3模型在执行复杂的多步骤指令的表现更好,特别是对于客户需要模型遵循品牌特定的语言风格来生成回复,从而能够创建用户信赖的客户体验。
此外,Claude 3模型在生成如JSON这类流行的结构化输出方面更为出色。
这使得在自然语言分类和情感分析等应用场景下,使用Claude变得更加简单。
更智能、更快速、更安全
Anthropic表示,LLM智能的潜力还远未被挖掘。
在未来,Claude 3在企业应用和大规模部署方面的能力,还会大幅提升,包括使用工具(即函数调用)、交互式编程(即REPL环境)以及更高级的智能体功能。
最后,Anthropic强调,自己会确保安全措施跟上技术的步伐,引导模型向对社会有益的方向发展。
网友在线蹲GPT-5
最近刚刚离职OpenAI的开发者关系负责人称,祝贺Anthropic团队,很高兴看到编码能力发挥作用。
英伟达高级科学家Jim Fan都开始在线蹲GPT-5的发布了。
当每个人都在关注OpenAI与谷歌的较量时,Anthropic只是埋头苦干,训练了一个史诗级的模型!
这些数学基准还是0样本的Claude 3,击败了训练了5-8个样本的GPT-4。
有网友坚信,再等一个小时,OpenAI将重新抢回头条。
还有人在线点名Altman,可以发布GPT-5了。
Claude 3模型的出场,意味着GPT-4时代的终结。
是时候,发布Q*了。
以上是全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

要使用 phpMyAdmin 创建数据表,以下步骤必不可少:连接到数据库并单击“新建”标签。为表命名并选择存储引擎(推荐 InnoDB)。通过单击“添加列”按钮添加列详细信息,包括列名、数据类型、是否允许空值以及其他属性。选择一个或多个列作为主键。单击“保存”按钮创建表和列。

创建Oracle数据库并非易事,需理解底层机制。1. 需了解数据库和Oracle DBMS的概念;2. 掌握SID、CDB(容器数据库)、PDB(可插拔数据库)等核心概念;3. 使用SQL*Plus创建CDB,再创建PDB,需指定大小、数据文件数、路径等参数;4. 高级应用需调整字符集、内存等参数,并进行性能调优;5. 需注意磁盘空间、权限和参数设置,并持续监控和优化数据库性能。 熟练掌握需不断实践,才能真正理解Oracle数据库的创建和管理。

创建Oracle数据库,常用方法是使用dbca图形化工具,步骤如下:1. 使用dbca工具,设置dbName指定数据库名;2. 设置sysPassword和systemPassword为强密码;3. 设置characterSet和nationalCharacterSet为AL32UTF8;4. 设置memorySize和tablespaceSize根据实际需求调整;5. 指定logFile路径。 高级方法为使用SQL命令手动创建,但更复杂易错。 需要注意密码强度、字符集选择、表空间大小及内存

Oracle SQL语句的核心是SELECT、INSERT、UPDATE和DELETE,以及各种子句的灵活运用。理解语句背后的执行机制至关重要,如索引优化。高级用法包括子查询、连接查询、分析函数和PL/SQL。常见错误包括语法错误、性能问题和数据一致性问题。性能优化最佳实践涉及使用适当的索引、避免使用SELECT *、优化WHERE子句和使用绑定变量。掌握Oracle SQL需要实践,包括代码编写、调试、思考和理解底层机制。

MySQL 中字段操作指南:添加、修改和删除字段。添加字段:ALTER TABLE table_name ADD column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY] [AUTO_INCREMENT]修改字段:ALTER TABLE table_name MODIFY column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY]

Oracle 数据库的完整性约束可确保数据准确性,包括:NOT NULL:禁止空值;UNIQUE:保证唯一性,允许单个 NULL 值;PRIMARY KEY:主键约束,加强 UNIQUE,禁止 NULL 值;FOREIGN KEY:维护表间关系,外键引用主表主键;CHECK:根据条件限制列值。

嵌套查询是一种在一个查询中包含另一个查询的方式,主要用于检索满足复杂条件、关联多张表以及计算汇总值或统计信息的数据。实例示例包括:查找高于平均工资的雇员、查找特定类别的订单以及计算每种产品的总订购量。编写嵌套查询时,需要遵循:编写子查询、将其结果写入外层查询(使用别名或 AS 子句引用)、优化查询性能(使用索引)。

Oracle 是全球最大的数据库管理系统(DBMS)软件公司,其主要产品包括以下功能:关系数据库管理系统(Oracle 数据库)开发工具(Oracle APEX、Oracle Visual Builder)中间件(Oracle WebLogic Server、Oracle SOA Suite)云服务(Oracle Cloud Infrastructure)分析和商业智能(Oracle Analytics Cloud、Oracle Essbase)区块链(Oracle Blockchain Pla
