挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

WBOY
发布: 2024-03-08 15:46:15
转载
1147 人浏览过

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5将结合强大的LLM技术和Inflection独有的“同理心微调”特性,综合了高情商和高智商的特点。它可以通过联网获取事实信息,性能媲美GPT-4和Gemini等领先的大型模型。

Inflection-2.5 现已向所有 Pi 用户开放,可在 PC 端、iOS 和安卓 App 上免费使用。机器之心简单测试后发现,与GPT-4相比仍有一定差距,但仍值得一试。感兴趣的用户可以自行体验。

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近GPT-4 的性能,而训练过程却仅使用GPT-4 40%的算力。

Inflection AI指出,新一代大型模型在智能编码和数学等领域取得了显着进展。这些进展将转化为对关键行业基准的具体改进,从而确保Pi一直站在技术的前沿。另外,Pi还整合了世界一流的实时网络搜索功能,以确保用户能够获得高质量的突发新闻和最新资讯。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的FLOP 约为GPT-4 的4%,在各种「IQ 导向」型任务中,其平均性能约为GPT-4水平的72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显着提升,其中 STEM 领域知识的改进最大。

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

Inflection-2.5 在两项不同STEM 考试—— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

如下表所示,该研究还在MMLU 基准、GPQA Diamond 基准上评估了Inflection-2.5。 MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。 BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

在GSM8k 和MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比Inflection -1 有显着改进:

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

为了进一步测试Inflection-2.5 的编码能力,该研究在MBPP+ 和HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral  Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

以上是挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4的详细内容。更多信息请关注PHP中文网其他相关文章!

相关标签:
来源:51cto.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!