挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4-人工智慧-PHP中文網

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2024-03-08 15:46:15

轉載

1286 人瀏覽過

本周四，美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍，Inflection-2.5将结合强大的LLM技术和Inflection独有的“同理心微调”特性，综合了高情商和高智商的特点。它可以通过联网获取事实信息，性能媲美GPT-4和Gemini等领先的大型模型。

Inflection-2.5 现已向所有 Pi 用户开放，可在 PC 端、iOS 和安卓 App 上免费使用。机器之心简单测试后发现，与GPT-4相比仍有一定差距，但仍值得一试。感兴趣的用户可以自行体验。

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

链接：https://pi.ai/talk

值得注意的是，Inflection-2.5 实现了接近 GPT-4 的性能，而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI指出，新一代大型模型在智能编码和数学等领域取得了显著进展。这些进展将转化为对关键行业基准的具体改进，从而确保Pi一直站在技术的前沿。另外，Pi还整合了世界一流的实时网络搜索功能，以确保用户能够获得高质量的突发新闻和最新资讯。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%，在各种「IQ 导向」型任务中，其平均性能约为 GPT-4 水平的 72%。现在，Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练，但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示，Inflection-2.5 的性能取得了全面的显著提升，其中 STEM 领域知识的改进最大。

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试（GRE）—— 的成绩如下：

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

如下表所示，该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科，能够有效地测试 LLM 的综合知识能力，而 GPQA Diamond 基准是一个极其困难的专家级基准。

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

在 BIG-Bench-Hard 基准上，Inflection-2.5 比 Inflection-1 性能提高了 10% 以上，并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

该研究还在 MT-Bench 基准上进行了评估。然而，研究团队意识到该基准在推理、数学和编码类别中有很大一部分（近 25%）的样本示例具有不正确的参考解决方案或前提有缺陷。因此，该研究更正了这些示例，并再次进行评估实验，结果如下表所示：

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

在 GSM8k 和 MATH 基准上的评估结果表明，Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进：

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

为了进一步测试 Inflection-2.5 的编码能力，该研究在 MBPP 和 HumanEval 两个编码基准上进行了评估实验，结果如下表所示：

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

研究團隊在 HellaSwag 和 ARC-C、以及各種模型常識和科學基準上評估了 Inflection-2.5。從下圖結果來看，Inflection-2.5 在這些基準上實現了強勁性能。

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4

此外，以上所有評估都是使用現在支援 Pi 的模型完成的。但也需要注意，由於網路檢索（上述基準沒有使用網路檢索）、few-shot 提示的結構以及其他生產方面的影響，使用者體驗可能略有差異。

總的來說，Inflection-2.5 保持了 Pi「走心」的特性和極高的安全標準，成為了一個更全面的有用模型。

最近一段時間，大語言模式的技術競爭進入了白熱化階段，在眾多科技公司中，Mistral AI（Mistral Large ）、Anthropic（Claude 3）脫穎而出，提出的新技術實現了與GPT-4、Gemini Ultra 接近的能力。昨天出現的 Inflection-2.5，似乎也要加入第一梯隊的行列。

身為矽谷明星新創公司，Inflection AI 的來頭不小，它成立與2022 年，三位共同創辦人分別是原DeepMind 共同創辦人Mustafa Suleyman、Linkedln 共同創辦人Reid Hoffman，還有前DeepMind 首席科學家Karen Simonyan。

挑戰OpenAI的新模型免費上線，40%計算量表現逼近GPT-4