三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5-人工智能-PHP中文网

首页

科技周边

人工智能

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

王林

Feb 15, 2024 pm 06:45 PM

产业 reka yi tay

该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。

如果你经常读 AI 大模型方向的论文，Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家，Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献，包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。

根据 Yi Tay 个人资料统计，在谷歌大脑工作的 3 年多的时间里，他总共参与撰写了大约 45 篇论文，是其中 16 篇的一作。一作论文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

和大多数离开谷歌自主创业的 Transformer 作者一样，Yi Tay 在去年 3 月份宣布离开谷歌，并参与创办了一家名为 Reka 的公司，Yi Tay 担任该公司的首席科学家，主攻大型语言模型。

随着时间的推移，刚刚，Yi Tay 宣布他们发布了新模型：

「很高兴与大家分享 Reka Flash，这是一种具有 SOTA 性能的、全新的 21B 多模态模型，该模型在语言和视觉基准方面可与 Gemini Pro 和 GPT 3.5 相媲美。我们用相对有限的资源从零开始训练这个模型…… 与此同时，我们规模最大、功能最强的模型 Reka-Core 也即将完成，大家可以对我们接下来的工作期待一下。」

Reka Flash：一个高效的多模态语言模型

Reka Flash 参数量为 21B，完全从头开始训练，其性能可与更大规模的模型相媲美，在众多语言和视觉基准测试中，Reka Flash 与 Gemini Pro 和 GPT-3.5 具有竞争力。

此外， Reka 团队还提出了一个更紧凑的模型变体 Reka Edge，该模型参数量更少，只有 7B，并且效率更高，使其在资源受限（例如，在设备上、本地）的场景下也能运行。

值得一提的是，这两种模型均处于公开测试阶段，感兴趣的读者可以前去尝试。

试用地址：https://chat.reka.ai/auth/login

与此同时，Reka 团队宣布他们最大、功能最强的 Reka Core 模型将在未来几周内向公众推出。

至于开源问题，该团队表示还在考虑当中。

评估：语言

评估基准包括 MMLU（基于知识的问答）、GSM8K（推理和数学）、HumanEval（代码生成）和 GPQA（Google-proof graduate-level question answering）。

结果显示，Reka Flash 在这些基准测试中取得了非常出色的成绩：在 MMLU 和 GPQA 上优于 Gemini Pro，在 GSM8K 和 HumanEval 上取得了具有竞争力的结果。此外，在这些评估中，Reka Flash 明显优于许多较大的模型（例如 Llama 2 70B、Grok-1、GPT-3.5）。

评估：多语言推理

Reka Flash 在超过 32 种语言（包括英语，德语，中文，日语，法语，韩语，西班牙语，意大利语，阿拉伯语等）的文本上进行了预训练，因此 Reka Flash 可以看做是一个强大的多语言模型。研究者比较了不同模型在多语言基准上的性能，包括多语言常识推理、因果推理和问答。结果表明，Reka Flash 在所有这些任务上均优于 Llama-2 70B 和 Mixtral。

评估：视觉和视频

此外，该研究还在多模态基准上对 Reka Flash 进行了评估，包括视觉问答（MMMU、VQA-v2）、视频字幕（VATEX）和视频问答（Perception Test）。结果表明 Reka Flash 在所有四个基准测试中都比 Gemini Pro 具有竞争力。

该研究还进行了一系列人工评估来评估基于 Reka Flash 的聊天模型。研究者考虑了两种设置，1）纯文本聊天模型和 2）多模态聊天模型。评估过程中他们按照 Askell 等人的方法计算 ELO 分数和总体胜率。

纯文本聊天：研究者以 GPT-4、Claude 2.1 和 Gemini Pro（API 版本）等领先模型为基准。此外研究者还比较了 Reka Edge、Mistral 7B 和 Llama 2 7B 聊天模型的性能。

人工评估结果表明，Reka Flash 取得了具有竞争力的结果，优于 GPT-3.5 Turbo、Claude、Mixtral 和 Gemini Pro。Reka Edge 领先于另外两款 7B 模型，接近 Claude Instant 1.2 的性能。

评估：多模态

该研究还将 Reka Flash 与 GPT4-V、Gemini Pro、Llava-1.6、IDEFICS 80b 和 Adept Fuyu-8B 等多模态语言模型进行了比较。结果表明，Reka Flash 的性能优于除 GPT4-V 之外的所有模型。Reka Edge 也取得了不错的排名，超越了基于 Mistral 7B 的 Llava 1.6 7B，并接近 Gemini Pro 的性能。

7B 参数的 Reka Edge 模型

Reka Edge 是更为紧凑的 7B 模型，专为本地部署和延迟敏感应用程序而设计。在语言评估任务上，该研究报告了其与类似规模模型（即 Mistral 7B 和 Llama-2 7B）的比较。结果表明，Reka Edge 在标准语言基准测试中优于 Llama 2 7B 和 Mistral 7B。

总结

Reka 团队表示他们旨在构建最先进的多模态语言模型，随着 Reka Flash 和 Reka Edge 的发布，他们 AI 蓝图中的最初里程碑已经实现。大家可以期待他们接下来的研究。

^{参考链接：https://reka.ai/reka-flash-an-efficient-and-capable-multimodal-language-model/}

以上是三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1663

CakePHP 教程

1420

Laravel 教程

1313

PHP教程

1266

C# 教程

1237

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

See all articles

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题