三年16篇一作，前Google研究科學家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

三年16篇一作，前Google研究科學家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

王林

Feb 15, 2024 pm 06:45 PM

產業 reka yi tay

該團隊的新模型在多個基準測試中都與 Gemini Pro 、GPT-3.5 相媲美。

如果你常讀 AI 大模型方向的論文，Yi Tay 想必是個熟悉的名字。作為前Google大腦高級研究科學家，Yi Tay 為許多知名的大型語言模型和多模態模型做出了貢獻，包括PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。

根據Yi Tay 個人資料統計，在Google大腦工作的3 年多的時間裡，他總共參與撰寫了大約45 篇論文，是其中16 篇的一作。一篇論文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

和大多數離開Google自主創業的Transformer 作者一樣，Yi Tay 在去年3 月宣布離開谷歌，並參與創辦了一家名為Reka 的公司，Yi Tay擔任該公司的首席科學家，主攻大型語言模式。

隨著時間的推移，剛剛，Yi Tay 宣布他們發布了新模型：

「很高興與大家分享Reka Flash，這是一個具有SOTA 性能的、全新的21B 多模態模型，該模型在語言和視覺基準方面可與Gemini Pro 和GPT 3.5 相媲美。我們用相對有限的資源從零開始訓練這個模型…同時，我們規模最大、功能最強的模型Reka-Core 也即將完成，大家可以對我們接下來的工作期待一下。」

Reka Flash：一個高效率的多模態語言模型

#Reka Flash 參數量為21B，完全從頭開始訓練，其效能可與更大規模的模型相媲美，在眾多語言和視覺基準測試中，Reka Flash 與Gemini Pro 和GPT-3.5 具有競爭力。

此外， Reka 團隊還提出了一個更緊湊的模型變體Reka Edge，該模型參數量更少，只有7B，並且效率更高，使其在資源受限（例如，在裝置上、本機）的場景下也能運作。

值得一提的是，這兩個模型都處於公開測試階段，有興趣的讀者可以前去嘗試。

試用網址：https://chat.reka.ai/auth/login

同時， Reka 團隊宣布他們最大、功能最強的Reka Core 模型將在未來幾週內向公眾推出。

至於開源問題，團隊表示還在考慮當中。

評估：語言

#評估基準包括MMLU（基於知識的問答）、 GSM8K（推理和數學）、HumanEval（程式碼產生）和GPQA（Google-proof graduate-level question answering）。

結果顯示，Reka Flash 在這些基準測試中取得了非常出色的成績：在MMLU 和GPQA 上優於Gemini Pro，在GSM8K 和HumanEval 上取得了具有競爭力的結果。此外，在這些評估中，Reka Flash 明顯優於許多較大的模型（例如 Llama 2 70B、Grok-1、GPT-3.5）。

評估：多語言推理

#Reka Flash 在超過32 種語言（包括英語，德語，中文，日語，法語，韓語，西班牙語，義大利語，阿拉伯語等）的文本上進行了預訓練，因此Reka Flash 可以看做是一個強大的多語言模型。研究者比較了不同模型在多語言基準上的表現，包括多語言常識推理、因果推理和問答。結果表明，Reka Flash 在所有這些任務上都優於 Llama-2 70B 和 Mixtral。

評估：視覺與影片

#此外，研究還在多模態基準上對Reka Flash 進行了評估，包括視覺問答（MMMU、VQA-v2）、視訊字幕（VATEX）和視訊問答（Perception Test）。結果顯示 Reka Flash 在所有四個基準測試中都比 Gemini Pro 具有競爭力。

該研究也進行了一系列人工評估來評估基於 Reka Flash 的聊天模型。研究者考慮了兩種設置，1）純文字聊天模型和 2）多模態聊天模型。評估過程中他們按照 Askell 等人的方法計算 ELO 分數和總體勝率。

純文字聊天：研究者以 GPT-4、Claude 2.1 和 Gemini Pro（API 版本）等領先模型為基準。此外研究者也比較了 Reka Edge、Mistral 7B 和 Llama 2 7B 聊天模型的效能。

手動評估結果表明，Reka Flash 取得了具有競爭力的結果，優於 GPT-3.5 Turbo、Claude、Mixtral 和 Gemini Pro。 Reka Edge 領先另外兩款 7B 車型，接近 Claude Instant 1.2 的效能。

評估：多模態

#該研究也將Reka Flash 與GPT4- V、Gemini Pro、Llava-1.6、IDEFICS 80b 和Adept Fuyu-8B 等多模態語言模型進行了比較。結果表明，Reka Flash 的性能優於除 GPT4-V 之外的所有模型。 Reka Edge 也取得了不錯的排名，超越了基於 Mistral 7B 的 Llava 1.6 7B，並接近 Gemini Pro 的性能。

7B 參數的Reka Edge 模型

Reka Edge 是更緊湊的7B模型，專為本地部署和延遲敏感應用程式而設計。在語言評估任務上，該研究報告了其與類似規模模型（即 Mistral 7B 和 Llama-2 7B）的比較。結果表明，Reka Edge 在標準語言基準測試中優於 Llama 2 7B 和 Mistral 7B。

總結

#Reka 團隊表示他們旨在建立最先進的多模態語言模型，隨著Reka Flash 和Reka Edge 的發布，他們AI 藍圖中的最初里程碑已經實現。大家可以期待他們接下來的研究。

^{參考連結：https://reka.ai/reka-flash-an-efficient-and-capable-multimodal-language-model/}

以上是三年16篇一作，前Google研究科學家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7557

CakePHP 教程

1384

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

DeepMind機器人打乒乓球，正手、反手溜到飛起，全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺？巴黎奧運正在如火如荼地進行中，乒乓球項目備受關注。同時，機器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢？大概和人類業餘選手不相上下：正手反手都會：對手採用多種打法，機器人也能招架得住：接不同旋轉的發球：不過，比賽激烈程度似乎不如公園老大爺對戰。對機器人來說，乒乓球運動

首配機械爪！元蘿蔔亮相2024世界機器人大會，發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相，並最新發布元蘿蔔AI下棋機器人－國際象棋專業版（以下簡稱「元蘿蔔國象機器人」），成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品，全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新，首次在家用機器人上實現了透過機械爪拾取立體棋子，並進行人機對弈、人人對弈、記譜複盤等功能，

Claude也變懶了！網友：學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至，該收心的不只即將開啟新學期的同學，可能還有AI大模型。前段時間，Reddit擠滿了吐槽Claude越來越懶的網友。「它的水平下降了很多，經常停頓，甚至輸出也變得很短。在發布的第一周，它可以一次性翻譯整整4頁文稿，現在連半頁都輸出不了！」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”，滿滿地

世界機器人大會上，這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上，人形機器人的展示成為了現場絕對的焦點，在星塵智能的展台上，由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲，能文能武，吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏，讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道，公司創始人來傑解釋到，絲滑動作的背後，是硬體側追求最好力控和最仿人身體指標（速度、負載等），而是在AI側則採集人的真實動作數據，讓機器人遇強則強，快速學習進化。而敏捷

ACL 2024獎項發表：華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會，投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL在NLP領域的學術影響力都名列第一，它也是CCF-A類推薦會議。今年的ACL大會已是第62屆，接收了400餘篇NLP領域的前沿工作。昨天下午，大會公佈了最佳論文等獎項。此次，最佳論文獎7篇（兩篇未公開）、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎（ResourceAward）3篇、社會影響力獎（

鴻蒙智行享界S9全場景新品發表會，多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飛飛團隊提出ReKep，讓機器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時，加上最近老上頭條的1X人形機器人NEO，你可能會產生一種感覺：我們似乎開始進入機器人時代了。事實上，這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道，有用的機器人往往需要與環境進行複雜精妙的交互，而環境則可被表示成空間域和時間域上的限制。舉個例子，如果要讓機器人倒茶，那麼機器人首先需要抓住茶壺手柄並使之保持直立，不潑灑出茶水，然後平穩移動，一直到讓壺口與杯口對齊，之後以一定角度傾斜茶壺。這

分散式人工智慧盛會DAI 2024徵稿：Agent Day，強化學習之父Richard Sutton將出席！顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展，人工智慧成為了推動社會進步的重要力量。在這個時代，我們有幸見證並參與分散式人工智慧（DistributedArtificialIntelligence，DAI）的創新與應用。分散式人工智慧是人工智慧領域的重要分支，這幾年引起了越來越多的關注。基於大型語言模型（LLM）的智能體（Agent）異軍突起，透過結合大模型的強大語言理解和生成能力，展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型，成為目前AI圈的熱門話題。 Au

See all articles

三年16篇一作，前Google研究科學家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題