該團隊的新模型在多個基準測試中都與 Gemini Pro 、GPT-3.5 相媲美。
如果你常讀 AI 大模型方向的論文,Yi Tay 想必是個熟悉的名字。作為前Google大腦高級研究科學家,Yi Tay 為許多知名的大型語言模型和多模態模型做出了貢獻,包括PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。 根據Yi Tay 個人資料統計,在Google大腦工作的3 年多的時間裡,他總共參與撰寫了大約45 篇論文,是其中16 篇的一作。一篇論文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。 和大多數離開Google自主創業的Transformer 作者一樣,Yi Tay 在去年3 月宣布離開谷歌,並參與創辦了一家名為Reka 的公司,Yi Tay擔任該公司的首席科學家,主攻大型語言模式。 隨著時間的推移,剛剛,Yi Tay 宣布他們發布了新模型:「很高興與大家分享Reka Flash,這是一個具有SOTA 性能的、全新的21B 多模態模型,該模型在語言和視覺基準方面可與Gemini Pro 和GPT 3.5 相媲美。我們用相對有限的資源從零開始訓練這個模型…同時,我們規模最大、功能最強的模型Reka-Core 也即將完成,大家可以對我們接下來的工作期待一下。」#Reka Flash 參數量為21B,完全從頭開始訓練,其效能可與更大規模的模型相媲美,在眾多語言和視覺基準測試中,Reka Flash 與Gemini Pro 和GPT-3.5 具有競爭力。 此外, Reka 團隊還提出了一個更緊湊的模型變體Reka Edge,該模型參數量更少,只有7B,並且效率更高,使其在資源受限(例如,在裝置上、本機)的場景下也能運作。 值得一提的是,這兩個模型都處於公開測試階段,有興趣的讀者可以前去嘗試。 試用網址:https://chat.reka.ai/auth/login同時, Reka 團隊宣布他們最大、功能最強的Reka Core 模型將在未來幾週內向公眾推出。 #評估基準包括MMLU(基於知識的問答)、 GSM8K(推理和數學)、HumanEval(程式碼產生)和GPQA(Google-proof graduate-level question answering)。 結果顯示,Reka Flash 在這些基準測試中取得了非常出色的成績:在MMLU 和GPQA 上優於Gemini Pro,在GSM8K 和HumanEval 上取得了具有競爭力的結果。此外,在這些評估中,Reka Flash 明顯優於許多較大的模型(例如 Llama 2 70B、Grok-1、GPT-3.5)。 #Reka Flash 在超過32 種語言(包括英語,德語,中文,日語,法語,韓語,西班牙語,義大利語,阿拉伯語等)的文本上進行了預訓練,因此Reka Flash 可以看做是一個強大的多語言模型。研究者比較了不同模型在多語言基準上的表現,包括多語言常識推理、因果推理和問答。結果表明,Reka Flash 在所有這些任務上都優於 Llama-2 70B 和 Mixtral。#此外,研究還在多模態基準上對Reka Flash 進行了評估,包括視覺問答(MMMU、VQA-v2)、視訊字幕(VATEX)和視訊問答(Perception Test)。結果顯示 Reka Flash 在所有四個基準測試中都比 Gemini Pro 具有競爭力。 該研究也進行了一系列人工評估來評估基於 Reka Flash 的聊天模型。研究者考慮了兩種設置,1)純文字聊天模型和 2)多模態聊天模型。評估過程中他們按照 Askell 等人的方法計算 ELO 分數和總體勝率。 純文字聊天:研究者以 GPT-4、Claude 2.1 和 Gemini Pro(API 版本)等領先模型為基準。此外研究者也比較了 Reka Edge、Mistral 7B 和 Llama 2 7B 聊天模型的效能。 手動評估結果表明,Reka Flash 取得了具有競爭力的結果,優於 GPT-3.5 Turbo、Claude、Mixtral 和 Gemini Pro。 Reka Edge 領先另外兩款 7B 車型,接近 Claude Instant 1.2 的效能。 #該研究也將Reka Flash 與GPT4- V、Gemini Pro、Llava-1.6、IDEFICS 80b 和Adept Fuyu-8B 等多模態語言模型進行了比較。結果表明,Reka Flash 的性能優於除 GPT4-V 之外的所有模型。 Reka Edge 也取得了不錯的排名,超越了基於 Mistral 7B 的 Llava 1.6 7B,並接近 Gemini Pro 的性能。 Reka Edge 是更緊湊的7B模型,專為本地部署和延遲敏感應用程式而設計。在語言評估任務上,該研究報告了其與類似規模模型(即 Mistral 7B 和 Llama-2 7B)的比較。結果表明,Reka Edge 在標準語言基準測試中優於 Llama 2 7B 和 Mistral 7B。 #Reka 團隊表示他們旨在建立最先進的多模態語言模型,隨著Reka Flash 和Reka Edge 的發布,他們AI 藍圖中的最初里程碑已經實現。大家可以期待他們接下來的研究。 參考連結:https://reka.ai/reka-flash-an-efficient-and-capable-multimodal-language-model/ #
以上是三年16篇一作,前Google研究科學家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5的詳細內容。更多資訊請關注PHP中文網其他相關文章!