>最先进的推理LLM的竞赛正在加热,比赛比以往任何时候都更加激烈。 DeepSeek用DeepSeek R1启动了它,其次是OpenAI的O3-Mini,现在Google进入了强大的阵容:Gemini 2.0 Flash,Flash Lite,Pro和两个实验模型 - Flash 2.0 2.0思考和对应用程序进行思考。尽管Flash模型已经进入公共测试,但实验性的模型可以重新定义推理和应用程序集成,挑战O3-Mini和DeepSeek-R1。在此博客中,我们将研究这些新模型,它们的独特功能及其竞争优势。让我们潜入!
目录的目的表
>什么是Gemini 2.0?实验性- gemini 2.0 flash Thinking flash Thinking apps
- gemini 2.0模型:基准比较
-
-
什么是Gemini 2.0?-
Gemini 2.0是Google最新多模型的伞。这些模型是由Google开发的,可以看到代理时代对高延迟且性能提高的高效士兵模型的需求。在Gemini 2.0系列中,以下模型已经发布到目前为止:
- Gemini 2.0 Flash
- Gemini 2.0 Flash Lite
- gemini 2.0 Pro实验
-
>与这些强大的模型一起,Google还秘密发布了目前处于实验阶段的另外两个模型。这两个型号是:
Gemini 2.0 Flash思考实验
gemini 2.0 flash用应用程序
进行实验
-
这些实验模型是迄今为止任何AI公司最令人兴奋的模型。它们不仅提供了复杂的推理和逻辑思维,而且还可以与Google最常用的应用程序(如YouTube,地图和搜索)一起使用。- >
所以,让我们探索Google的每一个最新版本,一一。
- Gemini 2.0 Flash
闪光灯模型是为大容量的高频任务而设计的,优先考虑速度和效率。 Gemini 2.0 Flash现在公开可供所有人使用,使其适用于生产应用程序。这是该模型的关键特征:
- >它可以通过100万个令牌的巨大上下文窗口来处理繁重的任务并执行多模式推理。
- >在Gemini应用程序以及通过Google AI Studio和Vertex AI中的Gemini API中可以访问。
- 该模型与OpenAI的GPT-4O,DeepSeek的V3和Qwen-2.5相媲美,其速度和效率在处理任务方面。
>
可用性:当前仅适用于Gemini高级订户在Gemini应用程序上使用,而在Google AI Studio中,可以免费使用。因此,如果您没有付费的Gemini帐户(免费的一个月试用),则可以在Google AI Studio中尝试。>
现在,让我们在Gemini应用程序上进行测试。
提示:“在https://www.analyticsvidhya.com/blog/2024/07/building-agentic-agentic-rag-systems-with-langgraph/上阅读文章,以了解为Wikipedia数据创建矢量数据库的过程。然后,提供关键步骤的简明摘要。
响应:
>评论:
>模型擅长通过Web链接阅读。它产生了一个明确的摘要,然后列出了博客中涵盖的广泛步骤。因此,Gemini Flash 2.0被证明是一个快速有效的模型,可以通过访问Internet进行求解查询而迅速。这对于日常内容相关的任务以及图像分析和生成非常有用。>
Gemini 2.0 Flash Lite
Flash Lite模型的设计考虑了成本效益。它建立在其前任1.5闪存的基础上,在保持同样令人印象深刻的速度和负担能力的同时,可以显着提高质量。以下是其中的一些亮点:
2.0 Flash Lite是寻求绩效和预算之间平衡的开发人员的绝佳选择。
该模型拥有100万个令牌上下文窗口,并支持多模式输入,从而可以处理各种任务。
>
>目前正在公共预览中,可通过Google AI Studio和Vertex AI的Gemini API访问。这使开发人员可以实验并将Flash Lite集成到他们的工作流程中。
- >可用性:
- Gemini 2.0 Flash Lite,可在Google AI Studio中免费使用。它也可以在Vertex AI中使用,但在Gemini App中尚未可用。
>
- >如何访问Gemini 2.0 Flash Lite
要在Google AI Studio中使用Gemini 2.0 Flash Lite,您将必须:
>在网页上注册。
完成后,单击左侧面板中的“创建提示符”。>
>从右侧面板,“型号”部分下,选择“ Gemini 2.0 Flash Lite 02-05”。
让我们对其进行测试。-
- 提示:
- “
>
>用简单的单词向我解释以下图像。
响应:
“此图像显示了与“世界”和用户相互作用的AI代理。这是一个故障:
-
世界:这代表了AI在内的环境,包括Internet,操作系统,API服务器,硬件和物理世界。
- ai代理: >中央框代表AI代理,该代理从用户接收输入并与世界互动。它由多个部分组成:
用户:-
>与AI互动的人。它们提供了AI的输入。
llm(大语言模型):
>- > AI的大脑。它接收信息,处理并做出决定。
>工具:
>- > 该部分包含AI可以用来与世界交互的各种工具(网站API,应用程序,应用程序,Shell,Database等)。
内存:
- > AI的内存,它存储和检索信息(例如RAM,SQL数据库和Vectordbs中的数据)。
> action:
>- > AI的操作模块,使AI执行了LLM生成的指令。
>它如何工作:
- 用户>
> ai。
-
> llm
-
> 处理此输入。
>
- llm > > action
>工具> > world
-
>>> > 内存
这个过程重复
评论:
响应以对图像的小介绍开始。然后,它描述了图像的每个部分,然后分解所有单个元素。最后,它简要说明了图像的所有组件如何工作。该型号很快起作用!很快将图像分析并将图像分解为简单的解释。对于需要速度的任务,例如为客户查询解决方案或Q/A会议构建聊天机器人以及面试准备; Gemini 2.0 Flash Lite是理想的。
gemini 2.0 Pro实验
Gemini 2.0 Pro实验代表双子座家族关于能力的巅峰。它设计用于解决最复杂的任务,尤其是涉及编码的任务。以下是有关Gemini 2.0 Pro的实验版本的一些要点
- 这个最新模型具有200万个令牌上下文窗口,使其能够处理并了解大量信息。
>它具有拨打Google搜索和直接执行代码等工具的独特能力,从而大大扩展了其解决问题的潜力。
- 当前,在实验阶段,Gemini 2.0 Pro实验在更广泛的释放之前进行了完善和测试。
- >
可用性:此模型也仅适用于Gemini Appl上的Gemini Advanced的付费用户。同时,用户可以在Google AI Studio和Vertex AI中免费访问它。因此,如果您没有付费的双子座帐户(提供一个月的免费试用),则可以在Google AI Studio中尝试。>
了解更多:Google Gemini 2.0比Openai O3-Mini更好的实验?
>让我们看一下该模型的性能。
> 提示:
>
>“解决这个难题,给我由解决方案组成的表。
这个难题是从以下网站中获取的。
响应:
将这些值放在网站上:
>评论:
>该模型解释了其解决方案,并按照提示进行解决方案表。它根据给出的信息产生了正确的响应,尽管在几个地方,它确实假定了颜色和货币的不正确值。但是,其最终结果仍然不受影响,因为这些值在整体响应中无关紧要。不用说,Gemini 2.0 Pro实验确实将强大的推理与速度和准确性相结合。
Gemini 2.0 Flash思考实验
> Flash Thinking实验模型是一个令人兴奋的发展,它结合了Gemini 2.0 Flash的速度和效率和增强的推理能力。这使其不仅可以快速处理信息,还可以将逻辑思维应用于复杂的问题。
>当前,该模型可用于双子座应用程序的用户,仅提供一些用户的早期访问其高级功能的访问。
作为一个实验模型,它仍在开发中,但它指向LLM的未来,可以更有效地推理和解决问题。
>可用性:
Gemini 2.0 Flash模型仅在付费版本中可用 - Gemini Advanced,在Gemini App上。但是,在Google AI工作室中,可以免费使用。因此,如果您没有付费的Gemini帐户(提供一个月的免费试用版),则可以在Google AI Studio中尝试。
- 现在让我们看看这个型号可以做什么。
>提示:>“你走进房间看床。在床上,有两只狗,四只猫,一只长颈鹿,五头牛和一只鸭子。还有三把椅子和一张桌子。地板上有几条腿?
响应:
“
>让我们分解:>
>>床上的东西:狗,猫,长颈鹿,牛,鸭。这些动物在床上,所以它们的腿不在地板上。
- >>房间里的东西(除非另有说明,否则可能在地板上)
> - 椅子:椅子有腿,通常在地板上。每个椅子有4个腿,有3椅。
表:桌子有腿,它们通常在地板上。桌子通常有4个腿,有1个表。
您:您走进房间。据推测,您站着或走路,双腿在地板上。你有2条腿。
-
-
让我们计算地板上的腿:
- 椅子:3椅子 * 4腿/椅子= 12腿
>
表:1个表 * 4腿/表= 4腿
>
你:1人 * 2腿/人= 2腿
>
-
地板上的总腿> :12 4 2 = 18腿
- >
因此,地板上有18条腿。
>评论:
-
这个问题的正确答案是22,其中包括3张椅子的12张腿,桌子的4腿,4张床的4腿和2腿。 Gemini 2.0 Flash实验思维模型展示了出色的思维,对单个腿(大多数LLM都错过的东西)说明了。然而,它忘了在床的腿上数。因此,即使很棒,该模型也可以更好地在逻辑推理上。
gemini 2.0 flash用应用程序
进行实验
>在Flash思考实验模型的基础上,使用应用程序版本的Flash Thinking实验增加了至关重要的交互层:与外部应用程序互动的能力。这是使其成为强大模型的原因:
它与外部应用程序的集成使该模型不仅能够成为理性,还可以在不同的应用程序中采取行动。这为复杂工作流程自动化的可能性开辟了世界。
>
该模型展示了LLM深入我们的数字生活的潜力,与我们每天使用的工具无缝互动。
>>可用性:
gemini 2.0闪光灯仅在付费版本中可用 - gemini Advanced。同时,在Google AI工作室中,可以免费使用。因此,如果您没有付费的Gemini帐户(免费的一个月试用),则可以在Google AI Studio中尝试。>
所以,让我们进行测试。>
提示:>“告诉我我可以从我的位置到新德里火车站的所有可能路线。我目前在这里:https://maps.app.goo.gl/xciqxpugasxtxytk8”
响应:
“这是您目前在印度哈里亚纳邦Gurugram的K-3 Road的新德里火车站的可能路线,印度Haryana 122022。
>
这是您位于印度哈里亚纳邦Gurugram 25号地区K-3 Road的新德里火车站的可能路线,
路线1:通过NH 48
>
距离:16.4英里
- 持续时间:大约49分钟
>
-
摘要:此路线主要遵循NH 48。
>
- >映射URL
-
>这是当前提供的唯一路由。如果您想探索替代路线,则可以指定标准,例如避免高速公路或通行费,我可以检查这些选项。
评论:
>在短短几秒钟内,该模型通过提示进行思考,访问我通过地图共享的位置,并为我提出了最佳的路径。它为我提供了路线的详细信息,并共享一个地图链接以供我的参考。在寻找新城市的地方或快速定位地址时,这样的功能可能是一个很好的补充。此LLM也非常适合转录或总结长YouTube视频。尽管它在使用YouTube短裤时会遇到错误。>
该模型结合了推理,速度和外部应用程序可访问性的力量 - 一组。这样的功能表明,我们很快就会看到这些思维模型。
Gemini 2.0型号:基准比较
>现在我们已经与Google所有最新型号合作,让我们快速研究这些模型在不同基准测试中的性能。思考实验模型的详细信息尚不可用,因此我们将仅使用其余三个模型:Gemini 2.0 Flash,Flash Lite和Pro。
Capability |
Benchmark |
Gemini 2.0 Flash-Lite (Public Preview) |
Gemini 2.0 Flash (GA) |
Gemini 2.0 Pro Experimental |
General |
MMLU-Pro |
71.6% |
77.6% |
79.1% |
Code |
LiveCodeBench (v5) |
28.9% |
34.5% |
36.0% |
Code |
Bird-SQL (Dev) |
57.4% |
58.7% |
59.3% |
Reasoning |
GQPA (diamond) |
51.5% |
60.1% |
64.7% |
Factuality |
SimpleQA |
21.7% |
29.9% |
44.3% |
Factuality |
FACTS Grounding |
83.6% |
84.6% |
82.8% |
Multilingual |
Global MMLU (Lite) |
78.2% |
83.4% |
86.5% |
Math |
MATH |
86.8% |
90.9% |
91.8% |
Math |
HiddenMath |
55.3% |
63.5% |
65.2% |
Long-context |
MRCR (1M) |
58.0% |
70.5% |
74.7% |
Image |
MMMU |
68.0% |
71.7% |
72.7% |
Audio |
CoVoST2 (21 lang) |
38.4% |
39.0% |
40.6% |
Video |
EgoSchema (test) |
67.2% |
71.1% |
71.9% |
来源:Google DeepMind博客
Gemini 2.0型号:功能比较
>每个新型号都有自己独特的功能集。在下表中,我列出了我们在此博客中探索的所有模型的功能和应用。
结论
Google的Gemini 2.0阵容标志着生成AI模型功能的重要一步,为速度,效率和高级推理提供了定制的各种型号。 Gemini 2.0 Flash和Flash Lite迎合了高通量和成本效益的用例,而Gemini 2.0 Pro实验看起来很有希望,可用于长篇文化的理解和工具集成。实验模型,尤其是使用应用程序的Flash Thinking和Flash Thinking,引入了逻辑推理和无缝应用程序交互的可能性。
Google使用Gemini 2.0
为Genai模型奠定了基础,这些模型更感知了上下文,多模式并深入整合到我们的数字生态系统中。随着这些模型的发展,它们对AI驱动的工作流,内容产生和实时决策的影响只会增长。
常见问题
> Q1。什么是Gemini 2.0? Gemini 2.0是Google最新的AI Gen AI模型系列,旨在增强推理,多模式处理和高效任务。它包括Flash,Flash Lite,Pro和两个实验模型 - 使用应用程序的Flash Thinking和Flash Thinks。 Gemini 2.0与Openai的O3-Mini和DeepSeek R1相比如何? Gemini 2.0型号,尤其是Flash和Pro系列,就推理,效率和工具集成而言,直接与OpenAI的O3-Mini和DeepSeek R1竞争。 Gemini 2.0 Flash专注于速度和成本效益,而Gemini 2.0 Pro实验在复杂的推理和编码方面表现出色。 Gemini 2.0 Flash和Flash Lite有什么区别? The key differences between Gemini 2.0 Flash and Flash Lite are as follows:
Gemini 2.0 Flash: Designed for high-throughput tasks, offering speed, efficiency, and a 1M token context window.Gemini 2.0 Flash Lite: A budget-friendly version with similar capabilities but optimized for lower-cost applications. > Q4。 Gemini 2.0中有多少个实验模型? Gemini2.0中的当前有2个实验模型:
flash思维实验:增强了逻辑推理和解决问题的方法。
使用应用程序的闪光思考:
构建思维模型,但基于思维模型,但与Google搜索,Maps和YouTube和YouTube等外部应用程序集成在一起,实现了现实的互动。如何访问Gemini 2.0型号?您可以通过以下方式访问这些模型:gemini 2.0 flash:
>在Google AI Studio(免费)中可用,而Vertex ai。用户。 gemini 2.0 Pro实验:在Google AI Studio(免费)和Gemini Advanced(付费)中可用
以上是如何免费访问Google Gemini 2.0型号?的详细内容。更多信息请关注PHP中文网其他相关文章!