Google hat kürzlich sein neues generatives KI -Modell Gemini veröffentlicht. Es resultiert aus einer gemeinsamen Anstrengung einer Reihe von Teams bei Google, einschließlich Mitgliedern von Google Research.
Das Modell, das Google als die fähigste und allgemeinste KI bezeichnet, die sie bisher entwickelt haben, wurde als multimodal entwickelt. Dies bedeutet, dass Gemini verschiedene Datentypen wie Text, Audio, Bilder, Video und Code verstehen kann.
Für den Rest dieses Artikels werden wir:
behandelnAm 6. Dezember 2023 kündigte Google DeepMind Gemini 1.0 an. Bei der Veröffentlichung beschrieb Google es als ihre fortschrittlichste Menge von Großsprachemodellen (LLMs) und ersetzte damit das Langauge -Modell (Palm 2), die im Mai desselben Jahres debütierten.
Gemini definiert eine Familie multimodaler LLMs, die in der Lage sind, Texte, Bilder, Videos und Audio zu verstehen. Es soll auch in der Lage sein, komplexe Aufgaben in Mathematik und Physik auszuführen und in mehreren Programmiersprachen einen qualitativ hochwertigen Code zu generieren.
Fun Fakt: Sergey Brin, Mitbegründer von Google, wird als einer der Mitwirkenden des Gemini-Modells zugeschrieben.
Bis vor kurzem bestand das Standardverfahren für die Entwicklung multimodaler Modelle aus der Ausbildung einzelner Komponenten für verschiedene Modalitäten und der Zusammensetzung, um einen Teil der Funktionalität nachzuahmen. Solche Modelle zeichneten sich gelegentlich aus, bestimmte Aufgaben auszuführen, z. B. die Beschreibung von Bildern, aber sie haben Probleme mit einem ausgefeilteren und komplexeren Denken.
Gemini wurde als nativ multimodal entwickelt; Somit wurde es von Anfang an auf mehrere Modalitäten vorgebracht. Um seine Wirksamkeit weiter zu verfeinern, hat Google es mit zusätzlichen multimodalen Daten abgestimmt.
Infolgedessen ist Gemini deutlich fähiger als vorhandene multimodale Modelle, um eine Vielzahl von Inputs von Grund auf zu verstehen und zu argumentieren, so Sundar Pichai, CEO von Google und Alphabet, sowie Demis Hassabis, CEO und Co-Co-Gründung von Google DeepMind. Sie geben auch an, dass die Fähigkeiten von Gemini „hochmoderne Kunst in fast jeder Domäne“ sind.
Zu den Schlüsselmerkmalen des Gemini -Modells gehören:
multimodales KI ist ein neues AI -Paradigma -Gewinntrieb, bei dem verschiedene Datentypen mit mehreren Algorithmen zusammengeführt werden, um eine höhere Leistung zu erzielen. Gemini nutzt dieses Paradigma, was bedeutet, dass es gut in verschiedene Datentypen integriert ist. Sie können Bilder, Audio, Text und andere Datentypen eingeben, was zu natürlicheren KI -Interaktionen führt.
Gemini nutzt die TPUV5-Chips von Google und macht es angeblich fünfmal stärker als GPT-4. Eine schnellere Verarbeitung macht Gemini in der Lage, komplexe Aufgaben relativ einfach anzugehen und mehrere Anforderungen gleichzeitig zu bearbeiten.
Gemini wurde auf einem enormen Datensatz von Text und Code trainiert. Dies stellt sicher, dass das Modell auf die aktuellsten Informationen zugreifen und genaue und zuverlässige Antworten auf Ihre Abfragen liefern kann. Laut Google übertrifft das Modell OpenAs GPT-4- und „Expert-Level“-Menschen in verschiedenen Intelligenz-Tests (z. B. MMLU-Benchmark).
Gemini 1.0 kann in den am häufigsten verwendeten Programmiersprachen wie Python, Java, C und GO hochwertige Code verstehen, erklären und generieren-dies macht es zu einem der führenden Fundamentmodelle für die globale Codierung.
Das Modell zeichnet sich auch in mehreren Codierungsbenchmarks aus, darunter Humaneval, einem hoch angesehenen Industriestandard zur Bewertung der Leistung bei Codierungsaufgaben; Es wurde auch in Googles internem Datensatz gut abgewickelt, wodurch der mit dem Autor erstellte Code anstelle von Informationen aus dem Web nutzt.
neue Schutzmaßnahmen hinzugefügt, um die multimodalen Funktionen von Gemini zu berücksichtigen. Google sagt: "Gemini hat bisher die umfassendsten Sicherheitsbewertungen eines Google -AI -Modells, einschließlich der Verzerrung und Toxizität." Sie sagten auch, sie hätten "neuartige Forschungen zu potenziellen Risikobereichen wie Cyber-Straftaten, Überzeugung und Autonomie durchgeführt und Google Researchs erstklassigen kontroversen Testtechniken angewendet, um kritische Sicherheitsprobleme im Vorfeld der Bereitstellung von Gemini zu identifizieren."
Was sind die Versionen von Gemini?Die erste Version von Gemini, nicht überraschend benannt Gemini 1.0, wurde in drei verschiedenen Größen veröffentlicht:
Seit dem 13. Dezember 2023 konnten Entwickler und Unternehmenskunden über die API von Gemini in Google AI Studio oder Google Cloud Vertex AI auf Gemini Pro zugreifen.
Hinweis Google AI Studio ist eine frei verfügbare Browser-basierte IDE, mit der Entwickler generative Modelle Prototypen verwenden und Anwendungen mithilfe eines API-Schlüssels problemlos starten können. Google Cloud Vertex hingegen ist eine vollständig verwaltete KI -Plattform, die alle Tools bietet, die zum Erstellen und Gebrauch generativer KI erforderlich sind. Laut Google ermöglicht „Vertex AI die Anpassung von Gemini mit vollständiger Datenregelung und profitiert von zusätzlichen Google -Cloud -Funktionen für Unternehmenssicherheit, Sicherheit, Datenschutz sowie Datenregierungsführung und Compliance.“
Durch Aicore, ein neues Systemfunktion mit Android 14, können Android-Entwickler aus Pixel 8 Pro-Geräten mit Gemini Nano erstellen, dem effizientesten Modell für On-Device-Aufgaben.
Die Gemini -Modelle wurden vor ihrer Veröffentlichung umfangreiche Tests über eine breite Palette von Aufgaben unterzogen. Laut Google übertrifft sein Gemini Ultra-Modell die vorhandenen hochmodernen Ergebnisse von 30 der 32 häufig verwendeten akademischen Benchmarks für LLM-Forschung und -entwicklung. Beachten Sie, dass diese Aufgaben vom natürlichen Bild, Audio und Videoverständnis bis hin zum mathematischen Denken reichen.
In einem Gemini-Einführungs-Blog-Beitrag ist Google, dass Gemini Ultra das erste Modell ist, das menschliche Experten zum massiven Multitasking-Sprachverständnis (MMLU) mit einer Punktzahl von 90,0%übertroffen hat. Beachten
Die neue MMLU -Benchmark -Methode an MMLU ermöglicht es Gemini, erhebliche Verbesserungen vorzunehmen, anstatt nur seine ersten Eindrücke zu nutzen, indem er seine Argumentationsbefugnis nutzt, um gründlicher zu überlegen, bevor sie auf herausfordernde Fragen antworten.Hier ist, wie Gemini bei Textaufgaben ausgeführt wurde:
Die Ergebnisse zeigen, dass Gemini auf einer Vielzahl von Benchmarks, einschließlich Text und Codierung, die Leistung der modernen Leistung übertrifft. [Quelle]
Das Gemini-Ultra-Modell erreichte auch das neue MMMU-Benchmark (Multidiscipline Multimodal Understanding) mit einer Punktzahl von 59,4%. Diese Bewertung besteht aus multimodalen Aufgaben in verschiedenen Bereichen, die absichtliche Argumente erfordern.
Google sagte, „Mit den von uns getesteten Bildbenchmarks übertraf die frühere Modelle der Gemini Ultra übertriffte frühere Modelle auf dem neuesten Stand der Technik ohne Unterstützung von optischen Charaktererkennungssystemen (OCR), die Text aus den Bildern zur weiteren Verarbeitung extrahieren.”
Die Ergebnisse zeigen, dass Gemini auch die hochmoderne Leistung auf einer Vielzahl multimodaler Benchmarks übertrifft. [Quelle]
Die von Gemini festgelegten Benchmarks demonstrieren die angeborene Multimodalität des Modells und zeigen frühe Beweise für seine Fähigkeit für ausgefeiltere Argumentation.
Die offensichtliche Frage, die normalerweise als nächstes stellt, lautet: „Wie vergleichen sich Gemini mit GPT-4?“
Beide Modelle haben ähnliche Funktionssätze und können mit Text-, Bild-, Video-, Audio- und Codedaten interagieren und interpretieren, sodass Benutzer sie auf verschiedene Aufgaben anwenden können.
Benutzer beider Tools haben die Möglichkeit, Fakten zu überprüfen, aber wie sie diese Funktionalität bereitstellen, ist unterschiedlich. Wenn OpenAIs GPT-4 Quelllinks für die von ihm geltenden Behauptungen enthält, ermöglicht Gemini den Benutzern, eine Google-Suche durchzuführen, um die Antwort zu bestätigen, indem Sie auf eine Schaltfläche klicken.
Es ist auch möglich, beide Modelle mit zusätzlichen Erweiterungen zu erweitern, obwohl das Gemini -Modell von Google zum Zeitpunkt des Schreibens viel begrenzter ist.
Zum Beispiel ist es möglich, Google -Tools wie Flüge, Karten, YouTube und ihre Auswahl an Arbeitsbereichsanwendungen mit Gemini zu verwenden. Im Gegensatz dazu gibt es eine weitaus größere Auswahl an Plug-Ins und Erweiterungen für OpenAIs GPT-4, von denen die meisten von Dritten erstellt werden. Mit GPT-4 ist auch die Bildung von Bild auf der Fliege möglich. Gemini ist so konzipiert, dass sie zu solcher Funktionen fähig sein kann, aber zum Zeitpunkt des Schreibens kann es nicht.
Andererseits sind die Reaktionszeiten von Gemini schneller als die von GPT-4, was gelegentlich verlangsamt oder vollständig unterbrochen werden kann, weil sie auf der Plattform bloße Benutzervolumen haben.
Gemini -Modelle von Google können verschiedene Aufgaben in verschiedenen Modalitäten wie Text, Audio, Bild und Videoverständnis ausführen.
verschiedene Modalitäten kombinieren, um die Ausgabe zu verstehen und zu erzeugen, ist auch aufgrund der multimodalen Natur von Gemini möglich.
Beispiele für Anwendungsfälle für Gemini gehören:
Gemini -Modelle können Inhalte aus verschiedenen Datentypen zusammenfassen. Laut einem Forschungspapier mit dem Titel Gemini: Steuerung des Satzebenes auf Satzebene in der abstrakten Textübersicht integriert das Gemini-Modell „integriert Umschreibungen und einen Generator, um das Umschreiben und Abtrkten von Satztechniken nachzuahmen.
, nämlich, wählt Gemini adaptiv aus, ob ein bestimmter Dokumentsatz umschreibt oder einen zusammenfassenden Satz vollständig von Grund auf neu erstellt. Die Ergebnisse der Experimente zeigten, dass der von Gemini verwendete Ansatz die reinen abstrakten und umgeschriebenen Baselines auf drei Benchmark -Datensätzen übertraf und die besten Ergebnisse zu WikiHow erzielte.Textgenerierung
Es kann auch zum kreativen Schreiben verwendet werden, z. B. für die Mitautorisierung eines Romans, zum Schreiben von Gedichten in verschiedenen Stilen oder zum Generieren von Skripten für Filme und Theaterstücke. Dies kann die Produktivität kreativer Schriftsteller erheblich steigern und die durch den Writer's Block verursachte Spannung verringern.
Textübersetzung & Audioverarbeitung
Bild- und Videoverarbeitung
Codeanalyse und Generation
Schlussfolgerung
Das Modell hat in verschiedenen Aufgaben modernste Fähigkeiten erreicht, und viele bei Google glauben, dass es einen bedeutenden Sprung nach vorne darstellt, wie KI unser tägliches Leben verbessern kann.
Setzen Sie Ihr Lernen mit den folgenden Ressourcen fort:
Und bevor Sie gehen, vergessen Sie nicht, unseren YouTube -Kanal zu abonnieren. Wir haben großartige Inhalte für die relevantesten und trendigsten Themen, einschließlich eines Tutorials zum Erstellen von multimodalen Apps mit Gemini.
Das obige ist der detaillierte Inhalt vonWas ist Google Gemini? Alles, was Sie über den Chatgpt -Rivalen von Google wissen müssen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!