


Musks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten
Musks multimodales Modell Grok-1.5V der ersten Generation ist endlich da!
Grok 1,5V behauptet, die digitale Welt und die physische Welt verbinden zu können.
Neben Textfunktionen können auch verschiedene visuelle Informationen wie Dokumente, Symbole, Screenshots und Fotos verarbeitet werden.
Bald wird Grok 1,5V für alle frühen Tester und alle Grok-Benutzer verfügbar sein.
Jim Fan, ein leitender Wissenschaftler bei NVIDIA, hat das „größte Highlight“ von Grok-1.5V entdeckt: Seiner Ansicht nach ist das Interessanteste an Grok-1.5V sein Potenzial, Randfälle der Autonomie zu lösen Fahren .
Durch die Verwendung der „Denkkette“ kann es dem Auto helfen, komplexe Szenarien zu lösen, mit Regeln und Kontrafakten zu argumentieren und seine Entscheidungsfindung zu erklären, wodurch die Wahrnehmung auf Pixelebene verbessert werden kann Förderung der Operationszuordnung als Pixel->Action.
Daher wird Tesla FSD V13 wahrscheinlich Sprachtoken verstehen!
Der Vorteil von Tesla besteht darin, dass es über eine hoch ausgereifte Datenverwaltungslinie verfügt, sodass es nicht schwierig ist, eine große Anzahl von Grenzfällen mit hochwertigen menschlichen Interpretationsspuren zu kennzeichnen. Bei der multimodalen FSD-Überlegung ist die Feinabstimmung der Leistung von Grok wahrscheinlich weitaus besser als die von GPT-4V und Gemini.
Man könnte sagen, hatte Wayves LINGO-1 nicht schon früher ähnliche Ideen? Aber vergessen Sie nicht: Was Tesla in Umlauf bringt, ist ein beispielloses Datenschwungrad, viel größer als zuvor.
Musk erschien ebenfalls zum richtigen Zeitpunkt im Nachrichtenbereich und erläuterte weiter:
Es gibt zwei Datenquellen, die unendlich erweitert werden können: synthetische Daten und Videos aus der realen Welt. Bei ersterem stellt sich eine Frage der Authentizität, bei letzterem jedoch nicht.
Einige Internetnutzer sagten: „Gute Leute, das klingt nach dem machbarsten Weg zu AGI!“ Multimodale Modelle mit expliziter linguistischer Argumentation zur konsistenten Ableitung von Weltmodellen.
Modellfähigkeiten
Auf der offiziellen Website von xAI wird Grok-1.5V so vorgestellt.
Es kann mit den besten multimodalen Modellen wie GPT-4V, Claude 3 Sonnet, Claude 3 Opus usw. konkurrieren.
Ob es um multidisziplinäres Denken oder Dokumentenverständnis, wissenschaftliche Diagramme, Tabellen, Screenshots und Fotos usw. geht, Grok-1.5V kann mit ihnen mithalten.
Besonders überraschend ist seine herausragende Fähigkeit, die physische Welt zu verstehen.
Im RealWorldQA-Benchmark-Test wurde Grok ohne Eingabeaufforderungen und Null-Stichproben-Einstellungen mit dem folgenden Datensatz bewertet. Es ist ersichtlich, dass Grok besser abschneidet als ähnliche Modelle.
Die folgenden 7 repräsentativen Beispiele veranschaulichen die gute Leistung von Grok 1,5V in verschiedenen Szenarien.
1. Schreiben Sie Code basierend auf dem Diagramm
Die folgende Abbildung zeigt das Flussdiagramm eines einfachen Ratespiels, mit dem Grok den Prozess basierend auf dem spezifischen Inhalt des Flussdiagramms implementieren kann.
Benutzer:
Können Sie es in Python-Code übersetzen?
Grok:
Natürlich! Dieses Flussdiagramm zeigt ein einfaches Ratespiel, bei dem der Computer eine Zufallszahl generiert und der Benutzer erraten muss, um welche Zahl es sich handelt. Hier ist der Python-Code, der die Logik im Flussdiagramm darstellt:
import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()
Dieser Code führt das im Flussdiagramm beschriebene Ratespiel aus. Der Benutzer wird aufgefordert, die erratene Zahl einzugeben, bis der Benutzer die richtige Zahl errät.
2. Kalorien berechnen
Anhand der Nährwertzutatenliste des Lebensmittels kann Grok erkennen, dass das Lebensmittel 3 Stück pro Portion enthält und 60 Kalorien enthält Lebensmittel Die Gesamtkalorienzahl beträgt 100.
Benutzer:
Wie viele Kalorien haben 5 Tabletten?
Grok:
Wenn eine Portion 3 Scheiben enthält und die Gesamtkalorien 60 Kalorien betragen, dann haben 5 Scheiben etwa 100 Kalorien.
Bestimmen Sie zunächst die Kalorien pro Scheibe: 60 Kalorien ÷ 3 Scheiben = 20 Kalorien/Scheibe.
Als nächstes multiplizieren Sie die Kalorien pro Scheibe mit der Anzahl der Scheiben: 20 Kalorien x 5 Scheiben = 100 Kalorien.
3. Vom Gemälde zur Gutenachtgeschichte
Grok kann eine kurze Gutenachtgeschichte basierend auf dem Inhalt des Gemäldes erzählen.
Zum Beispiel das folgende Gekritzel:
Benutzer:
Das hat mein Sohn gezeichnet. Kannst du anhand seiner Zeichnung eine Gute-Nacht-Geschichte erzählen?
Grok:
Vor langer Zeit lebte in einem Land voller Abenteuer und Wunder ein mutiger kleiner Junge namens Timmy. Er lebt mit seiner Familie in einer warmen Hütte und liebt nichts mehr, als die Welt um sich herum zu erkunden.
An einem sonnigen Tag beschloss Timmy, den nahegelegenen Wald zu erkunden. Er packt seine Lieblingssnacks, einen Kompass und sein zuverlässiges Notizbuch ein, um all die erstaunlichen Dinge aufzuzeichnen, die er gleich sehen wird.
Nachdem Timmy tief in den Wald gegangen war, entdeckte er einen magischen Fluss, der in der Sonne glitzerte. Die bezaubernde Landschaft des Flusses veranlasste ihn, ein kleines Papierboot zu bauen und es als besonderen Gruß an die Waldgeister auf dem Wasser zu platzieren.
Timmy faltete das Papierboot sorgfältig zusammen und zeichnete ein Smiley-Gesicht darauf, um seine Liebe und seinen Segen für die Waldelfen auszudrücken. Dann setzte er das Papierboot vorsichtig in den Fluss und sah zu, wie es mit dem Wasser davontrieb.
Als die Sonne unterging, wusste Timmy, dass es Zeit war, nach Hause zu gehen. Er dachte an seinen Tag im Wald zurück und wusste, dass diese wundervolle Erinnerung für immer bei ihm bleiben würde.
Als er nach Hause kam, erzählte Timmy seiner Familie von seinem Abenteuer. Die Familie war sehr glücklich, als sie das hörte, und glaubte, dass er in Zukunft noch weitere aufregende Abenteuer erleben würde.
Mit einem Herzen voller Liebe und Träume schlief Timmy langsam ein und freute sich darauf, neue Abenteuer in seiner Fantasiewelt zu erkunden.
4. Verstehen Sie das Meme
Das folgende Meme zeigt links ein Start-up-Unternehmen und rechts ein großes Unternehmen.
Der Redakteur hat es auf den ersten Blick nicht verstanden. Nachdem ich Groks Erklärung gelesen hatte, dämmerte es mir plötzlich.
Benutzer:
Ich verstehe dieses Bild nicht ganz, bitte erklären Sie es.
Grok:
这幅图幽默地展示了初创企业和大公司在工作方式上的差异。
在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。
而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。
这幅图的幽默之处在于夸大了两种组织形态的不同。
初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。
5. 将表格转换为CSV
Grok可以将表格内容转换成CSV格式。
用户:
请将这个表转换为CSV格式。
Grok:
图像中的表格可以转换成CSV格式,如下所示:
medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。
6. 地板上的腐烂木头,都能给出建议
地板上的木材腐烂了怎么办?
照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。
用户:
我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?
Grok:
这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。
为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。
如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。
7. 解决编码问题
编码问题,Grok-1.5V也是不在话下。
用户:
你能写出解决这个问题的Python代码吗?
Grok:
def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left
Verständnis für die reale Welt
Die Entwicklung nützlicher KI-Assistenten für die reale Welt, die das Verständnis der Modelle für die physische Welt verbessern, ist von entscheidender Bedeutung.
Um dieses Ziel zu erreichen, hat das Forschungsteam außerdem einen neuen Benchmark eingeführt – RealWorldQA.
Dieser Benchmark kann verwendet werden, um die Fähigkeit multimodaler Modelle zu bewerten, grundlegende Räume der realen Welt zu verstehen.
Während viele Beispiele in aktuellen Benchmarks für Menschen relativ einfach zu verstehen sind, stellen sie für hochmoderne Modelle immer noch eine Herausforderung dar.
Die erste Version von RealWorldQA enthält über 700 Bilder, jedes mit einer Frage und einer leicht zu überprüfenden Antwort.
Wenn wir zum Beispiel fragen: Welcher Gegenstand ist größer, der Pizzaschneider oder die Schere auf dem Bild?
Die Antwort von Grok lautet: Sie sind ungefähr gleich groß.
Wohin kann ich von der aktuellen Spur aus gehen? A. Links abbiegen B. Geradeaus fahren C. Links abbiegen und geradeaus fahren D. Rechts abbiegen
Grok wählt A.
Ist der Kamera vor dem Auto nach zu urteilen, gibt es genug Platz, um das graue Auto davor zu umgehen?
Groks Antwort lautet: Ja.
In welche Richtung blickt der Dinosaurier auf diesem Bild?
Grok antwortete: Osten.
Dieser Datensatz enthält neben anderen realen Bildern auch anonymisierte Bilder, die von Fahrzeugen aufgenommen wurden.
Das Forschungsteam hat diesen Datensatz als Open Source bereitgestellt und hofft, den Datensatz im Zuge der Verbesserung des multimodalen Modells weiter ausbauen zu können.
Abschließend kam die offizielle Website von xAI zu dem Schluss, dass sie sich durch die Verbesserung des multimodalen Verständnisses und der Generierungsfähigkeiten schrittweise dem Aufbau einer nützlichen AGI nähern werden, die das Universum verstehen kann.
Es wird geschätzt, dass wir in den nächsten Monaten auch erhebliche Verbesserungen dieser beiden Funktionen in den Bereichen Bild, Audio, Video und anderen multimodalen Modi sehen werden.
Das obige ist der detaillierte Inhalt vonMusks neues Werk! Schockierende Veröffentlichung des multimodalen Modells Grok-1.5V: perfekte Integration digitaler und physischer Welten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Börsen, die Cross-Chain-Transaktionen unterstützen: 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Kurvenfinanzierung, 5. Thorchain, 6. 1inch Exchange, 7. DLN-Handel, diese Plattformen unterstützen Multi-Chain-Asset-Transaktionen durch verschiedene Technologien.

Binance ist der Overlord des Global Digital Asset Trading -Ökosystems, und seine Merkmale umfassen: 1. Das durchschnittliche tägliche Handelsvolumen übersteigt 150 Milliarden US -Dollar, unterstützt 500 Handelspaare, die 98% der Mainstream -Währungen abdecken. 2. Die Innovationsmatrix deckt den Markt für Derivate, das Web3 -Layout und den Bildungssystem ab; 3. Die technischen Vorteile sind Millisekunden -Matching -Engines mit Spitzenvolumina von 1,4 Millionen Transaktionen pro Sekunde. 4. Compliance Progress hält 15 Länderlizenzen und legt konforme Einheiten in Europa und den Vereinigten Staaten ein.

Faktoren der steigenden Preise für virtuelle Währung sind: 1. Erhöhte Marktnachfrage, 2. Verringertes Angebot, 3.. Rückgangsfaktoren umfassen: 1. Verringerte Marktnachfrage, 2. Erhöhtes Angebot, 3. Streik der negativen Nachrichten, 4. Pessimistische Marktstimmung, 5. makroökonomisches Umfeld.

Worldcoin (WLD) fällt auf dem Kryptowährungsmarkt mit seinen einzigartigen biometrischen Überprüfungs- und Datenschutzschutzmechanismen auf, die die Aufmerksamkeit vieler Investoren auf sich ziehen. WLD hat mit seinen innovativen Technologien, insbesondere in Kombination mit OpenAI -Technologie für künstliche Intelligenz, außerdem unter Altcoins gespielt. Aber wie werden sich die digitalen Vermögenswerte in den nächsten Jahren verhalten? Lassen Sie uns den zukünftigen Preis von WLD zusammen vorhersagen. Die Preisprognose von 2025 WLD wird voraussichtlich im Jahr 2025 ein signifikantes Wachstum in WLD erzielen. Die Marktanalyse zeigt, dass der durchschnittliche WLD -Preis 1,31 USD mit maximal 1,36 USD erreichen kann. In einem Bärenmarkt kann der Preis jedoch auf rund 0,55 US -Dollar fallen. Diese Wachstumserwartung ist hauptsächlich auf Worldcoin2 zurückzuführen.

Der Sprung in den Kryptowährungsmarkt hat bei den Anlegern Panik verursacht, und Dogecoin (DOGE) ist zu einem der am stärksten getroffenen Bereiche geworden. Der Preis fiel stark, und die Gesamtwertsperrung der dezentralen Finanzierung (DEFI) (TVL) verzeichnete ebenfalls einen signifikanten Rückgang. Die Verkaufswelle von "Black Monday" fegte den Kryptowährungsmarkt, und Dogecoin war der erste, der getroffen wurde. Die Defitvl fiel auf 2023 und der Währungspreis fiel im vergangenen Monat um 23,78%. Die Defitvl von Dotecoin fiel auf ein Tiefpunkt von 2,72 Millionen US -Dollar, hauptsächlich aufgrund eines Rückgangs des SOSO -Wertindex um 26,37%. Andere große Defi -Plattformen wie die langweilige DAO und Thorchain, TVL, fielen ebenfalls um 24,04% bzw. 20.

Die Plattformen, die im Jahr 2025 im Leveraged Trading, Security und Benutzererfahrung hervorragende Leistung haben, sind: 1. OKX, geeignet für Hochfrequenzhändler und bieten bis zu 100-fache Hebelwirkung; 2. Binance, geeignet für Mehrwährungshändler auf der ganzen Welt und bietet 125-mal hohe Hebelwirkung; 3. Gate.io, geeignet für professionelle Derivate Spieler, die 100 -fache Hebelwirkung bietet; 4. Bitget, geeignet für Anfänger und Sozialhändler, die bis zu 100 -fache Hebelwirkung bieten; 5. Kraken, geeignet für stetige Anleger, die fünfmal Hebelwirkung liefert; 6. Bybit, geeignet für Altcoin -Entdecker, die 20 -fache Hebelwirkung bietet; 7. Kucoin, geeignet für kostengünstige Händler, die 10-fache Hebelwirkung bietet; 8. Bitfinex, geeignet für das Seniorenspiel

In der geschäftigen Welt der Kryptowährungen entstehen immer neue Möglichkeiten. Gegenwärtig zieht Kerneldao (Kernel) Airdrop -Aktivität viel Aufmerksamkeit auf sich und zieht die Aufmerksamkeit vieler Investoren auf sich. Also, was ist der Ursprung dieses Projekts? Welche Vorteile können BNB -Inhaber davon bekommen? Machen Sie sich keine Sorgen, das Folgende wird es einzeln für Sie enthüllen.

Aavenomics ist ein Vorschlag zur Änderung des Aave -Protokoll -Tokens und zur Einführung von Token -Repos, die ein Quorum für Aavedao implementiert hat. Marc Zeller, Gründer der AAVE -Projektkette (ACI), kündigte dies auf X an und stellte fest, dass sie eine neue Ära für die Vereinbarung markiert. Marc Zeller, Gründer der Aave Chain Initiative (ACI), kündigte auf X an, dass der Aavenomics -Vorschlag das Modifizieren des Aave -Protokoll -Tokens und die Einführung von Token -Repos umfasst, hat ein Quorum für Aavedao erreicht. Laut Zeller ist dies eine neue Ära für die Vereinbarung. AVEDAO -Mitglieder stimmten überwiegend für die Unterstützung des Vorschlags, der am Mittwoch 100 pro Woche betrug
