Die maßgebliche Liste der „Large Model Qualifying Competition“ Chatbot Arena wurde aktualisiert:
Google Bard übertraf GPT-4 und belegte den zweiten Platz, nur der zweite nach GPT-4 Turbo.
Viele Internetnutzer äußerten jedoch „Unzufriedenheit“ und „unfair“ darüber.
Es stellte sich heraus, dass Jeff Dean, der Leiter von Google AI, verriet, dass die Leistung von Bard erheblich verbessert wurde, weil er mit einer neuen Version des großen Modells Gemini Pro-scale ausgestattet ist.
Das bedeutet auch, dass Bard, der „Ranglistenspiele“ spielt, die Möglichkeit hat, eine Verbindung zum Internet herzustellen.
Die Zweifel der Internetnutzer drehen sich um diesen Punkt:
Es ist äußerst leicht, Missverständnisse zu verursachen, wenn große Online- und Offline-Modelle auf derselben Rangliste gemischt werden.
Omar Sanseviero, „Chief Alpaca Officer“ von Hugging Face, sagte auch:
Kann ich in diesem Fall auch Mixtral mit Suchfunktion an lmsys übermitteln?
Angesichts verschiedener Zweifel antwortete Imsys offiziell:
Und direkt @OpenAI und Bing sowie der Microsoft-Manager Mikhail Parakhin haben ihre Bereitschaft zum Ausdruck gebracht, die GPT-4-Onlineversion oder Bing Copilot in die Arena aufzunehmen.
Die neueste Nachricht ist, dass das neueste Modell gpt-4-0125-preview von OpenAI nun die Arena betreten hat und darauf wartet, dass Benutzer an der Abstimmung teilnehmen.
Wie hat Bard GPT-4 übertroffen?
Dieses Ranking verwendet anonyme 1V1Battle-Abstimmungsregeln und wird basierend auf dem Elo-Bewertungssystem bewertet.
Im Einzelnen sieht die Abstimmungsseite wie folgt aus: Die beiden Modelle, Modell A und B, sind beide anonym. Benutzer bewerten die Antworten des Modells, nachdem sie mehrere Fragen gestellt haben: A ist besser, B ist besser. und A und B. Sowohl A als auch B sind gleich gut.
Es ist erwähnenswert, dass die Abstimmung ungültig ist, wenn die Identität des Models während des Frage- und Antwortvorgangs preisgegeben wird.
Laut aktueller Liste gibt es 56 große Modelle in der Arena:
Zuvor dominierte GPT-4 mit seinem „weit vorne“-Score lange Zeit die Liste, nach der Veröffentlichung jedoch Mit der neuen Version von Bard übertraf sie GPT direkt. Die beiden Versionen von 4 stürmten auf den zweiten Platz und lagen nur 34 Punkte hinter dem GPT-4 Turbo auf dem ersten Platz:
Genauer gesagt, in allen Modellen A-gegen-B-Matchups ohne Unentschieden, Modell Das Gewinnverhältnis von A ist wie folgt:
und die Anzahl der Heads-up-Matches für jedes Paar von Modellkombinationen
(kein Unentschieden):
Darüber hinaus verwenden Chatbot Arena-Bestenlisten Bootstrapping, um Elo-Score-Schätzungen 1.000 Mal nach dem Zufallsprinzip abzufragen, um Konfidenzintervalle und mehr auszuwerten.
Die durchschnittliche Gewinnquote eines einzelnen Modells im Vergleich zu allen anderen Modellen ist wie folgt:
Es ist jedoch zu beachten, dass die Arena-Rangliste in Echtzeit erfolgt und Bard derzeit auf dem zweiten Platz liegt, es hat insgesamt nur mehr als 3.000 Stimmen.
Im Vergleich dazu hat die Anzahl der Stimmen für GPT-4 Turbo über 30.000 erreicht, und die Stimmen der beiden übertroffenen Versionen sind ebenfalls um ein Vielfaches höher als die von Bard.
Da nun die neueste Version von GPT-4 auf den Markt gekommen ist (obwohl sie in der Rangliste noch nicht aktualisiert wurde), müssen wir auf die weiteren Ergebnisse warten~
Referenzlink: https:// twitter.com/lmsysorg /status/1752035632489300239.
Das obige ist der detaillierte Inhalt vonGPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!