Vor einiger Zeit haben Forscher von LMSYS Org (unter der Leitung von UC Berkeley) eine große Neuigkeit gemacht – den großen Qualifizierungswettbewerb für Sprachmodellversionen!
Dieses Mal brachte das Team nicht nur 4 neue Spieler mit, sondern auch eine (quasi) chinesische Bestenliste.
Es besteht kein Zweifel, solange GPT-4 Wenn jemand am Kampf teilnimmt, steht Steady an erster Stelle.
Allerdings übertraf Claude unerwartet nicht nur GPT-3.5, was OpenAI zum Altar brachte, und belegte den zweiten Platz, sondern lag auch nur 50 Punkte hinter GPT-4.
Im Vergleich dazu liegt der drittplatzierte GPT-3.5 nur 72 Punkte höher als Vicuna, das stärkste Open-Source-Modell mit 13 Milliarden Parametern.
Das 14 Milliarden Parameter umfassende „reine RNN-Modell“ RWKV-4-Raven-14B setzt auf seine hervorragende Leistung, um alle Transformer-Modelle zu übertreffen und den 6. Platz zu belegen – mit Ausnahme des Vicuna-Modells steht RWKV im Wettbewerb mit allen anderen Open-Source-Modellen Mehr als 50 % der Spiele ohne Unentschieden gewonnen.
Darüber hinaus hat das Team auch zwei separate Rankings erstellt: „Nur Englisch“ und „Nicht-Englisch“ (meist auf Chinesisch).
Man sieht, dass sich die Rankings vieler Models deutlich verändert haben.
Zum Beispiel schnitt ChatGLM-6B, das mit mehr chinesischen Daten trainiert wurde, besser ab, und GPT-3.5 übertraf Claude ebenfalls erfolgreich und belegte den zweiten Platz.
Die Hauptmitwirkenden an diesem Update sind Sheng Ying, Lianmin Zheng, Hao Zhang, Joseph E. Gonzalez und Ion Stoica.
Sheng Ying ist einer der drei Gründer von LMSYS Org (die anderen beiden sind Lianmin Zheng und Hao Zhang) und Doktorand am Fachbereich Informatik der Stanford University.
Sie ist auch ein Werk des beliebten FlexGen-Systems, das 175B-Modellinferenz auf einer einzelnen GPU ausführen kann. Es hat derzeit 8.000 Sterne erhalten.
Papieradresse: https://arxiv.org/abs/2303.06865
Projektadresse: https://github.com/FMInference/FlexGen
Persönliche Homepage :https://sites.google.com/view/yingsheng/home
Mit Hilfe der Community sammelte das Team insgesamt 13.000 anonyme Stimmen und einige interessante Entdeckung.
Unter den drei proprietären Modellen ist das Claude-Modell von Anthropic bei Benutzern beliebter als GPT-3.5-Turbo.
Darüber hinaus zeigte Claude auch im Wettbewerb mit dem leistungsstärksten GPT-4 eine sehr konkurrenzfähige Leistung.
Der Siegestabelle unten nach zu urteilen, gewann Claude von den 66 Spielen ohne Unentschieden zwischen GPT-4 und Claude 32 (48 %).
In allen nicht unentschiedenen A-gegen-B-Kämpfen ist der Anteil der Sieger von Modell A
Allerdings besteht immer noch eine große Lücke zwischen anderen Open-Source-Modellen und diesen drei proprietären Modellen.
Insbesondere GPT-4 führt die Rangliste mit einem Elo-Score von 1274 an. Das sind fast 200 Punkte mehr als die beste Open-Source-Alternative auf der Liste, Vicuna-13B.
Nach dem Ausscheiden von Unentschieden gewann GPT-4 82 % der Spiele gegen Vicuna-13B und sogar 79 % gegen die vorherige Generation GPT-3.5-turbo.
Es ist jedoch erwähnenswert, dass diese Open-Source-Modelle auf der Bestenliste im Allgemeinen weniger Parameter haben als proprietäre Modelle und zwischen 3 und 14 Milliarden liegen.
Tatsächlich haben die jüngsten Fortschritte im LLM und in der Datenkuratierung es möglich gemacht, mit kleineren Modellen erhebliche Leistungsverbesserungen zu erzielen.
Googles neuestes PaLM 2 ist ein gutes Beispiel: Wir wissen, dass PaLM 2 bei Verwendung kleinerer Modellgrößen eine bessere Leistung als sein Vorgänger erzielt.
Daher ist das Team optimistisch, dass Open-Source-Sprachmodelle aufholen werden.
Im Bild unten hat ein Benutzer eine knifflige Frage gestellt, die sorgfältiges Nachdenken und Planung erfordert. Während Claude und GPT-4 ähnliche Antworten lieferten, war Claudes Antwort etwas besser.
Aufgrund der Zufälligkeit der Stichproben stellte das Team jedoch fest, dass diese Situation nicht immer reproduziert werden kann. Manchmal kann GPT-4 auch die gleiche Sequenz wie Claude liefern, aber es scheiterte in diesem Generationsversuch.
Darüber hinaus stellte das Team fest, dass sich GPT-4 bei Verwendung der OpenAI-API und der ChatGPT-Schnittstelle etwas anders verhält, was möglicherweise auf unterschiedliche Eingabeaufforderungen, Sampling-Parameter oder andere unbekannte Faktoren zurückzuführen ist.
Ein Beispiel für Benutzer, die Claude gegenüber GPT-4 bevorzugen
Im Bild unten haben sie trotz erstaunlicher Fähigkeiten von Claude und GPT-4 immer noch mit dieser Art komplexer Probleme zu kämpfen Argumentationsfragen.
Ein Beispiel, bei dem ein Benutzer denkt, dass sowohl Claude als auch GPT-4 falsch sind
Zusätzlich zu diesen kniffligen Situationen gibt es viele einfache Probleme, die keine komplexen Überlegungen oder Kenntnisse erfordern.
In diesem Fall können Open-Source-Modelle wie Vicuna eine mit GPT-4 vergleichbare Leistung erbringen, sodass wir möglicherweise stattdessen ein etwas schwächeres (aber kleineres oder billigeres) Large Language Model (LLM) wie leistungsstärkere Modelle wie GPT verwenden können -4.
Der Chatbot-Bereich war noch nie so wettbewerbsintensiv, seit drei leistungsstarke proprietäre Modelle beteiligt waren.
Da die Open-Source-Modelle im Spiel gegen proprietäre Modelle viele Spiele verloren, sanken ihre Elo-Werte.
Schließlich plant das Team auch die Öffnung einiger APIs, damit Benutzer ihre eigenen Chatbots registrieren können, um an Ranglistenspielen teilzunehmen.
Das obige ist der detaillierte Inhalt vonDie quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!