Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt-KI-php.cn

Heim

Technologie-Peripheriegeräte

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 24, 2023 am 09:25 AM

百度模型文心

Xi Xiaoyao Technology Talk Original
Autor |. Seling Mengjiang In den letzten Tagen hat unsere Community für öffentliche Accounts einen Screenshot mit dem Titel „SuperClue Review“ weitergeleitet. iFlytek hat es sogar auf seinem offiziellen Account beworben:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Da das iFlytek Spark-Modell gerade erst veröffentlicht wurde und ich es nicht viel gespielt habe, wage ich keine Aussage darüber, ob es wirklich das leistungsstärkste ist eines, das in China hergestellt wurde.

Aber im Screenshot dieser Bewertung kann Baidu Wenxinyiyan, das derzeit beliebteste inländische Modell, nicht einmal ein kleines akademisches Open-Source-Modell ChatGLM-6B schlagen. Dies steht nicht nur in ernsthaftem Widerspruch zu den eigenen Erfahrungen des Autors, sondern in unserer professionellen NLP-Technologie-Community äußerten auch alle Verwirrung:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Aus Neugier ging der Autor zu dieser Superclue-Liste Github, die ich sehen möchte wie diese Bewertungsschlussfolgerung gezogen wird: https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2

Zunächst bemerkte der Autor, dass es bei diesem Repo einige Probleme gibt:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Es scheint dass dieses empörende Gefühl nicht nur vom Autor geteilt wird, sondern erwartungsgemäß die Augen des Publikums immer noch scharf sind. . .

Der Autor hat sich die Bewertungsmethode dieser Liste genauer angesehen:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Guter Kerl, es stellt sich heraus, dass es bei den sogenannten Tests großer generativer Modelle ausschließlich darum geht, das Modell zu bitten, Multiple-Choice-Fragen zu beantworten. . .

Offensichtlich zielt diese Multiple-Choice-Bewertungsmethode auf das diskriminierende KI-Modell in der BERT-Ära ab. Damals verfügte das KI-Modell im Allgemeinen nicht über die Fähigkeit zur Generierung, sondern nur zur Unterscheidung (z. B , es kann bestimmen, zu welcher Kategorie ein Text gehört (unter den Optionen Welche ist die richtige Antwort auf eine Frage, beurteilen, ob die Semantik zweier Texte konsistent ist usw.).

Die Bewertung generativer Modelle unterscheidet sich deutlich von der Bewertung diskriminierender Modelle.

Für eine spezielle Generierungsaufgabe wie die maschinelle Übersetzung werden beispielsweise Bewertungsindikatoren wie BLEU im Allgemeinen verwendet, um die „Vokabular- und Phrasenabdeckung“ zwischen den vom Modell generierten Antworten und den Referenzantworten zu ermitteln. Allerdings gibt es nur sehr wenige generative Aufgaben mit Referenzantworten wie maschinelle Übersetzung, und die überwiegende Mehrheit der generativen Auswertungen erfordert eine manuelle Auswertung.

Zum Beispiel erfordern Generierungsaufgaben wie die Generierung von Dialogen im Chat-Stil, die Übertragung von Textstilen, die Generierung von Kapiteln, die Generierung von Titeln und die Zusammenfassung von Texten, dass jedes Modell ausgewertet wird, um Antworten frei zu generieren, und dann die Qualität der von generierten Antworten manuell zu vergleichen Sie können diese verschiedenen Modelle verwenden oder manuell feststellen, ob die Aufgabenanforderungen erfüllt sind.

Bei der aktuellen Runde des KI-Wettbewerbs handelt es sich um einen Wettbewerb um Fähigkeiten zur Modellgenerierung, nicht um einen Wettbewerb um Fähigkeiten zur Modellunterscheidung. Das aussagekräftigste Kriterium für die Bewertung ist die echte Reputation des Benutzers und nicht mehr kalte akademische Listen. Darüber hinaus handelt es sich um eine Liste, in der die Funktionen zur Modellgenerierung überhaupt nicht getestet werden.

Rückblick auf die letzten Jahre –

Im Jahr 2019, als OpenAI GPT-2 veröffentlichte, häuften wir Tricks an, um die Rangliste aufzufrischen;

Im Jahr 2020, als OpenAI GPT-3 veröffentlichte, häuften wir Tricks an Aktualisieren Sie die Rangliste ;

In den Jahren 2021-2022, als Instruktionsoptimierung und RLHF-Arbeit wie FLAN, T0, InstructGPT usw. ausbrachen, haben wir immer noch viele Teams, die darauf bestehen, Tricks zu stapeln, um die Rangliste aufzufrischen...

Das hoffe ich dass wir in dieser Welle des generativen Modell-Wettrüstens nicht noch einmal dieselben Fehler machen.

Wie sollen generative KI-Modelle getestet werden?

Entschuldigung, ich habe bereits gesagt, dass es sehr, sehr schwierig ist, ein unvoreingenommenes Testen zu erreichen, sogar noch schwieriger, als selbst ein generatives Modell zu entwickeln. Was sind die Schwierigkeiten? Ein paar konkrete Fragen:

Wie teilt man die Bewertungsdimensionen auf? Durch Verständnis, Gedächtnis, Argumentation, Ausdruck? Nach Fachgebiet? Oder traditionelle generative NLP-Bewertungsaufgaben kombinieren?
Wie werden die Gutachter geschult? Wie rekrutiert man bei Testfragen mit extrem hohen beruflichen Anforderungen wie Codierung, Debugging, mathematischer Ableitung sowie finanziellen, rechtlichen und medizinischen Fragen und Antworten Testpersonen?
Wie definiere ich die Bewertungskriterien für sehr subjektive Testfragen (z. B. das Erstellen von Texten im Xiaohongshu-Stil)?
Kann das Stellen einiger allgemeiner Schreibfragen die Textgenerierungs-/Schreibfähigkeiten eines Models widerspiegeln?
Untersuchen Sie die Unterfunktionen des Modells zur Textgenerierung. Werden Kapitelgenerierung, Frage- und Antwortgenerierung, Übersetzung, Zusammenfassung und Stilübertragung abgedeckt? Sind die Proportionen jeder Aufgabe gleichmäßig? Sind die Bewertungskriterien klar? Statistisch signifikant?
Sind in der oben genannten Unteraufgabe zur Generierung von Fragen und Antworten alle vertikalen Kategorien wie Wissenschaft, medizinische Versorgung, Automobile, Mutter und Baby, Finanzen, Ingenieurwesen, Politik, Militär, Unterhaltung usw. abgedeckt? Ist das Verhältnis gleichmäßig?
Wie bewertet man Konversationsfähigkeiten? Wie gestaltet man die Inspektionsaufgaben hinsichtlich Konsistenz, Vielfalt, Thementiefe und Personifizierung des Dialogs?
Sind für denselben Fähigkeitstest einfache Fragen, Fragen mit mittlerem Schwierigkeitsgrad und komplexe Langzeitfragen abgedeckt? Wie definieren? Welche Anteile machen sie aus?

Dies sind nur einige grundlegende Probleme, die gelöst werden müssen. Im Prozess des tatsächlichen Benchmark-Designs müssen wir uns einer Vielzahl von Problemen stellen, die viel schwieriger sind als die oben genannten Probleme.

Daher fordert der Autor als KI-Praktiker alle dazu auf, die Rankings verschiedener KI-Modelle rational zu betrachten. Es gibt nicht einmal einen unvoreingenommenen Test-Benchmark. Was nützt dieses Ranking also?

Wie ich bereits sagte: Ob ein generatives Modell gut ist oder nicht, hängt von echten Benutzern ab.

Egal wie hoch ein Model auf einer Liste steht: Wenn es das Problem, das Ihnen am Herzen liegt, nicht lösen kann, wird es für Sie nur ein durchschnittliches Model sein. Mit anderen Worten: Wenn ein ganz unten stehendes Modell in dem Szenario, um das Sie sich Sorgen machen, sehr stark ist, dann ist es ein Schatzmodell für Sie.

Hier stellt der Autor einen Testsatz für harte Fälle (schwieriger Fall) vor, der von unserem Team bereichert und geschrieben wurde. Dieser Testsatz konzentriert sich auf die Fähigkeit des Modells, schwierige Probleme/Anweisungen zu lösen.

Dieser schwierige Testsatz konzentriert sich auf das Sprachverständnis des Modells, das Verstehen und Befolgen komplexer Anweisungen, die Texterstellung, die Generierung komplexer Inhalte, mehrere Dialogrunden, die Erkennung von Widersprüchen, das logische Denken, das mathematische Denken, das kontrafaktische Denken, die Identifizierung gefährlicher Informationen und rechtliche Aspekte Ethikbewusstsein, Kenntnisse der chinesischen Literatur, sprachübergreifende Fähigkeiten und Codierungsfähigkeiten usw.

Ich betone noch einmal, dass es sich hierbei um einen Fallsatz handelt, der vom Team des Autors erstellt wurde, um die Fähigkeit des generativen Modells zu testen, schwierige Beispiele zu lösen. Die Bewertungsergebnisse können nur darstellen, „welches Modell sich für das Team des Autors besser anfühlt“, ganz im Gegenteil ein unvoreingenommenes Testergebnis. Wenn Sie ein unvoreingenommenes Testergebnis wünschen, beantworten Sie bitte zuerst die oben genannten Bewertungsfragen und definieren Sie dann einen verbindlichen Test-Benchmark.

Freunde, die selbst bewerten und verifizieren möchten, können auf das Passwort [KI-Bewertung] im Hintergrund dieses öffentlichen Kontos „Xi Xiaoyao Technology“ antworten, um die Testdatei herunterzuladen

Das Folgende sind die umstrittensten Nachrichten in der Superclue-Liste Bewertungsergebnisse von drei Modellen: Feixinghuo, Wenxinyiyan und ChatGPT:

Baidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt

Lösungsrate für schwierige Fälle:

ChatGPT (GPT-3.5-turbo): 11/24=45,83 %
Wen Xinyiyan (Version 2023.5.10): 13/24=54,16 %
iFlytek Spark (Version 2023.5.10): 7/24=29,16 %

Dies soll beweisen, dass iFlytek Spark nicht so gut ist wie Wen Ein Wort Aus deinem Herzen? Wenn Sie den vorherigen Artikel sorgfältig lesen, werden Sie verstehen, was der Autor sagen möchte.

Obwohl das Spark-Modell in diesem schwierigen Fall-Set innerhalb unseres Teams nicht so gut ist wie Wen Xinyiyan, bedeutet dies nicht, dass eines insgesamt definitiv besser ist als das andere. Es bedeutet nur, dass es im schwierigen Fall-Test-Set innerhalb unseres Teams ist Unser Team, Wenxinyiyan, hat die beste Leistung erbracht und sogar zwei schwierigere Fälle gelöst als ChatGPT.

Bei einfachen Fragen gibt es eigentlich keinen großen Unterschied zwischen dem Inlandsmodell und ChatGPT. Bei schwierigen Problemen hat jedes Modell seine eigenen Stärken. Nach der umfassenden Erfahrung des Autorenteams reicht Wen Xinyiyan aus, um Open-Source-Modelle wie ChatGLM-6B für akademische Tests zu schlagen. Einige Funktionen sind ChatGPT unterlegen, andere übertreffen ChatGPT.

Das Gleiche gilt für inländische Modelle anderer großer Hersteller wie Alibaba Tongyi Qianwen und iFlytek Spark.

Es ist immer noch derselbe Satz, jetzt gibt es nicht einmal einen unvoreingenommenen Test-Benchmark, was nützt also Ihr Model-Ranking?

Anstatt verschiedene voreingenommene Rankings zu diskutieren, ist es besser, einen Testsatz zu erstellen, der Ihnen am Herzen liegt, wie es mein Team getan hat.

Ein Modell, das Ihr Problem lösen kann, ist ein gutes Modell.

Das obige ist der detaillierte Inhalt vonBaidu Wenxiniyan ist der letzte unter den einheimischen Models? Ich war verwirrt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7449

CakePHP-Tutorial

1374

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Keine OpenAI-Daten erforderlich, schließen Sie sich der Liste der großen Codemodelle an! UIUC veröffentlicht StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

An der Spitze der Softwaretechnologie kündigte die Gruppe von UIUC Zhang Lingming zusammen mit Forschern der BigCode-Organisation kürzlich das StarCoder2-15B-Instruct-Großcodemodell an. Diese innovative Errungenschaft erzielte einen bedeutenden Durchbruch bei Codegenerierungsaufgaben, übertraf erfolgreich CodeLlama-70B-Instruct und erreichte die Spitze der Codegenerierungsleistungsliste. Die Einzigartigkeit von StarCoder2-15B-Instruct liegt in seiner reinen Selbstausrichtungsstrategie. Der gesamte Trainingsprozess ist offen, transparent und völlig autonom und kontrollierbar. Das Modell generiert über StarCoder2-15B Tausende von Anweisungen als Reaktion auf die Feinabstimmung des StarCoder-15B-Basismodells, ohne auf teure manuelle Annotationen angewiesen zu sein.

Yolov10: Ausführliche Erklärung, Bereitstellung und Anwendung an einem Ort! Jun 07, 2024 pm 12:05 PM

1. Einleitung In den letzten Jahren haben sich YOLOs aufgrund ihres effektiven Gleichgewichts zwischen Rechenkosten und Erkennungsleistung zum vorherrschenden Paradigma im Bereich der Echtzeit-Objekterkennung entwickelt. Forscher haben das Architekturdesign, die Optimierungsziele, Datenerweiterungsstrategien usw. von YOLO untersucht und erhebliche Fortschritte erzielt. Gleichzeitig behindert die Verwendung von Non-Maximum Suppression (NMS) bei der Nachbearbeitung die End-to-End-Bereitstellung von YOLO und wirkt sich negativ auf die Inferenzlatenz aus. In YOLOs fehlt dem Design verschiedener Komponenten eine umfassende und gründliche Prüfung, was zu erheblicher Rechenredundanz führt und die Fähigkeiten des Modells einschränkt. Es bietet eine suboptimale Effizienz und ein relativ großes Potenzial zur Leistungsverbesserung. Ziel dieser Arbeit ist es, die Leistungseffizienzgrenze von YOLO sowohl in der Nachbearbeitung als auch in der Modellarchitektur weiter zu verbessern. zu diesem Zweck

Deepseek Web Version Eingang Deepseek Offizielle Website Eingang Feb 19, 2025 pm 04:54 PM

Deepseek ist ein leistungsstarkes Intelligent -Such- und Analyse -Tool, das zwei Zugriffsmethoden bietet: Webversion und offizielle Website. Die Webversion ist bequem und effizient und kann ohne Installation verwendet werden. Unabhängig davon, ob Einzelpersonen oder Unternehmensnutzer, können sie massive Daten über Deepseek problemlos erhalten und analysieren, um die Arbeitseffizienz zu verbessern, die Entscheidungsfindung zu unterstützen und Innovationen zu fördern.

Die Tsinghua-Universität übernahm und YOLOv10 kam heraus: Die Leistung wurde erheblich verbessert und es stand auf der GitHub-Hotlist Jun 06, 2024 pm 12:20 PM

Die Benchmark-Zielerkennungssysteme der YOLO-Serie haben erneut ein großes Upgrade erhalten. Seit der Veröffentlichung von YOLOv9 im Februar dieses Jahres wurde der Staffelstab der YOLO-Reihe (YouOnlyLookOnce) in die Hände von Forschern der Tsinghua-Universität übergeben. Letztes Wochenende erregte die Nachricht vom Start von YOLOv10 die Aufmerksamkeit der KI-Community. Es gilt als bahnbrechendes Framework im Bereich Computer Vision und ist für seine End-to-End-Objekterkennungsfunktionen in Echtzeit bekannt. Es führt das Erbe der YOLO-Serie fort und bietet eine leistungsstarke Lösung, die Effizienz und Genauigkeit vereint. Papieradresse: https://arxiv.org/pdf/2405.14458 Projektadresse: https://github.com/THU-MIG/yo

Baidu Apollo bringt Apollo ADFM auf den Markt, das weltweit erste große Modell, das autonomes Fahren der Stufe L4 unterstützt Jun 04, 2024 pm 08:01 PM

Am 15. Mai veranstaltete Baidu Apollo den Apollo Day 2024 im Wuhan Baidu Carrot Auto Robot Zhixing Valley und demonstrierte umfassend Baidus große Fortschritte beim autonomen Fahren in den letzten zehn Jahren, die auf großen Modellen basierende Technologiesprünge und eine neue Definition der Passagiersicherheit mit sich brachten Baidu, das weltweit größte autonome Fahrzeugbetriebsnetzwerk, hat autonomes Fahren sicherer gemacht als menschliches Fahren. Dadurch werden sicherere, komfortablere, umweltfreundlichere und kohlenstoffärmere Reisemethoden vom Ideal zur Realität. Wang Yunpeng, Vizepräsident der Baidu Group und Präsident der Intelligent Driving Business Group, sagte vor Ort: „Unsere ursprüngliche Absicht, autonome Fahrzeuge zu bauen, besteht darin, den wachsenden Wunsch der Menschen nach besserem Reisen zu befriedigen. Die Zufriedenheit der Menschen ist unsere treibende Kraft. Denn Sicherheit, So schön, wir freuen uns, es zu sehen

Technischer Bericht von Google Gemini 1.5: Einfache Prüfung von Mathematik-Olympiade-Fragen, die Flash-Version ist fünfmal schneller als GPT-4 Turbo Jun 13, 2024 pm 01:52 PM

Im Februar dieses Jahres brachte Google das multimodale Großmodell Gemini 1.5 auf den Markt, das durch technische und Infrastrukturoptimierung, MoE-Architektur und andere Strategien die Leistung und Geschwindigkeit erheblich verbesserte. Mit längerem Kontext, stärkeren Argumentationsfähigkeiten und besserem Umgang mit modalübergreifenden Inhalten. Diesen Freitag hat Google DeepMind offiziell den technischen Bericht zu Gemini 1.5 veröffentlicht, der die Flash-Version und andere aktuelle Upgrades behandelt. Das Dokument ist 153 Seiten lang. Link zum technischen Bericht: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf In diesem Bericht stellt Google Gemini1 vor

Rezension! Fassen Sie umfassend die wichtige Rolle von Basismodellen bei der Förderung des autonomen Fahrens zusammen Jun 11, 2024 pm 05:29 PM

Oben geschrieben und das persönliche Verständnis des Autors: Mit der Entwicklung und den Durchbrüchen der Deep-Learning-Technologie haben kürzlich groß angelegte Grundlagenmodelle (Foundation Models) bedeutende Ergebnisse in den Bereichen natürlicher Sprachverarbeitung und Computer Vision erzielt. Große Entwicklungsperspektiven bietet auch die Anwendung von Basismodellen beim autonomen Fahren, die das Verständnis und die Argumentation von Szenarien verbessern können. Durch Vortraining mit umfangreichen Sprach- und visuellen Daten kann das Basismodell verschiedene Elemente in autonomen Fahrszenarien verstehen und interpretieren und Schlussfolgerungen ziehen, indem es Sprach- und Aktionsbefehle für die Entscheidungsfindung und Planung im Fahrbetrieb bereitstellt. Das Basismodell kann durch Datenergänzung mit einem Verständnis des Fahrszenarios ergänzt werden, um jene seltenen realisierbaren Merkmale in Long-Tail-Verteilungen bereitzustellen, die bei routinemäßigem Fahren und bei der Datenerfassung unwahrscheinlich anzutreffen sind.

See all articles