Inhaltsverzeichnis
Neben Google Meta ist auch Zhipu AI vor Ort, Googles Open-Source-Modell Gema, Robot Intelligence Der Rahmen hinter dem Körper, Robotics Transformers und andere bahnbrechende Forschungsergebnisse werden vorgestellt.
Sonderreden
Raia Hadsell
Devi Parikh
Moritz Hardt
GLM-Team
Top-Inlandstechnikteam
GLM-4 zählt zur ersten Stufe der Welt
Heim Technologie-Peripheriegeräte KI Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

May 30, 2024 am 11:17 AM
ai 图灵

In den vergangenen Tagen fand in Wien die große Konferenz der AI – ICLR statt.

OpenAI, Meta, Google, Zhipu AI und andere weltweit führende KI-Technologieunternehmen kamen zusammen.

Berühmtheiten versammelten sich am Veranstaltungsort und die Sterne strahlten. Wenn Sie nur ein paar Schritte gehen, können Sie auf eine Berühmtheit stoßen, die eine subversive Zeitung veröffentlicht hat.

Es überrascht nicht, dass sich auch die Ausstellungshalle des ICLR 2024 zu einer Star-Jagd-Szene entwickelt hat. Die lebhafte Atmosphäre sprengte fast das Dach weg.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Auf der Jagd nach den Turing-Giganten vor Ort

LeCun, der berühmte „E-Mensch“ unter den drei Turing-Giganten, gab am großzügigerweise seinen Zeitplan bekannt.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Im Kommentarbereich freuten sich die Fans nicht nur darauf, einzuchecken, sondern einige waren sogar sofort bereit, ihren Lebenslauf einzureichen.

Die Reise der Fans hat sich tatsächlich gelohnt. Vor Ort erklärte LeCun eloquent, und das begeisterte Publikum bildete einen dichten Kreis um ihn.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Näher zu Hause, während der ICLR-Veranstaltung, wird das Meta-Team mehr als 25 Vorträge und zwei Workshops teilen. Diesmal veröffentlichte das LeCun-Team die folgenden zwei Artikel beim ICLR.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Papieradresse: https://arxiv.org/abs/2305.19523

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Papieradresse: https://arxiv.org/abs/2311.12983

Noch ein One-Bit-Bild Auch der spirituelle Riese Yoshua Bengio erfreut sich großer Beliebtheit.

Das Publikum kam zu dem Schluss: „Eine Person muss auf ihrem Gebiet wirklich einzigartig sein, um eine so lange Schlange vor ihrem Konferenzraum zu haben!“

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

LeCun und Hinton hatten beides. Er hat dazu eine starke Meinung geäußert , aber Bengios Haltung scheint relativ vage gewesen zu sein. Ich kann es kaum erwarten zu erfahren, was er von AGI hält. Am kommenden 11. Mai wird er bei einem Workshop zum Thema AGI eine Rede halten.

Erwähnenswert ist, dass das Bengio-Team beim diesjährigen ICLR auch eine lobende Erwähnung für Outstanding Paper erhalten hat.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Papieradresse: https://openreview.net/pdf?id=Ouj6p4ca60

Neben Google Meta ist auch Zhipu AI vor Ort, Googles Open-Source-Modell Gema, Robot Intelligence Der Rahmen hinter dem Körper, Robotics Transformers und andere bahnbrechende Forschungsergebnisse werden vorgestellt.

Neben Meta und Google steht mitten in der Messehalle ein sehr auffälliges Unternehmen – Zhipu AI.

Die Kinderschuhe vor Ort stellen eine Reihe von Forschungsergebnissen wie GLM-4 und ChatGLM vor.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGIDiese Ausstellungsreihe erregte die Aufmerksamkeit vieler ausländischer Wissenschaftler.

Fast zweitausend Gäste und Wissenschaftler vor Ort hörten aufmerksam der Vorstellung des technischen Teams für GLM-Großmodelle zu.

Die Einführung enthält eine Reihe aktueller Forschungsergebnisse zur GLM-Reihe großer Modelle und deckt Bereiche wie Mathematik, Vincentsche Diagramme, Bildverständnis, visuelles UI-Verstehen und Agentenintelligenz ab.

Vor Ort führten alle eine hitzige Diskussion über ihre Ansichten zum Skalierungsgesetz. Das GLM-Team verfügt auch hierzu über einzigartige Erkenntnisse –

„Im Vergleich zur Modellgröße oder Trainingsberechnungsmenge hängen Intelligenzentstehung und Verlust vor dem Training enger zusammen.“

Zum Beispiel der berühmte OpenAI 996-Forscher Jason Wei war sehr beeindruckt, nachdem er den Artikel von Zhipu AI über Verluste vor dem Training sorgfältig gelesen hatte.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

In der Arbeit bewertete das Team seine Leistung anhand von 12 chinesischen und englischen Datensätzen, indem es mehr als 30 LLMs mit unterschiedlichen Parametern und Datengrößen trainierte.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Papieradresse: https://arxiv.org/abs/2403.15796

Es wird beobachtet, dass LLM nur dann über Emergenzfähigkeit verfügt, wenn der Verlust vor dem Training unter einem bestimmten Schwellenwert liegt.

Darüber hinaus ist es besser, „aufkommende Fähigkeiten“ aus der Perspektive des Verlusts vor dem Training zu definieren, als sich nur auf Modellparameter oder Trainingsvolumen zu verlassen.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Die Leistung von Zhipu AI hat auch immer mehr ausländischen Internetnutzern klar gemacht, dass –

Tanishq, der Forschungsdirektor für Stabilitäts-KI, der im Alter von 19 Jahren promovierte, sagte, dass CogVLM das ist Am wettbewerbsfähigsten ist, dass das Open-Source-Basismodell, das bedeutende Beiträge zum Open-Source-Ökosystem geleistet hat, aus China stammt.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Dieser ehemalige CEO eines Spielestudios begann letztes Jahr mit CogVLM und Stable Diffusion, um eine vollständige Open-Source-Version zu erstellen.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Ja, seit CogVLM veröffentlicht wurde, haben seine leistungsstarken Fähigkeiten bei ausländischen Internetnutzern für Aufsehen gesorgt.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Im LLM-Ranking im Januar dieses Jahres hat jemand auch das gefunden –

Damals lagen Gemini und GPT-4V mit der einzigen Ausnahme weit vor jedem Open-Source-LLM CogVLM sein.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Es ist ersichtlich, dass Zhipu AI mit dieser Welle großer inländischer Modelle, die ins Ausland gehen, stillschweigend seinen enormen Einfluss im Ausland etabliert hat.

Sonderreden

Zusätzlich zu den wunderbaren Vorführungen in der Ausstellungshalle lud das ICLR dieses Jahr insgesamt sieben Sonderredner ein, um ihre Erkenntnisse zum Thema KI zu teilen.

Da sind Forschungswissenschaftler von Google DeepMind Raia Hadsell, außerordentliche Professorin am Georgia Institute of Technology & FAIR-Chefwissenschaftlerin Devi Parik und Direktor Moritz Hardt vom Max-Planck-Institut für Informatik (MPI-SWS). Das einzige chinesische Team ist das GLM-Großmodell-Technikteam von Zhipu AI.

Raia Hadsell

Der Titel der Rede der Google DeepMind-Wissenschaftlerin Raia Hadsell lautet: „Lernen während der Höhen und Tiefen der Entwicklung künstlicher Intelligenz: Unerwartete Wahrheiten auf dem Weg zu AGI“.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Nach Jahrzehnten stetiger Entwicklung und gelegentlicher Rückschläge befindet sich die KI an einem kritischen Wendepunkt.

KI-Produkte sind auf dem Mainstream-Markt explodiert und wir haben die Obergrenze der Dividendenskalierung noch nicht erreicht, daher prüft die gesamte Community den nächsten Schritt.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

In dieser Rede, basierend auf mehr als 20 Jahren Erfahrung im Bereich KI, diskutierte Raia, wie sich unsere Annahmen über den Entwicklungspfad von AGI im Laufe der Zeit verändert haben.

Gleichzeitig enthüllte sie auch die unerwarteten Entdeckungen, die wir während dieser Erkundung gemacht haben.

Von Reinforcement Learning über verteilte Architektur bis hin zu neuronalen Netzen spielen sie bereits eine potenziell revolutionäre Rolle im Bereich der Wissenschaft.

Raia glaubt, dass durch das Lernen aus vergangenen Erfahrungen und Lehren wichtige Erkenntnisse für die zukünftige Forschungsrichtung der KI gewonnen werden können.

Devi Parikh

Auf der anderen Seite erzählte FAIR-Chefwissenschaftlerin Devi Parik allen die Geschichte ihres Lebens.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Anhand des Titels der Rede kann man erkennen, dass der von Parik geteilte Inhalt außergewöhnlich ist.

Bei der Erklärung, warum das technische Umfeld so ist, wie es jetzt ist, werden sich alle auf der ICLR-Konferenz auf die Entwicklung des Internets, Big Data und Rechenleistung konzentrieren.

Allerdings schenken nur wenige Menschen diesen kleinen, aber wichtigen persönlichen Geschichten Aufmerksamkeit.

Tatsächlich kann sich die Geschichte eines jeden zu einer wichtigen Kraft bei der Förderung des technologischen Fortschritts entwickeln.

So können wir voneinander lernen und uns gegenseitig inspirieren. Das macht uns beharrlicher und effizienter bei der Verfolgung unserer Ziele.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Moritz Hardt

Moritz Hardt, Direktor des deutschen MPI-SWS, hielt einen Vortrag zum Thema „Emerging Scientific Benchmarks“.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Benchmark-Tests sind offensichtlich zum „Kernpfeiler“ im Bereich des maschinellen Lernens geworden.

Obwohl der Mensch seit den 1980er Jahren unter diesem Forschungsparadigma viele Erfolge erzielt hat, ist sein tiefes Verständnis immer noch begrenzt.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

In diesem Vortrag erkundet Hardt die Grundlagen des Benchmarking als aufstrebende Wissenschaft anhand einer Reihe ausgewählter empirischer Studien und theoretischer Analysen.

Er erörterte insbesondere die Auswirkungen von Annotationsfehlern auf die Datenqualität, die externe Validierung von Modellrankings und die Aussichten für Multitasking-Benchmarking.

Gleichzeitig stellte Hard auch viele Fallstudien vor.

Diese stellen unsere herkömmliche Meinung in Frage und unterstreichen auch die Bedeutung und den Nutzen der Entwicklung wissenschaftlicher Benchmarks.

GLM-Team

In China hielt das GLM-Großmodell-Technikteam von Zhipu AI auch eine wunderbare Rede zum Thema „ChatGLM's Road to AGI“.

Erwähnenswert ist, dass dies auch das „erste Mal“ in China ist, auf einer internationalen Spitzenkonferenz eine Grundsatzrede zu großen Modellen zu halten.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

In diesem Vortrag wird zunächst der Entwicklungsprozess der KI in den letzten Jahrzehnten aus chinesischer Sicht vorgestellt.

Gleichzeitig nutzten sie ChatGLM als Beispiel, um das Verständnis und die Erkenntnisse zu erläutern, die sie während der Praxis gewonnen hatten.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

AGI-Vorschau 2024: GLM 4.5, GLM-OS, GLM-zero

Auf der ICLR stellte das GLM-Großmodellteam die drei wichtigsten GLM-Technologietrends für AGI vor.

Wo ist der einzige Weg zur AGI?

Die Branche ist hierzu unterschiedlicher Meinung. Manche Leute halten es für einen intelligenten Agenten, andere halten es für multimodal und wieder andere sagen, dass das Skalierungsgesetz eine notwendige, aber nicht ausreichende Bedingung für AGI ist.

Aber LeCun besteht darauf, dass LLM ein falscher Weg zu AGI ist und LLM keine AGI bringen kann.

In dieser Hinsicht vertrat das Team auch seine ganz eigene Sichtweise.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Zunächst sprachen sie über die nachfolgende aktualisierte Version von GLM-4, nämlich GLM-4.5 und sein aktualisiertes Modell.

Die nachfolgende aktualisierte Version von GLM-4 wird auf SuperIntelligence- und SuperAlignment-Technologien basieren und gleichzeitig große Fortschritte im Bereich der nativen Multimodalität und KI-Sicherheit machen.

Das GLM-Team für große Modelle ist davon überzeugt, dass Text die wichtigste Grundlage auf dem Weg zu AGI ist.

Der nächste Schritt besteht darin, Text, Bilder, Video, Audio und andere Modalitäten miteinander zu mischen, um das Training zu einem echten „nativen multimodalen Modell“ zu machen.

Zur Lösung komplexerer Probleme führten sie gleichzeitig auch das Konzept von GLM-OS ein, einem allgemeinen Computersystem, das sich auf große Modelle konzentriert.

Diese Ansicht deckt sich mit der Ansicht großer Modellbetriebssysteme, die zuvor von Karpathy vorgeschlagen wurde.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Am ICLR-Standort stellte das GLM-Großmodellteam die Implementierung von GLM-OS ausführlich vor:

Basierend auf den vorhandenen All-Tools-Funktionen sowie Speicher und Selbstfeedback (Selbst-Feedback) Durch die Fähigkeit zur Reflexion wird erwartet, dass GLM-OS den menschlichen PDCA-Mechanismus, d. h. den Plan-Do-Check-Act-Zyklus, erfolgreich imitiert.

Konkret: Erstellen Sie zunächst einen Plan, versuchen Sie dann, Feedback zu bilden, passen Sie den Plan an und ergreifen Sie dann Maßnahmen, um bessere Ergebnisse zu erzielen.

Aufgrund des PDCA-Zyklusmechanismus kann sich LLM selbst Feedback geben und sich unabhängig weiterentwickeln – genau wie Menschen.

Darüber hinaus gab das GLM-Großmodellteam bekannt, dass das Team seit 2019 eine Technologie namens GLM-Zero untersucht, mit dem Ziel, menschliche „unbewusste“ Lernmechanismen zu untersuchen.

„Wenn Menschen schlafen, lernt das Gehirn immer noch unbewusst.“

Das GLM-Großmodellteam stellte fest, dass der „unbewusste“ Lernmechanismus ein wichtiger Teil der menschlichen kognitiven Fähigkeiten ist, einschließlich des Selbstlernens -Lernen und Selbstlernen.

Es gibt zwei Systeme im menschlichen Gehirn, „Feedback“ und „Entscheidungsfindung“, die den beiden Teilen des LLM-Großmodells bzw. des Gedächtnisses entsprechen.

Daher wird die GLM-Null-bezogene Forschung das menschliche Verständnis von Bewusstsein, Wissen und Lernverhalten weiter erweitern.

Obwohl es sich noch in einem sehr frühen Forschungsstadium befindet, kann GLM-Null als der einzige Weg zur AGI angesehen werden.

Dies ist auch das erste Mal, dass das GLM-Großmodellteam diesen Technologietrend nach außen trägt.

Top-Inlandstechnikteam

Ende 2020 entwickelte das GLM-Großmodelltechnikteam die GLM-Vorschulungsarchitektur.

Im Jahr 2021 wurde das Zehn-Milliarden-Parametermodell GLM-10B trainiert, und im selben Jahr wurde das konvergierte Billionen-Sparse-Modell erfolgreich mit der MoE-Architektur trainiert.

Im Jahr 2022 haben wir auch zusammengearbeitet, um das chinesisch-englische zweisprachige 100-Milliarden-Level-Ultra-Large-Pre-Training-Modell GLM-130B zu entwickeln und als Open Source bereitzustellen.

Im vergangenen Jahr hat das Team fast alle 3-4 Monate ein Upgrade des großen Basismodells durchgeführt und es wurde nun auf die GLM-4-Version aktualisiert.

Darüber hinaus hat sich Zhipu AI als erstes inländisches LLM-Unternehmen, das auf den Markt kommt, im Jahr 2023 ein ehrgeiziges Ziel gesetzt – OpenAI auf breiter Front zu einem Benchmark zu machen.

Das technische Team für Großmodelle von GLM hat eine vollständige Produktmatrix für Großmodelle basierend auf der AGI-Vision erstellt.

Zusätzlich zur GLM-Serie gibt es auch CogView-Grafikmodelle, CodeGeeX-Codemodelle, multimodale Verständnismodelle CogVLM und dann GLM-4V multimodale Großmodelle und All-Tools-Funktionen sowie den KI-Assistenten Zhipu Qingyan.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Gleichzeitig haben die Forscher des GLM-Großmodelltechnikteams einen sehr hohen Einfluss in der Branche.

Zum Beispiel unterrichtet Li Feifei, der in der Gruppe sehr beliebt ist, den CS25-Kurs an der Stanford University. Jedes Mal lädt er Experten an der Spitze der Transformer-Forschung ein, um seine neuesten Durchbrüche zu teilen.

Es wurde bestätigt, dass sich unter den Gästen des CS25-Kurses Forscher von Zhipu AI befinden. Das vom Team entwickelte Open-Source-Visual-Language-Modell CogVLM hat bereits nach seiner Veröffentlichung in der Branche für Aufsehen gesorgt.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGIEin im März von Stability AI veröffentlichtes Papier zeigte, dass CogVLM aufgrund seiner hervorragenden Leistung direkt von Stable Diffufion 3 für Bildanmerkungen verwendet wurde. Auf dieser Grundlage wurde Open Source basierend auf CogV verbessert LM Visuelles Sprachmodell CogAgent Hauptziel ist es, die Benutzeroberfläche der grafischen Benutzeroberfläche (GUI) zu verstehen.

Die entsprechenden Beiträge von CogAgent wurden in CVPR 2024 aufgenommen, der hochrangigsten akademischen Konferenz im internationalen Bereich Computer Vision.

Sie müssen wissen, dass CVPR für seine strenge Zulassungsquote bekannt ist.

Papieradresse: https://arxiv.org/abs/2312.08914

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

ChatGLM-Math

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Um mathematische Probleme mit LLM zu lösen, schlug das GLM-Großmodellteam „ Iterative Trainingsmethode „Selbstkritik“.

Durch den Selbst-Feedback-Mechanismus hilft es LLM dabei, sowohl die sprachlichen als auch die mathematischen Fähigkeiten zu verbessern.

Papieradresse: https://arxiv.org/abs/2404.02893

Diese Methode enthält zwei Schlüsselschritte:

Trainieren Sie zunächst einen Generator, um ein „Math-Critique“-Modell zur Auswertung zu generieren Das Modell kann Antworten auf mathematische Fragen generieren und Feedbacksignale liefern. Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Zweitens wird das neue Modell durch Feinabstimmung der Ablehnungsstichproben und DPO verwendet, um die Generierung von LLM selbst zu überwachen.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Das GLM-Großmodellteam hat auch den MATHUSEREVAL-Benchmark-Testsatz entwickelt, um die mathematischen Fähigkeiten des neuen Modells zu bewerten:

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Es ist offensichtlich, dass die Die neue Methode verbessert die mathematischen Fähigkeiten der LLM-Problemlösungskompetenzen erheblich und verbessert gleichzeitig ihre Sprachkenntnisse. Wichtig ist, dass es in einigen Fällen größere Modelle mit der doppelten Anzahl an Parametern übertrifft.

GLM-4 zählt zur ersten Stufe der Welt

Im OpenCompass 2.0-Benchmark-Test ist die Stärke des Basismodells der neuen Generation von Zhipu AI nicht zu unterschätzen.

In der Gesamtwertung belegt GLM-4 den dritten und landesweit den ersten Platz.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Im „SuperBench Large Model Comprehensive Capability Evaluation Report“, der vor nicht allzu langer Zeit vom SuperBench-Team veröffentlicht wurde, rangierte GLM-4 ebenfalls auf der ersten Stufe der Welt.

Insbesondere in den kritischsten Bereichen semantisches Verständnis und Agentenfähigkeiten belegt GLM-4 den ersten Platz im Land und übertrifft alle Konkurrenten.

Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI

Im gerade vergangenen ersten Jahr der großen Modelle tobt seit einem Jahr der rege Modellkrieg.

Wenn 2024 das erste Jahr von AGI sein will, haben die großen Modellteams der Welt noch einen langen Weg vor sich.

Das obige ist der detaillierte Inhalt vonDer Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1664
14
PHP-Tutorial
1266
29
C#-Tutorial
1239
24
Wie versteht man DMA -Operationen in C? Wie versteht man DMA -Operationen in C? Apr 28, 2025 pm 10:09 PM

DMA in C bezieht sich auf DirectMemoryAccess, eine direkte Speicherzugriffstechnologie, mit der Hardware -Geräte ohne CPU -Intervention Daten direkt an den Speicher übertragen können. 1) Der DMA -Betrieb ist in hohem Maße von Hardware -Geräten und -Treibern abhängig, und die Implementierungsmethode variiert von System zu System. 2) Direkter Zugriff auf Speicher kann Sicherheitsrisiken mitbringen, und die Richtigkeit und Sicherheit des Codes muss gewährleistet werden. 3) DMA kann die Leistung verbessern, aber eine unsachgemäße Verwendung kann zu einer Verschlechterung der Systemleistung führen. Durch Praxis und Lernen können wir die Fähigkeiten der Verwendung von DMA beherrschen und seine Wirksamkeit in Szenarien wie Hochgeschwindigkeitsdatenübertragung und Echtzeitsignalverarbeitung maximieren.

Wie benutze ich die Chrono -Bibliothek in C? Wie benutze ich die Chrono -Bibliothek in C? Apr 28, 2025 pm 10:18 PM

Durch die Verwendung der Chrono -Bibliothek in C können Sie Zeit- und Zeitintervalle genauer steuern. Erkunden wir den Charme dieser Bibliothek. Die Chrono -Bibliothek von C ist Teil der Standardbibliothek, die eine moderne Möglichkeit bietet, mit Zeit- und Zeitintervallen umzugehen. Für Programmierer, die in der Zeit gelitten haben.H und CTime, ist Chrono zweifellos ein Segen. Es verbessert nicht nur die Lesbarkeit und Wartbarkeit des Codes, sondern bietet auch eine höhere Genauigkeit und Flexibilität. Beginnen wir mit den Grundlagen. Die Chrono -Bibliothek enthält hauptsächlich die folgenden Schlüsselkomponenten: std :: chrono :: system_clock: repräsentiert die Systemuhr, mit der die aktuelle Zeit erhalten wird. std :: chron

Wie gehe ich mit einem hohen DPI -Display in C um? Wie gehe ich mit einem hohen DPI -Display in C um? Apr 28, 2025 pm 09:57 PM

Die Handhabung der hohen DPI -Anzeige in C kann in den folgenden Schritten erreicht werden: 1) Verstehen Sie DPI und Skalierung, verwenden Sie die Betriebssystem -API, um DPI -Informationen zu erhalten und die Grafikausgabe anzupassen. 2) Übereinstimmende Kompatibilität verarbeiten, plattformübergreifende Grafikbibliotheken wie SDL oder QT verwenden. 3) Leistungsoptimierung durchführen, die Leistung durch Cache, Hardwarebeschleunigung und dynamische Anpassung der Detail -Ebene verbessern; 4) Lösen Sie gemeinsame Probleme wie verschwommene Text- und Schnittstellenelemente sind zu klein und lösen Sie durch korrektes Anwenden der DPI -Skalierung.

Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Apr 28, 2025 pm 10:15 PM

C bietet eine gute Leistung in der Programmierung von Echtzeit-Betriebssystemen (RTOs) und bietet eine effiziente Ausführungseffizienz und ein präzises Zeitmanagement. 1) C entsprechen den Anforderungen von RTOs durch direkten Betrieb von Hardwareressourcen und effizientem Speichermanagement. 2) Mit objektorientierten Funktionen kann C ein flexibles Aufgabenplanungssystem entwerfen. 3) C unterstützt eine effiziente Interrupt-Verarbeitung, aber die dynamische Speicherzuweisung und die Ausnahmeverarbeitung müssen vermieden werden, um Echtzeit zu gewährleisten. 4) Vorlagenprogrammierung und Inline -Funktionen helfen bei der Leistungsoptimierung. 5) In praktischen Anwendungen kann C verwendet werden, um ein effizientes Protokollierungssystem zu implementieren.

Wie misst ich die Thread -Leistung in C? Wie misst ich die Thread -Leistung in C? Apr 28, 2025 pm 10:21 PM

Durch die Messung der Thread -Leistung in C kann Timing -Tools, Leistungsanalyse -Tools und benutzerdefinierte Timer in der Standardbibliothek verwendet werden. 1. Verwenden Sie die Bibliothek, um die Ausführungszeit zu messen. 2. Verwenden Sie GPROF für die Leistungsanalyse. Zu den Schritten gehört das Hinzufügen der -PG -Option während der Kompilierung, das Ausführen des Programms, um eine Gmon.out -Datei zu generieren, und das Generieren eines Leistungsberichts. 3. Verwenden Sie das Callgrind -Modul von Valgrind, um eine detailliertere Analyse durchzuführen. Zu den Schritten gehört das Ausführen des Programms zum Generieren der Callgrind.out -Datei und das Anzeigen der Ergebnisse mit KCACHEGRIND. 4. Benutzerdefinierte Timer können die Ausführungszeit eines bestimmten Codesegments flexibel messen. Diese Methoden helfen dabei, die Thread -Leistung vollständig zu verstehen und den Code zu optimieren.

Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Apr 30, 2025 pm 07:24 PM

Zu den integrierten Quantisierungstools am Austausch gehören: 1. Binance: Binance Futures Quantitatives Modul, niedrige Handhabungsgebühren und unterstützt AI-unterstützte Transaktionen. 2. OKX (OUYI): Unterstützt Multi-Account-Management und intelligentes Auftragsrouting und bietet Risikokontrolle auf institutioneller Ebene. Zu den unabhängigen quantitativen Strategieplattformen gehören: 3. 3Commas: Drag & drop-Strategiegenerator, geeignet für Multi-Plattform-Absicherungs-Arbitrage. 4. Viercy: Algorithmus-Strategie-Bibliothek auf professioneller Ebene, unterstützt maßgeschneiderte Risikoschwellen. 5. Pionex: Integrierte 16 voreingestellte Strategie, niedrige Transaktionsgebühr. Zu den vertikalen Domänen-Tools gehören: 6. CryptoHopper: Cloud-basierte quantitative Plattform, die 150 technische Indikatoren unterstützen. 7. Bitsgap:

Wie benutze ich String -Streams in C? Wie benutze ich String -Streams in C? Apr 28, 2025 pm 09:12 PM

Die wichtigsten Schritte und Vorsichtsmaßnahmen für die Verwendung von String -Streams in C sind wie folgt: 1. Erstellen Sie einen Ausgangsstring -Stream und konvertieren Daten, z. B. Umwandlung von Ganzzahlen in Zeichenfolgen. 2. Anwenden Sie die Serialisierung komplexer Datenstrukturen wie die Umwandlung von Vektor in Zeichenfolgen. 3. Achten Sie auf Leistungsprobleme und vermeiden Sie die häufige Verwendung von Stressströmen bei der Verarbeitung großer Datenmengen. Sie können in Betracht ziehen, die Anhangmethode von STD :: String zu verwenden. 4. Achten Sie auf die Speicherverwaltung und vermeiden Sie häufige Erstellung und Zerstörung von String -Stream -Objekten. Sie können std :: stringstream wiederverwenden oder verwenden.

Eine effiziente Möglichkeit, Daten in MySQL einzufügen Eine effiziente Möglichkeit, Daten in MySQL einzufügen Apr 29, 2025 pm 04:18 PM

Effiziente Methoden für das Batch -Einfügen von Daten in MySQL gehören: 1. Verwenden von InsertInto ... Wertesyntax, 2. Verwenden von LoadDatainFile -Befehl, 3. Verwendung der Transaktionsverarbeitung, 4. Stapelgröße anpassen, 5. Deaktivieren Sie die Indexierung, 6. Verwenden Sie die Einfügung oder einfügen.

See all articles