


Wie reibungslos ist die Leistung von GPT-4? Kann menschliches Schreiben übertroffen werden?
Die Zusammenfassungsgenerierung ist eine Aufgabe der Natural Language Generation (NLG), deren Hauptzweck darin besteht, lange Texte in kurze Zusammenfassungen zu komprimieren. Es kann auf eine Vielzahl von Inhalten angewendet werden, wie zum Beispiel Nachrichtenartikel, Quellcode und sprachübergreifende Texte.
Mit dem Aufkommen großer Modelle (LLM) gibt es keine herkömmlichen Methoden zur Feinabstimmung bestimmter Datensätze nicht mehr anwendbar.
Wir kommen nicht umhin zu fragen: Wie effektiv ist LLM bei der Erstellung von Zusammenfassungen?
Um diese Frage zu beantworten, führten Forscher der Peking-Universität eine ausführliche Diskussion im Artikel „Summarization is (Almost) Dead“ durch. Sie bewerteten die Leistung von LLM bei verschiedenen Zusammenfassungsaufgaben (einzelne Nachrichten, mehrere Nachrichten, Konversationen, Quellcode und sprachübergreifende Zusammenfassung) anhand von von Menschen erstellten Bewertungsdatensätzen. Nach quantitativen und qualitativen Vergleichen wurden von LLM erstellte Zusammenfassungen erstellt Beim Vergleich der vom fein abgestimmten Modell generierten Zusammenfassungen mit den vom fein abgestimmten Modell generierten Zusammenfassungen wurde festgestellt, dass die von LLM generierten Zusammenfassungen von menschlichen Bewertern deutlich bevorzugt wurden
Nach dem Vergleich von 100 in ACL, EMNLP und NAACL veröffentlichten Artikeln und COLING in den letzten 3 Jahren mit Nach der Stichprobe und Prüfung von Arbeiten im Zusammenhang mit Zusammenfassungsmethoden stellten die Forscher fest, dass der Hauptbeitrag von etwa 70 % der Arbeiten darin bestand, eine zusammenfassende Zusammenfassungsmethode vorzuschlagen und deren Wirksamkeit anhand eines Standarddatensatzes zu überprüfen. Daher heißt es in der Studie, dass „die Zusammenfassung (fast) tot ist“
Trotzdem sagten die Forscher, dass das Feld immer noch mit einigen Herausforderungen konfrontiert sei, etwa dem Bedarf an Referenzdatensätzen höherer Qualität und einer verbesserten Auswertung müssen gelöst werden Der Datensatz besteht aus 50 Proben.
Bei der Durchführung von Einzelnachrichten-, Mehrfachnachrichten- und Konversationszusammenfassungsaufgaben haben wir für die Simulation Methoden verwendet, die den CNN/DailyMail- und Multi-News-Datensatzkonstruktionsmethoden ähneln. Für die sprachübergreifende Zusammenfassungsaufgabe verwenden wir dieselbe Strategie wie die von Zhu et al. vorgeschlagene. Was die Codezusammenfassungsaufgabe betrifft, ist die von Bahrami et al. vorgeschlagene Methode
Nachdem der Datensatz erstellt wurde, ist der nächste Schritt die Methode. Insbesondere werden in diesem Artikel BART und T5 für einzelne Nachrichtenaufgaben verwendet; T5 und BART für sprachübergreifende Aufgaben;
In diesem Experiment wurden in der Studie menschliche Gutachter eingesetzt, um die Gesamtqualität verschiedener Abstracts zu vergleichen. Den Ergebnissen in Abbildung 1 zufolge übertreffen LLM-generierte Zusammenfassungen bei allen Aufgaben von Menschen erstellte Zusammenfassungen und von fein abgestimmten Modellen generierte Zusammenfassungen. Dies wirft die Frage auf: Warum ist LLM in der Lage, von Menschen erstellte Zusammenfassungen zu übertreffen? traditionell als makellos angesehen. Darüber hinaus deuten vorläufige Beobachtungen darauf hin, dass LLM-generierte Zusammenfassungen sehr glatt und kohärent sind
Dieser Artikel rekrutiert darüber hinaus Annotatoren, um Halluzinationsprobleme in menschlichen und LLM-generierten Zusammenfassungssätzen zu identifizieren. Die Ergebnisse sind in Tabelle 1 im Vergleich zu generierten Zusammenfassungen dargestellt von GPT-4 Im Vergleich dazu weisen von Menschen verfasste Zusammenfassungen die gleiche oder eine höhere Anzahl von Halluzinationen auf. Bei bestimmten Aufgaben wie mehreren Nachrichten und Code-Zusammenfassungen weisen von Menschen verfasste Zusammenfassungen eine deutlich schlechtere sachliche Konsistenz auf.
Tabelle 2 zeigt den Anteil von Halluzinationen in von Menschen verfassten Zusammenfassungen und GPT-4-generierten Zusammenfassungen.
In diesem Artikel wurde außerdem festgestellt, dass es bei von Menschen verfassten Referenzzusammenfassungen an mangelnder Flüssigkeit mangelt. Wie in Abbildung 2 (a) dargestellt, weisen von Menschen verfasste Referenzzusammenfassungen manchmal unvollständige Informationen auf. Und in Abbildung 2(b) zeigen einige von Menschen verfasste Referenzzusammenfassungen Halluzinationen.
Diese Studie ergab auch, dass die von fein abgestimmten Modellen generierten Zusammenfassungen normalerweise eine feste und strenge Länge haben, während LLM in der Lage ist, die Ausgabelänge basierend auf Eingabeinformationen anzupassen. Wenn die Eingabe außerdem mehrere Themen enthält, decken die vom fein abgestimmten Modell generierten Zusammenfassungen die Themen nur unzureichend ab, wie in Abbildung 3 dargestellt, während das LLM bei der Erstellung von Zusammenfassungen alle Themen erfassen kann
Gemäß Abbildung 4 zeigen die Ergebnisse, dass der menschliche Präferenzwert für große Modelle 50 % übersteigt, was zeigt, dass Menschen eine starke Präferenz für deren Zusammenfassung haben und die Fähigkeit von LLM bei der Textzusammenfassung hervorhebt
Das obige ist der detaillierte Inhalt vonWie reibungslos ist die Leistung von GPT-4? Kann menschliches Schreiben übertroffen werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



In Debian -Systemen wird die Readdir -Funktion zum Lesen des Verzeichnisinhalts verwendet, aber die Reihenfolge, in der sie zurückgibt, ist nicht vordefiniert. Um Dateien in einem Verzeichnis zu sortieren, müssen Sie zuerst alle Dateien lesen und dann mit der QSORT -Funktion sortieren. Der folgende Code zeigt, wie Verzeichnisdateien mithilfe von Readdir und QSORT in Debian System sortiert werden:#include#include#include#include // benutzerdefinierte Vergleichsfunktion, verwendet für QSortIntCompare (constvoid*a, constvoid*b) {rettrcmp (*(*(*(

In diesem Artikel wird beschrieben, wie Sie die Protokollierungsstufe des Apacheweb -Servers im Debian -System anpassen. Durch Ändern der Konfigurationsdatei können Sie die ausführliche Ebene der von Apache aufgezeichneten Protokollinformationen steuern. Methode 1: Ändern Sie die Hauptkonfigurationsdatei, um die Konfigurationsdatei zu finden: Die Konfigurationsdatei von Apache2.x befindet sich normalerweise im Verzeichnis/etc/apache2/. Der Dateiname kann je nach Installationsmethode Apache2.conf oder httpd.conf sein. Konfigurationsdatei bearbeiten: Öffnen Sie die Konfigurationsdatei mit Stammberechtigungen mit einem Texteditor (z. B. Nano): Sudonano/etc/apache2/apache2.conf

In Debian -Systemen werden Readdir -Systemaufrufe zum Lesen des Verzeichnisinhalts verwendet. Wenn seine Leistung nicht gut ist, probieren Sie die folgende Optimierungsstrategie aus: Vereinfachen Sie die Anzahl der Verzeichnisdateien: Teilen Sie große Verzeichnisse so weit wie möglich in mehrere kleine Verzeichnisse auf und reduzieren Sie die Anzahl der gemäß Readdir -Anrufe verarbeiteten Elemente. Aktivieren Sie den Verzeichnis -Inhalt Caching: Erstellen Sie einen Cache -Mechanismus, aktualisieren Sie den Cache regelmäßig oder bei Änderungen des Verzeichnisinhalts und reduzieren Sie häufige Aufrufe an Readdir. Speicher -Caches (wie Memcached oder Redis) oder lokale Caches (wie Dateien oder Datenbanken) können berücksichtigt werden. Nehmen Sie eine effiziente Datenstruktur an: Wenn Sie das Verzeichnis -Traversal selbst implementieren, wählen Sie effizientere Datenstrukturen (z.

Das Konfigurieren der Firewall eines Debian -Mailservers ist ein wichtiger Schritt zur Gewährleistung der Serversicherheit. Im Folgenden sind mehrere häufig verwendete Firewall -Konfigurationsmethoden, einschließlich der Verwendung von Iptables und Firewalld. Verwenden Sie Iptables, um Firewall so zu konfigurieren, dass Iptables (falls bereits installiert) installiert werden:

Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

In Debian Systems ist OpenSSL eine wichtige Bibliothek für Verschlüsselung, Entschlüsselung und Zertifikatverwaltung. Um einen Mann-in-the-Middle-Angriff (MITM) zu verhindern, können folgende Maßnahmen ergriffen werden: Verwenden Sie HTTPS: Stellen Sie sicher, dass alle Netzwerkanforderungen das HTTPS-Protokoll anstelle von HTTP verwenden. HTTPS verwendet TLS (Transport Layer Security Protocol), um Kommunikationsdaten zu verschlüsseln, um sicherzustellen, dass die Daten während der Übertragung nicht gestohlen oder manipuliert werden. Überprüfen Sie das Serverzertifikat: Überprüfen Sie das Serverzertifikat im Client manuell, um sicherzustellen, dass es vertrauenswürdig ist. Der Server kann manuell durch die Delegate -Methode der URLSession überprüft werden

Wenn Sie Hadoop-Protokolle auf Debian verwalten, können Sie die folgenden Schritte und Best Practices befolgen: Protokollaggregation Aktivieren Sie die Protokollaggregation: Set Garn.log-Aggregation-Enable in true in der Datei marn-site.xml, um die Protokollaggregation zu aktivieren. Konfigurieren von Protokoll-Retentionsrichtlinien: Setzen Sie Garn.log-Aggregation.Retain-Sekunden, um die Retentionszeit des Protokolls zu definieren, z. B. 172800 Sekunden (2 Tage). Log Speicherpfad angeben: über Garn.n
