Lassen Sie uns die Entwicklung der retrieval-generierten Generation (LAG) im Kontext immer leistungsstärkerer großer Sprachmodelle (LLMs) untersuchen. Wir werden untersuchen, wie sich die Fortschritte in LLMs auf die -Onusagen von Rag auswirken.
Das Originalpapier verwendete Text -Einbettungen für semantische Suche, um relevante Dokumente abzurufen, obwohl dies nicht die einzige Methode zum Abrufen von Dokumenten in Lag ist. Ihre Forschung hat gezeigt, dass Lappen genauere und sachliche Reaktionen im Vergleich zur Verwendung der LLM allein lieferte.
llms beruhen ausschließlich auf Trainingsdaten und Eingabeaufgaben. Abfragen außerhalb dieses Umfangs führen häufig zu hergestellten Antworten.
ausschließlich auf diesem Kontext. Die Eingabeaufforderung dient als Ausgangspunkt des LLM für die Antwortgenerierung.
Dieser Ansatz reduzierte die Halluzinationen erheblich, ermöglichte den Zugriff auf aktuelle Daten und erleichterte die Verwendung geschäftsspezifischer Daten.
Erste Herausforderungen, die sich auf die begrenzte Kontextfenstergröße konzentrieren. Die 4K-Token-Grenze von Chatgpt-3.5 (ungefähr 3000 englische Wörter) beschränkte die Menge an Kontext und Antwortlänge. Es war ein Gleichgewicht erforderlich, um übermäßig lange Kontexte (begrenzende Antwortlänge) oder unzureichender Kontext (Risikoabgabe entscheidender Informationen) zu vermeiden.
Das Kontextfenster wirkt wie eine begrenzte Tafel; Mehr Platz für Anweisungen lässt weniger für die Antwort.
signifikante Änderungen aufgetreten, vor allem in Bezug auf die Kontextfenstergröße. Modelle wie GPT-4O (veröffentlicht Mai 2024) haben ein 128-k-Token-Kontextfenster, während Googles Gemini 1.5 (seit Februar 2024 verfügbar) ein massives Token-Fenster von 1 Million anbietet.
Diese Zunahme der Kontextfenstergröße hat eine Debatte ausgelöst. Einige argumentieren, dass die Notwendigkeit eines sorgfältig ausgewählten Kontextes mit der Fähigkeit, ganze Bücher in die Eingabeaufforderung aufzunehmen, verringert ist. Eine Studie (Juli 2024) deutete sogar darauf hin, dass in bestimmten Szenarien die Eingabeaufforderungen in den Langkontext übertreffen könnten.
Augmented Generation oder Long Context LLMs? Eine umfassende Studie und ein hybrider Ansatz
Eine neuere Studie (September 2024) entgegenwirkte jedoch, in der die Bedeutung von RAG betont und darauf hindeutet, dass frühere Einschränkungen aus der Reihenfolge der Kontextelemente innerhalb der Eingabeaufforderung zurückzuführen sind.
zur Verteidigung von Lappen im Zeitalter von langkontextsprachigen Modellen
Eine weitere relevante Studie (Juli 2023) hob die Positionsauswirkungen von Informationen innerhalb langer Eingabeaufforderungen hervor.
in der Mitte verloren: Wie Sprachmodelle lange Kontexte verwenden
Informationen zu Beginn der Eingabeaufforderung werden vom LLM leichter verwendet als Informationen in der Mitte.
Trotz der Fortschritte in der Kontextfenstergröße bleibt LAG von entscheidender Bedeutung, hauptsächlich aufgrund von Kostenüberlegungen. Längere Aufforderungen erfordern mehr Verarbeitungsleistung. Durch die Begrenzung der sofortigen Größe auf wesentliche Informationen wird die Rechenkosten erheblich reduziert. Die Zukunft von LAG kann die Filterung irrelevanter Informationen aus großen Datensätzen beinhalten, um die Kosten zu optimieren und Qualität zu beantworten. Die Verwendung kleinerer, spezialisierter Modelle, die auf bestimmte Aufgaben zugeschnitten sind, wird wahrscheinlich ebenfalls eine bedeutende Rolle spielen.
Das obige ist der detaillierte Inhalt vonWarum die Generierung von Abrufen von Abrufen immer noch im Zeitalter von langkontexten Sprachmodellen relevant ist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!