Heim Backend-Entwicklung Python-Tutorial So erstellen Sie Ihr eigenes RAG mit kostenlosen LLM-Modellen und einer Wissensdatenbank

So erstellen Sie Ihr eigenes RAG mit kostenlosen LLM-Modellen und einer Wissensdatenbank

Dec 28, 2024 am 08:49 AM

In diesem Artikel wird die Implementierung eines unkomplizierten, aber effektiven Frage-Antwort-Systems untersucht, das moderne transformatorbasierte Modelle kombiniert. Das System verwendet T5 (Text-to-Text Transfer Transformer) für die Antwortgenerierung und Satztransformatoren für den semantischen Ähnlichkeitsabgleich.

In meinem vorherigen Artikel habe ich erklärt, wie man mithilfe eines kostenlosen grundlegenden LLM-Modells eine einfache Übersetzungs-API mit einer Webschnittstelle erstellt. Lassen Sie uns dieses Mal in den Aufbau eines Retrieval-Augmented Generation (RAG)-Systems unter Verwendung kostenloser transformatorbasierter LLM-Modelle und einer Wissensdatenbank eintauchen.

RAG (Retrieval-Augmented Generation) ist eine Technik, die zwei Schlüsselkomponenten kombiniert:

Abruf: Zunächst wird eine Wissensdatenbank (wie Dokumente, Datenbanken usw.) durchsucht, um relevante Informationen für eine bestimmte Abfrage zu finden. Dies beinhaltet normalerweise:

  • Text in Einbettungen (numerische Vektoren, die Bedeutung darstellen) umwandeln
  • Suchen ähnlicher Inhalte mithilfe von Ähnlichkeitsmaßen (z. B. Kosinus-Ähnlichkeit)
  • Auswahl der relevantesten Informationen

Generierung: Anschließend wird ein Sprachmodell (wie T5 in unserem Code) verwendet, um eine Antwort zu generieren durch:

Kombinieren der abgerufenen Informationen mit der ursprünglichen Frage

Erstellen einer Antwort in natürlicher Sprache basierend auf diesem Kontext

Im Code:

  • Der SentenceTransformer übernimmt den Abrufteil durch die Erstellung von Einbettungen
  • Das T5-Modell übernimmt den Generierungsteil durch die Erstellung von Antworten

Vorteile von RAG:

  • Genauere Antworten, da sie auf spezifischem Wissen basieren
  • Reduzierte Halluzinationen im Vergleich zu reinen LLM-Reaktionen
  • Möglichkeit, auf aktuelle oder domänenspezifische Informationen zuzugreifen
  • Kontrollierbarer und transparenter als die reine Generierung

Überblick über die Systemarchitektur

How to Create Your Own RAG with Free LLM Models and a Knowledge Base

Die Implementierung besteht aus einer SimpleQASystem-Klasse, die zwei Hauptkomponenten orchestriert:

  • Ein semantisches Suchsystem mit Satztransformatoren
  • Ein Antwortgenerierungssystem mit T5

Sie können die neueste Version des Quellcodes hier herunterladen: https://github.com/alexander-uspenskiy/rag_project

Systemdiagramm

How to Create Your Own RAG with Free LLM Models and a Knowledge Base

RAG-Projekt-Setup-Handbuch

Diese Anleitung hilft Ihnen beim Einrichten Ihres Retrieval-Augmented Generation (RAG)-Projekts sowohl unter macOS als auch unter Windows.

Voraussetzungen

Für macOS:

Homebrew installieren (falls noch nicht installiert):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Installieren Sie Python 3.8 mit Homebrew
brew install python@3.10
Für Windows:
Laden Sie Python 3.8 von python.org herunter und installieren Sie es
Stellen Sie sicher, dass Sie während der Installation „Python zu PATH hinzufügen“ aktivieren

Projekt-Setup

Schritt 1: Projektverzeichnis erstellen

macOS:

mkdir RAG_project
cd RAG_project
Windows:

mkdir RAG_project
cd RAG_project

Schritt 2: Virtuelle Umgebung einrichten

macOS:

python3 -m venv venv
Quelle venv/bin/activate

Windows:

python -m venv venv
venvScriptsactivate

**Kernkomponenten

  1. Initialisierung**
def __init__(self):
    self.model_name = 't5-small'
    self.tokenizer = T5Tokenizer.from_pretrained(self.model_name)
    self.model = T5ForConditionalGeneration.from_pretrained(self.model_name)
    self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')
Nach dem Login kopieren
Nach dem Login kopieren

Das System initialisiert mit zwei Hauptmodellen:

T5-small: Eine kleinere Version des T5-Modells zur Generierung von Antworten
paraphrase-MiniLM-L6-v2: Ein Satztransformationsmodell zum Kodieren von Text in sinnvolle Vektoren

2. Datensatzvorbereitung

def prepare_dataset(self, data: List[Dict[str, str]]):
    self.answers = [item['answer'] for item in data]
    self.answer_embeddings = []
    for answer in self.answers:
        embedding = self.encoder.encode(answer, convert_to_tensor=True)
        self.answer_embeddings.append(embedding)
Nach dem Login kopieren
Nach dem Login kopieren

Die Datensatzvorbereitungsphase:

  • Extrahiert Antworten aus den Eingabedaten
  • Erstellt Einbettungen für jede Antwort mithilfe des Satztransformators
  • Speichert sowohl Antworten als auch deren Einbettungen zum schnellen Abrufen

Wie das System funktioniert

1. Fragenbearbeitung

Wenn ein Benutzer eine Frage einreicht, führt das System die folgenden Schritte aus:

Einbettungsgenerierung: Die Frage wird in eine Vektordarstellung umgewandelt, wobei dasselbe Satztransformationsmodell verwendet wird, das für die Antworten verwendet wird.

Semantische Suche: Das System findet die relevanteste gespeicherte Antwort nach:

  • Berechnung der Kosinusähnlichkeit zwischen der Frageneinbettung und allen Antworteinbettungen
  • Auswahl der Antwort mit der höchsten Ähnlichkeitsbewertung Kontextbildung: Die ausgewählte Antwort wird zum Kontext für T5, um eine endgültige Antwort zu generieren.

2. Antwortgenerierung

def get_answer(self, question: str) -> str:
    # ... semantic search logic ...
    input_text = f"Given the context, what is the answer to the question: {question} Context: {context}"
    input_ids = self.tokenizer(input_text, max_length=512, truncation=True, 
                             padding='max_length', return_tensors='pt').input_ids
    outputs = self.model.generate(input_ids, max_length=50, num_beams=4, 
                                early_stopping=True, no_repeat_ngram_size=2
Nach dem Login kopieren
Nach dem Login kopieren

Der Antwortgenerierungsprozess:

  • Kombiniert die Frage und den Kontext zu einer Eingabeaufforderung für T5
  • Tokenisiert den Eingabetext mit einer maximalen Länge von 512 Token
  • Erzeugt eine Antwort mithilfe der Strahlsuche mit diesen Parametern:
  • max_length=50: Begrenzt die Antwortlänge
  • num_beams=4: Verwendet Strahlsuche mit 4 Strahlen
  • early_stopping=True: Stoppt die Generierung, wenn alle Strahlen ein End-Token erreichen
  • no_repeat_ngram_size=2: Verhindert die Wiederholung von Bigrammen

3. Antwort Reinigung

def __init__(self):
    self.model_name = 't5-small'
    self.tokenizer = T5Tokenizer.from_pretrained(self.model_name)
    self.model = T5ForConditionalGeneration.from_pretrained(self.model_name)
    self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')
Nach dem Login kopieren
Nach dem Login kopieren
  • Entfernt doppelte aufeinanderfolgende Wörter (ohne Berücksichtigung der Groß- und Kleinschreibung)
  • Der erste Buchstabe der Antwort wird groß geschrieben
  • Entfernt zusätzliche Leerzeichen

Vollständiger Quellcode

Sie können die neueste Version des Quellcodes hier herunterladen: https://github.com/alexander-uspenskiy/rag_project

def prepare_dataset(self, data: List[Dict[str, str]]):
    self.answers = [item['answer'] for item in data]
    self.answer_embeddings = []
    for answer in self.answers:
        embedding = self.encoder.encode(answer, convert_to_tensor=True)
        self.answer_embeddings.append(embedding)
Nach dem Login kopieren
Nach dem Login kopieren

Speicherverwaltung:

Das System nutzt explizit die CPU, um Speicherprobleme zu vermeiden
Einbettungen werden bei Bedarf in CPU-Tensoren umgewandelt
Die Eingabelänge ist auf 512 Token begrenzt

Fehlerbehandlung:

  • Umfassende Try-Except-Blöcke im gesamten Code
  • Aussagekräftige Fehlermeldungen zum Debuggen
  • Validierungsprüfungen für nicht initialisierte Komponenten

Anwendungsbeispiel

def get_answer(self, question: str) -> str:
    # ... semantic search logic ...
    input_text = f"Given the context, what is the answer to the question: {question} Context: {context}"
    input_ids = self.tokenizer(input_text, max_length=512, truncation=True, 
                             padding='max_length', return_tensors='pt').input_ids
    outputs = self.model.generate(input_ids, max_length=50, num_beams=4, 
                                early_stopping=True, no_repeat_ngram_size=2
Nach dem Login kopieren
Nach dem Login kopieren

Im Terminal ausführen

How to Create Your Own RAG with Free LLM Models and a Knowledge Base

Einschränkungen und mögliche Verbesserungen

Skalierbarkeit:

Die aktuelle Implementierung behält alle Einbettungen im Speicher
Könnte mit Vektordatenbanken für groß angelegte Anwendungen verbessert werden

Antwortqualität:

Hängt stark von der Qualität des bereitgestellten Antwortdatensatzes ab
Begrenzt durch das Kontextfenster von T5-small
Könnte von einer Antwortvalidierung oder einer Konfidenzbewertung profitieren

Leistung:

  • Die alleinige Verwendung der CPU kann bei umfangreichen Anwendungen langsamer sein
  • Könnte durch Stapelverarbeitung optimiert werden
  • Könnte Caching für häufig gestellte Fragen implementieren

Abschluss

Diese Implementierung bietet eine solide Grundlage für ein Frage-Antwort-System und kombiniert die Stärken der semantischen Suche und der transformatorbasierten Textgenerierung. Spielen Sie gerne mit Modellparametern (wie max_length, num_beams, Early_stopping, no_repeat_ngram_size usw.), um einen besseren Weg zu finden, um kohärentere und stabilere Antworten zu erhalten. Obwohl es Raum für Verbesserungen gibt, bietet die aktuelle Implementierung ein gutes Gleichgewicht zwischen Komplexität und Funktionalität, sodass sie für Bildungszwecke und kleine bis mittlere Anwendungen geeignet ist.

Viel Spaß beim Codieren!

Das obige ist der detaillierte Inhalt vonSo erstellen Sie Ihr eigenes RAG mit kostenlosen LLM-Modellen und einer Wissensdatenbank. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Apr 02, 2025 am 06:36 AM

Verwenden Sie Python im Linux -Terminal ...

Wie bekomme ich Nachrichtendaten, die den Anti-Crawler-Mechanismus von Investing.com umgehen? Wie bekomme ich Nachrichtendaten, die den Anti-Crawler-Mechanismus von Investing.com umgehen? Apr 02, 2025 am 07:03 AM

Verständnis der Anti-Crawling-Strategie von Investing.com Viele Menschen versuchen oft, Nachrichten von Investing.com (https://cn.investing.com/news/latest-news) zu kriechen ...

See all articles