Heim Backend-Entwicklung Python-Tutorial Erstellen eines KI-gestützten API-Dienstes zur Bildgenerierung mit FLUX, Python und Diffusoren

Erstellen eines KI-gestützten API-Dienstes zur Bildgenerierung mit FLUX, Python und Diffusoren

Nov 29, 2024 pm 05:36 PM

Creating an AI-powered Image Generation API Service with FLUX, Python, and Diffusers

FLUX (von Black Forest Labs) hat in den letzten Monaten die Welt der KI-Bildgenerierung im Sturm erobert. Es hat nicht nur Stable Diffusion (den früheren Open-Source-König) in vielen Benchmarks geschlagen, sondern in einigen Kennzahlen auch proprietäre Modelle wie Dall-E oder Midjourney übertroffen.

Aber wie würden Sie FLUX in einer Ihrer Apps verwenden? Man könnte darüber nachdenken, serverlose Hosts wie Replicate und andere zu verwenden, aber diese können sehr schnell sehr teuer werden und bieten möglicherweise nicht die Flexibilität, die Sie benötigen. Hier bietet sich die Erstellung Ihres eigenen benutzerdefinierten FLUX-Servers an.

In diesem Artikel führen wir Sie durch die Erstellung Ihres eigenen FLUX-Servers mit Python. Mit diesem Server können Sie über eine einfache API Bilder basierend auf Textaufforderungen generieren. Ganz gleich, ob Sie diesen Server für den persönlichen Gebrauch betreiben oder ihn als Teil einer Produktionsanwendung bereitstellen, dieser Leitfaden hilft Ihnen beim Einstieg.

Voraussetzungen

Bevor wir uns mit dem Code befassen, stellen wir sicher, dass Sie die erforderlichen Tools und Bibliotheken eingerichtet haben:

  • Python: Auf Ihrem Computer muss Python 3 installiert sein, vorzugsweise Version 3.10.
  • Torch: Das Deep-Learning-Framework, das wir zum Ausführen von FLUX verwenden werden.
  • Diffusoren: Bietet Zugriff auf das FLUX-Modell.
  • Transformatoren: Erforderliche Abhängigkeit von Diffusoren.
  • Satzstück: Erforderlich, um den FLUX-Tokenizer auszuführen
  • protobuf: Erforderlich zum Ausführen von FLUX
  • beschleunigen: Hilft in einigen Fällen, das FLUX-Modell effizienter zu laden.
  • fastapi: Framework zum Erstellen eines Webservers, der Bildgenerierungsanfragen akzeptieren kann.
  • uvicorn: Erforderlich, um den FastAPI-Server auszuführen.
  • psutil: Ermöglicht uns zu überprüfen, wie viel RAM auf unserem Computer vorhanden ist.

Sie können alle Bibliotheken installieren, indem Sie den folgenden Befehl ausführen: pip install Torch Diffusers Transformers Satzstück Protobuf Beschleunigung Fastapi Uvicorn.

Wenn Sie einen Mac mit einem M1- oder M2-Chip verwenden, sollten Sie PyTorch mit Metal für optimale Leistung einrichten. Befolgen Sie die offizielle PyTorch with Metal-Anleitung, bevor Sie fortfahren.

Sie müssen außerdem sicherstellen, dass Sie über mindestens 12 GB VRAM verfügen, wenn Sie FLUX auf einem GPU-Gerät ausführen möchten. Oder mindestens 12 GB RAM für die Ausführung auf CPU/MPS (was langsamer ist).

Schritt 1: Einrichten der Umgebung

Lassen Sie uns das Skript beginnen, indem wir basierend auf der von uns verwendeten Hardware das richtige Gerät zum Ausführen der Inferenz auswählen.

device = 'cuda' # can also be 'cpu' or 'mps'

import os

# MPS support in PyTorch is not yet fully implemented
if device == 'mps':
  os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"

import torch

if device == 'mps' and not torch.backends.mps.is_available():
      raise Exception("Device set to MPS, but MPS is not available")
elif device == 'cuda' and not torch.cuda.is_available():
      raise Exception("Device set to CUDA, but CUDA is not available")
Nach dem Login kopieren
Nach dem Login kopieren
Nach dem Login kopieren

Sie können CPU, Cuda (für NVIDIA-GPUs) oder MPS (für Apples Metal Performance Shader) angeben. Das Skript prüft dann, ob das ausgewählte Gerät verfügbar ist und löst eine Ausnahme aus, wenn dies nicht der Fall ist.

Schritt 2: Laden des FLUX-Modells

Als nächstes laden wir das FLUX-Modell. Wir laden das Modell mit fp16-Präzision, was uns etwas Speicherplatz spart, ohne dass es zu großen Qualitätsverlusten kommt.

An dieser Stelle werden Sie möglicherweise aufgefordert, sich bei HuggingFace zu authentifizieren, da das FLUX-Modell geschlossen ist. Für eine erfolgreiche Authentifizierung müssen Sie ein HuggingFace-Konto erstellen, zur Modellseite gehen, die Bedingungen akzeptieren und dann aus Ihren Kontoeinstellungen ein HuggingFace-Token erstellen und es auf Ihrem Computer als HF_TOKEN-Umgebungsvariable hinzufügen.

device = 'cuda' # can also be 'cpu' or 'mps'

import os

# MPS support in PyTorch is not yet fully implemented
if device == 'mps':
  os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"

import torch

if device == 'mps' and not torch.backends.mps.is_available():
      raise Exception("Device set to MPS, but MPS is not available")
elif device == 'cuda' and not torch.cuda.is_available():
      raise Exception("Device set to CUDA, but CUDA is not available")
Nach dem Login kopieren
Nach dem Login kopieren
Nach dem Login kopieren

Hier laden wir das FLUX-Modell mithilfe der Diffusorbibliothek. Das von uns verwendete Modell ist black-forest-labs/FLUX.1-dev, geladen in fp16-Präzision.

Es gibt auch ein zeitschrittdestilliertes Modell namens FLUX Schnell, das eine schnellere Inferenz bietet, aber weniger detaillierte Bilder ausgibt, sowie ein FLUX Pro-Modell, das Closed-Source ist.
Wir verwenden hier den Euler-Scheduler, aber Sie können damit experimentieren. Weitere Informationen zu Planern finden Sie hier.
Da die Bilderzeugung ressourcenintensiv sein kann, ist es wichtig, die Speichernutzung zu optimieren, insbesondere wenn sie auf einer CPU oder einem Gerät mit begrenztem Speicher ausgeführt wird.

from diffusers import FlowMatchEulerDiscreteScheduler, FluxPipeline
import psutil

model_name = "black-forest-labs/FLUX.1-dev"

print(f"Loading {model_name} on {device}")

pipeline = FluxPipeline.from_pretrained(
      model_name,

      # Diffusion models are generally trained on fp32, but fp16
      # gets us 99% there in terms of quality, with just half the (V)RAM
      torch_dtype=torch.float16,

      # Ensure we don't load any dangerous binary code
      use_safetensors=True

      # We are using Euler here, but you can also use other samplers
      scheduler=FlowMatchEulerDiscreteScheduler()
).to(device)
Nach dem Login kopieren
Nach dem Login kopieren

Dieser Code überprüft den gesamten verfügbaren Speicher und ermöglicht die Aufmerksamkeitsverteilung, wenn das System über weniger als 64 GB RAM verfügt. Aufmerksamkeits-Slicing reduziert den Speicherverbrauch während der Bilderzeugung, was für Geräte mit begrenzten Ressourcen unerlässlich ist.

Schritt 3: Erstellen der API mit FastAPI

Als nächstes richten wir den FastAPI-Server ein, der eine API zum Generieren von Bildern bereitstellt.

# Recommended if running on MPS or CPU with < 64 GB of RAM
total_memory = psutil.virtual_memory().total
total_memory_gb = total_memory / (1024 ** 3)
if (device == 'cpu' or device == 'mps') and total_memory_gb < 64:
      print("Enabling attention slicing")
      pipeline.enable_attention_slicing()
Nach dem Login kopieren
Nach dem Login kopieren

FastAPI ist ein beliebtes Framework zum Erstellen von Web-APIs mit Python. In diesem Fall verwenden wir es, um einen Server zu erstellen, der Anfragen zur Bildgenerierung akzeptieren kann. Wir verwenden auch die GZip-Middleware, um die Antwort zu komprimieren, was besonders nützlich ist, wenn Bilder im Base64-Format zurückgesendet werden.

In einer Produktionsumgebung möchten Sie möglicherweise die generierten Bilder in einem S3-Bucket oder einem anderen Cloud-Speicher speichern und die URLs anstelle der Base64-codierten Zeichenfolgen zurückgeben, um von einem CDN und anderen Optimierungen zu profitieren.

Schritt 4: Definieren des Anforderungsmodells

Wir müssen jetzt ein Modell für die Anfragen definieren, die unsere API akzeptiert.

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field, conint, confloat
from fastapi.middleware.gzip import GZipMiddleware
from io import BytesIO
import base64

app = FastAPI()

# We will be returning the image as a base64 encoded string
# which we will want compressed
app.add_middleware(GZipMiddleware, minimum_size=1000, compresslevel=7)
Nach dem Login kopieren
Nach dem Login kopieren

Dieses GenerateRequest-Modell definiert die Parameter, die zum Generieren eines Bildes erforderlich sind. Das Eingabeaufforderungsfeld ist die Textbeschreibung des Bildes, das Sie erstellen möchten. Zu den weiteren Feldern gehören die Bildabmessungen, die Anzahl der Inferenzschritte und die Stapelgröße.

Schritt 5: Erstellen des Bildgenerierungsendpunkts

Jetzt erstellen wir den Endpunkt, der Bildgenerierungsanfragen verarbeitet.

device = 'cuda' # can also be 'cpu' or 'mps'

import os

# MPS support in PyTorch is not yet fully implemented
if device == 'mps':
  os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"

import torch

if device == 'mps' and not torch.backends.mps.is_available():
      raise Exception("Device set to MPS, but MPS is not available")
elif device == 'cuda' and not torch.cuda.is_available():
      raise Exception("Device set to CUDA, but CUDA is not available")
Nach dem Login kopieren
Nach dem Login kopieren
Nach dem Login kopieren

Dieser Endpunkt übernimmt den Bildgenerierungsprozess. Zunächst wird überprüft, ob Höhe und Breite ein Vielfaches von 8 sind, wie von FLUX gefordert. Anschließend generiert es Bilder basierend auf der bereitgestellten Eingabeaufforderung und gibt sie als Base64-codierte Zeichenfolgen zurück.

Schritt 6: Starten des Servers

Zuletzt fügen wir noch etwas Code hinzu, um den Server zu starten, wenn das Skript ausgeführt wird.

from diffusers import FlowMatchEulerDiscreteScheduler, FluxPipeline
import psutil

model_name = "black-forest-labs/FLUX.1-dev"

print(f"Loading {model_name} on {device}")

pipeline = FluxPipeline.from_pretrained(
      model_name,

      # Diffusion models are generally trained on fp32, but fp16
      # gets us 99% there in terms of quality, with just half the (V)RAM
      torch_dtype=torch.float16,

      # Ensure we don't load any dangerous binary code
      use_safetensors=True

      # We are using Euler here, but you can also use other samplers
      scheduler=FlowMatchEulerDiscreteScheduler()
).to(device)
Nach dem Login kopieren
Nach dem Login kopieren

Dieser Code startet den FastAPI-Server auf Port 8000 und macht ihn dank der 0.0.0.0-Bindung nicht nur von http://localhost:8000 aus zugänglich, sondern auch von anderen Geräten im selben Netzwerk über die IP-Adresse des Host-Computers.

Schritt 7: Testen Sie Ihren Server lokal

Da Ihr FLUX-Server nun betriebsbereit ist, ist es an der Zeit, ihn zu testen. Sie können Curl, ein Befehlszeilentool zum Senden von HTTP-Anfragen, verwenden, um mit Ihrem Server zu interagieren:

# Recommended if running on MPS or CPU with < 64 GB of RAM
total_memory = psutil.virtual_memory().total
total_memory_gb = total_memory / (1024 ** 3)
if (device == 'cpu' or device == 'mps') and total_memory_gb < 64:
      print("Enabling attention slicing")
      pipeline.enable_attention_slicing()
Nach dem Login kopieren
Nach dem Login kopieren

Dieser Befehl funktioniert nur auf UNIX-basierten Systemen, auf denen die Dienstprogramme curl, jq und base64 installiert sind. Abhängig von der Hardware, auf der der FLUX-Server gehostet wird, kann es auch einige Minuten dauern, bis der Vorgang abgeschlossen ist.

Abschluss

Herzlichen Glückwunsch! Sie haben erfolgreich Ihren eigenen FLUX-Server mit Python erstellt. Mit diesem Setup können Sie Bilder basierend auf Textaufforderungen über eine einfache API generieren. Wenn Sie mit den Ergebnissen des FLUX-Basismodells nicht zufrieden sind, können Sie eine Feinabstimmung des Modells in Betracht ziehen, um bei bestimmten Anwendungsfällen eine noch bessere Leistung zu erzielen.

Vollständiger Code

Den vollständigen Code, der in dieser Anleitung verwendet wird, finden Sie unten:

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field, conint, confloat
from fastapi.middleware.gzip import GZipMiddleware
from io import BytesIO
import base64

app = FastAPI()

# We will be returning the image as a base64 encoded string
# which we will want compressed
app.add_middleware(GZipMiddleware, minimum_size=1000, compresslevel=7)
Nach dem Login kopieren
Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonErstellen eines KI-gestützten API-Dienstes zur Bildgenerierung mit FLUX, Python und Diffusoren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Python vs. C: Anwendungen und Anwendungsfälle verglichen Python vs. C: Anwendungen und Anwendungsfälle verglichen Apr 12, 2025 am 12:01 AM

Python eignet sich für Datenwissenschafts-, Webentwicklungs- und Automatisierungsaufgaben, während C für Systemprogrammierung, Spieleentwicklung und eingebettete Systeme geeignet ist. Python ist bekannt für seine Einfachheit und sein starkes Ökosystem, während C für seine hohen Leistung und die zugrunde liegenden Kontrollfunktionen bekannt ist.

Wie viel Python können Sie in 2 Stunden lernen? Wie viel Python können Sie in 2 Stunden lernen? Apr 09, 2025 pm 04:33 PM

Sie können die Grundlagen von Python innerhalb von zwei Stunden lernen. 1. Lernen Sie Variablen und Datentypen, 2. Master -Steuerungsstrukturen wie wenn Aussagen und Schleifen, 3. Verstehen Sie die Definition und Verwendung von Funktionen. Diese werden Ihnen helfen, einfache Python -Programme zu schreiben.

Python: Spiele, GUIs und mehr Python: Spiele, GUIs und mehr Apr 13, 2025 am 12:14 AM

Python zeichnet sich in Gaming und GUI -Entwicklung aus. 1) Spielentwicklung verwendet Pygame, die Zeichnungen, Audio- und andere Funktionen bereitstellt, die für die Erstellung von 2D -Spielen geeignet sind. 2) Die GUI -Entwicklung kann Tkinter oder Pyqt auswählen. Tkinter ist einfach und einfach zu bedienen. PYQT hat reichhaltige Funktionen und ist für die berufliche Entwicklung geeignet.

Der 2-stündige Python-Plan: ein realistischer Ansatz Der 2-stündige Python-Plan: ein realistischer Ansatz Apr 11, 2025 am 12:04 AM

Sie können grundlegende Programmierkonzepte und Fähigkeiten von Python innerhalb von 2 Stunden lernen. 1. Lernen Sie Variablen und Datentypen, 2. Master Control Flow (bedingte Anweisungen und Schleifen), 3.. Verstehen Sie die Definition und Verwendung von Funktionen, 4. Beginnen Sie schnell mit der Python -Programmierung durch einfache Beispiele und Code -Snippets.

Python: Erforschen der primären Anwendungen Python: Erforschen der primären Anwendungen Apr 10, 2025 am 09:41 AM

Python wird in den Bereichen Webentwicklung, Datenwissenschaft, maschinelles Lernen, Automatisierung und Skripten häufig verwendet. 1) In der Webentwicklung vereinfachen Django und Flask Frameworks den Entwicklungsprozess. 2) In den Bereichen Datenwissenschaft und maschinelles Lernen bieten Numpy-, Pandas-, Scikit-Learn- und TensorFlow-Bibliotheken eine starke Unterstützung. 3) In Bezug auf Automatisierung und Skript ist Python für Aufgaben wie automatisiertes Test und Systemmanagement geeignet.

Python vs. C: Lernkurven und Benutzerfreundlichkeit Python vs. C: Lernkurven und Benutzerfreundlichkeit Apr 19, 2025 am 12:20 AM

Python ist leichter zu lernen und zu verwenden, während C leistungsfähiger, aber komplexer ist. 1. Python -Syntax ist prägnant und für Anfänger geeignet. Durch die dynamische Tippen und die automatische Speicherverwaltung können Sie die Verwendung einfach zu verwenden, kann jedoch zur Laufzeitfehler führen. 2.C bietet Steuerung und erweiterte Funktionen auf niedrigem Niveau, geeignet für Hochleistungsanwendungen, hat jedoch einen hohen Lernschwellenwert und erfordert manuellem Speicher und Typensicherheitsmanagement.

Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Apr 14, 2025 am 12:02 AM

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

Python: Automatisierung, Skript- und Aufgabenverwaltung Python: Automatisierung, Skript- und Aufgabenverwaltung Apr 16, 2025 am 12:14 AM

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

See all articles