Janus B: Ein einheitliches Modell für multimodale Verständnis- und Generierungsaufgaben-Python-Tutorial-php.cn

Janus 1.3B

Janus ist ein neues autoregressives Framework, das multimodales Verständnis und Generierung integriert. Im Gegensatz zu früheren Modellen, die einen einzigen visuellen Encoder sowohl für Verständnis- als auch für Generierungsaufgaben verwendeten, führt Janus zwei separate visuelle Codierungspfade für diese Funktionen ein.

Unterschiede in der Kodierung für Verständnis und Generierung

Bei multimodalen Verständnisaufgaben extrahiert der visuelle Encoder semantische Informationen auf hoher Ebene wie Objektkategorien und visuelle Attribute. Dieser Encoder konzentriert sich auf die Ableitung komplexer Bedeutungen und betont höherdimensionale semantische Elemente.
Andererseits liegt bei visuellen Generierungsaufgaben der Schwerpunkt auf der Generierung feiner Details und der Aufrechterhaltung der Gesamtkonsistenz. Daher ist eine niedrigerdimensionale Kodierung erforderlich, die räumliche Strukturen und Texturen erfassen kann.

Einrichten der Umgebung

Hier sind die Schritte zum Ausführen von Janus in Google Colab:

git clone https://github.com/deepseek-ai/Janus
cd Janus
pip install -e .
# If needed, install the following as well
# pip install wheel
# pip install flash-attn --no-build-isolation

Nach dem Login kopieren

Sehaufgaben

Laden des Modells

Verwenden Sie den folgenden Code, um das erforderliche Modell für Vision-Aufgaben zu laden:

import torch
from transformers import AutoModelForCausalLM
from janus.models import MultiModalityCausalLM, VLChatProcessor
from janus.utils.io import load_pil_images

# Specify the model path
model_path = "deepseek-ai/Janus-1.3B"
vl_chat_processor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

Nach dem Login kopieren

Laden und Vorbereiten von Bildern für die Kodierung

Als nächstes laden Sie das Bild und konvertieren es in ein Format, das das Modell verstehen kann:

conversation = [
    {
        "role": "User",
        "content": "<image_placeholder>\nDescribe this chart.",
        "images": ["images/pie_chart.png"],
    },
    {"role": "Assistant", "content": ""},
]

# Load the image and prepare input
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation, images=pil_images, force_batchify=True
).to(vl_gpt.device)

# Run the image encoder and obtain image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

Nach dem Login kopieren

Generieren einer Antwort

Führen Sie abschließend das Modell aus, um eine Antwort zu generieren:

# Run the model and generate a response
outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True,
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

Nach dem Login kopieren

Beispielausgabe

Janus B: A Unified Model for Multimodal Understanding and Generation Tasks

The image depicts a pie chart that illustrates the distribution of four different categories among four distinct groups. The chart is divided into four segments, each representing a category with a specific percentage. The categories and their corresponding percentages are as follows:

1. **Hogs**: This segment is colored in orange and represents 30.0% of the total.
2. **Frog**: This segment is colored in blue and represents 15.0% of the total.
3. **Logs**: This segment is colored in red and represents 10.0% of the total.
4. **Dogs**: This segment is colored in green and represents 45.0% of the total.

The pie chart is visually divided into four segments, each with a different color and corresponding percentage. The segments are arranged in a clockwise manner starting from the top-left, moving clockwise. The percentages are clearly labeled next to each segment.

The chart is a simple visual representation of data, where the size of each segment corresponds to the percentage of the total category it represents. This type of chart is commonly used to compare the proportions of different categories in a dataset.

To summarize, the pie chart shows the following:
- Hogs: 30.0%
- Frog: 15.0%
- Logs: 10.0%
- Dogs: 45.0%

This chart can be used to understand the relative proportions of each category in the given dataset.

Nach dem Login kopieren

Die Ausgabe zeigt ein angemessenes Verständnis des Bildes, einschließlich seiner Farben und seines Textes.

Aufgaben zur Bildgenerierung

Laden des Modells

Laden Sie das erforderliche Modell für Bildgenerierungsaufgaben mit dem folgenden Code:

import os
import PIL.Image
import torch
import numpy as np
from transformers import AutoModelForCausalLM
from janus.models import MultiModalityCausalLM, VLChatProcessor

# Specify the model path
model_path = "deepseek-ai/Janus-1.3B"
vl_chat_processor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

Nach dem Login kopieren

Vorbereiten der Eingabeaufforderung

Als nächstes bereiten Sie die Eingabeaufforderung basierend auf der Anfrage des Benutzers vor:

# Set up the prompt
conversation = [
    {
        "role": "User",
        "content": "cute japanese girl, wearing a bikini, in a beach",
    },
    {"role": "Assistant", "content": ""},
]

# Convert the prompt into the appropriate format
sft_format = vl_chat_processor.apply_sft_template_for_multi_turn_prompts(
    conversations=conversation,
    sft_format=vl_chat_processor.sft_format,
    system_prompt="",
)

prompt = sft_format + vl_chat_processor.image_start_tag

Nach dem Login kopieren

Das Bild erzeugen

Die folgende Funktion wird zum Generieren von Bildern verwendet. Standardmäßig werden 16 Bilder generiert:

@torch.inference_mode()
def generate(
    mmgpt: MultiModalityCausalLM,
    vl_chat_processor: VLChatProcessor,
    prompt: str,
    temperature: float = 1,
    parallel_size: int = 16,
    cfg_weight: float = 5,
    image_token_num_per_image: int = 576,
    img_size: int = 384,
    patch_size: int = 16,
):
    input_ids = vl_chat_processor.tokenizer.encode(prompt)
    input_ids = torch.LongTensor(input_ids)

    tokens = torch.zeros((parallel_size*2, len(input_ids)), dtype=torch.int).cuda()
    for i in range(parallel_size*2):
        tokens[i, :] = input_ids
        if i % 2 != 0:
            tokens[i, 1:-1] = vl_chat_processor.pad_id

    inputs_embeds = mmgpt.language_model.get_input_embeddings()(tokens)

    generated_tokens = torch.zeros((parallel_size, image_token_num_per_image), dtype=torch.int).cuda()

    for i in range(image_token_num_per_image):
        outputs = mmgpt.language_model.model(
            inputs_embeds=inputs_embeds,
            use_cache=True,
            past_key_values=outputs.past_key_values if i != 0 else None,
        )
        hidden_states = outputs.last_hidden_state

        logits = mmgpt.gen_head(hidden_states[:, -1, :])
        logit_cond = logits[0::2, :]
        logit_uncond = logits[1::2, :]

        logits = logit_uncond + cfg_weight * (logit_cond - logit_uncond)
        probs = torch.softmax(logits / temperature, dim=-1)

        next_token = torch.multinomial(probs, num_samples=1)
        generated_tokens[:, i] = next_token.squeeze(dim=-1)

        next_token = torch.cat([next_token.unsqueeze(dim=1), next_token.unsqueeze(dim=1)], dim=1).view(-1)
        img_embeds = mmgpt.prepare_gen_img_embeds(next_token)
        inputs_embeds = img_embeds.unsqueeze(dim=1)

    dec = mmgpt.gen_vision_model.decode_code(
        generated_tokens.to(dtype=torch.int),
        shape=[parallel_size, 8, img_size // patch_size, img_size // patch_size],
    )
    dec = dec.to(torch.float32).cpu().numpy().transpose(0, 2, 3, 1)
    dec = np.clip((dec + 1) / 2 * 255, 0, 255)

    visual_img = np.zeros((parallel_size, img_size, img_size, 3), dtype=np.uint8)
    visual_img[:, :, :] = dec

    os.makedirs('generated_samples', exist_ok=True)
    for i in range(parallel_size):
        save_path = os.path.join('generated_samples', f"img_{i}.jpg")
        PIL.Image.fromarray(visual_img[i]).save(save_path)

# Run the image generation
generate(vl_gpt, vl_chat_processor, prompt)

Nach dem Login kopieren

Die generierten Bilder werden im Ordner „generated_samples“ gespeichert.

Beispiel generierter Ergebnisse

Unten finden Sie ein Beispiel für ein generiertes Bild:

Janus B: A Unified Model for Multimodal Understanding and Generation Tasks

Hundesind relativ gut dargestellt.
Gebäude behalten ihre Gesamtform bei, obwohl einige Details, wie z. B. Fenster, unrealistisch erscheinen können.
Es ist jedoch schwierig, Menschen gut zu generieren, da sowohl im fotorealistischen als auch im animeähnlichen Stil erhebliche Verzerrungen auftreten.

Das obige ist der detaillierte Inhalt vonJanus B: Ein einheitliches Modell für multimodale Verständnis- und Generierungsaufgaben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!