Llama 3.2-Vision ialah model bahasa besar berbilang mod yang tersedia dalam saiz 11B dan 90B, yang mampu memproses kedua-dua input teks dan imej untuk menjana output teks. Model ini cemerlang dalam pengecaman visual, penaakulan imej, penerangan imej dan menjawab soalan berkaitan imej, mengatasi prestasi model multimodal sumber terbuka dan sumber tertutup sedia ada merentas pelbagai penanda aras industri.
Dalam artikel ini saya akan menerangkan cara memanggil perkhidmatan pemodelan Llama 3.2-Vision 11B yang dijalankan oleh Ollama dan melaksanakan fungsi pengecaman teks imej (OCR) menggunakan Ollama-OCR.
? Pengecaman teks ketepatan tinggi menggunakan model Llama 3.2-Vision
? Mengekalkan pemformatan dan struktur teks asal
?️ Menyokong berbilang format imej: JPG, JPEG, PNG
⚡️ Gesaan dan model pengecaman boleh disesuaikan
? Pilihan format output markdown
? Pengendalian ralat yang mantap
Sebelum anda boleh mula menggunakan Llama 3.2-Vision, anda perlu memasang Ollama, platform yang menyokong menjalankan model multimodal secara tempatan. Ikuti langkah di bawah untuk memasangnya:
Selepas memasang Ollama, anda boleh memasang model Llama 3.2-Vision 11B dengan arahan berikut:
ollama run llama3.2-vision
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
Kod
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
Imej Input:
Output:
Koleksi Llama 3.2-Vision model bahasa besar berbilang mod (LLM) ialah koleksi model generatif penaakulan imej yang ditala arahan dalam saiz 118 dan 908 (imej teks masuk / keluar teks). Model yang ditala arahan Llama 3.2-Vision dioptimumkan untuk pengecaman visual, penaakulan imej, kapsyen dan menjawab soalan umum tentang imej. Model ini mengatasi kebanyakan model sumber terbuka dan multimodal tertutup yang tersedia pada penanda aras industri biasa.
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
Imej Input:
Output:
ollama-ocr menggunakan model penglihatan tempatan, jika anda ingin menggunakan model Llama 3.2-Vision dalam talian, cuba perpustakaan llama-ocr.
Atas ialah kandungan terperinci Ollama-OCR untuk OCR Ketepatan Tinggi dengan Ollama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!