Golangs Methode zur Bildsegmentierung und Inhaltserkennung-Golang-php.cn

Inhaltsverzeichnis

Schritt 1: Lesen Sie das Bild und verarbeiten Sie es in Graustufen.

Schritt 2: Segmentieren Sie das Bild

Schritt 3: Inhaltsidentifizierung

Heim

Backend-Entwicklung

Golang

Golangs Methode zur Bildsegmentierung und Inhaltserkennung

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 19, 2023 pm 02:03 PM

golang 图片分割内容识别

Golangs Methode zur Bildsegmentierung und Inhaltserkennung

Mit der Weiterentwicklung der künstlichen Intelligenz und der Computer-Vision-Technologie spielen Bildsegmentierung und Inhaltserkennung in verschiedenen Bereichen eine immer wichtigere Rolle. In diesem Artikel wird erläutert, wie Sie mit Golang Bildsegmentierung und Inhaltserkennung erreichen, und es werden Codebeispiele bereitgestellt.

Bevor wir beginnen, müssen wir mehrere notwendige Go-Pakete installieren. Zuerst müssen wir „github.com/otiai10/gosseract/v2“ installieren, eine Golang-Bibliothek zur Texterkennung. Zweitens müssen wir auch „gonum.org/v1/gonum/mat“ installieren, eine Golang-Bibliothek für Matrixoperationen. Zur Installation können Sie den folgenden Befehl verwenden:

go get github.com/otiai10/gosseract/v2
go get -u gonum.org/v1/gonum/...

Nach dem Login kopieren

Als nächstes implementieren wir die Bildsegmentierung und Inhaltserkennung durch die folgenden Schritte.

Schritt 1: Lesen Sie das Bild und verarbeiten Sie es in Graustufen.

Zuerst müssen wir das Bild aus der Datei lesen und es in ein Graustufenbild konvertieren. Das Codebeispiel lautet wie folgt:

package main

import (
    "fmt"
    "image"
    "image/color"
    "image/jpeg"
    "os"
)

func main() {
    file, err := os.Open("image.jpg")
    if err != nil {
        fmt.Println("图片读取失败：", err)
        return
    }
    defer file.Close()

    img, err := jpeg.Decode(file)
    if err != nil {
        fmt.Println("图片解码失败：", err)
        return
    }

    gray := image.NewGray(img.Bounds())
    for x := gray.Bounds().Min.X; x < gray.Bounds().Max.X; x++ {
        for y := gray.Bounds().Min.Y; y < gray.Bounds().Max.Y; y++ {
            r, g, b, _ := img.At(x, y).RGBA()
            grayColor := color.Gray{(r + g + b) / 3}
            gray.Set(x, y, grayColor)
        }
    }
}

Nach dem Login kopieren

In diesem Code öffnen und lesen wir zunächst ein Bild mit dem Namen „image.jpg“. Anschließend dekodieren wir das Bild mithilfe der Funktion „jpeg.Decode“ in ein Bildobjekt. Als nächstes haben wir ein neues Graustufenbildobjekt „Gray“ erstellt und eine Doppelschleife verwendet, um das Originalbild in Graustufen umzuwandeln.

Schritt 2: Segmentieren Sie das Bild

Nachdem wir das Graustufenbild erhalten haben, können wir einige Bildverarbeitungsalgorithmen verwenden, um das Bild zu segmentieren. Hier verwenden wir den OTSU-Algorithmus zur Schwellenwertsegmentierung. Das Codebeispiel lautet wie folgt:

package main

import (
    "fmt"
    "image"
    "image/color"
    "image/jpeg"
    "math"
    "os"
)

func main() {
    // ...

    // 分割图片
    bounds := gray.Bounds()
    threshold := otsu(gray) // OTSU算法获取阈值
    binary := image.NewGray(bounds)
    for x := bounds.Min.X; x < bounds.Max.X; x++ {
        for y := bounds.Min.Y; y < bounds.Max.Y; y++ {
            if gray.GrayAt(x, y).Y > threshold {
                binary.Set(x, y, color.Gray{255})
            } else {
                binary.Set(x, y, color.Gray{0})
            }
        }
    }
}

// OTSU算法计算阈值
func otsu(img *image.Gray) uint32 {
    var hist [256]int
    bounds := img.Bounds()
    for x := bounds.Min.X; x < bounds.Max.X; x++ {
        for y := bounds.Min.Y; y < bounds.Max.Y; y++ {
            hist[img.GrayAt(x, y).Y]++
        }
    }

    total := bounds.Max.X * bounds.Max.Y
    var sum float64
    for i := 0; i < 256; i++ {
        sum += float64(i) * float64(hist[i])
    }
    var sumB float64
    wB := 0
    wF := 0
    var varMax float64
    threshold := 0

    for t := 0; t < 256; t++ {
        wB += hist[t]
        if wB == 0 {
            continue
        }
        wF = total - wB
        if wF == 0 {
            break
        }
        sumB += float64(t) * float64(hist[t])

        mB := sumB / float64(wB)
        mF := (sum - sumB) / float64(wF)

        var between float64 = float64(wB) * float64(wF) * (mB - mF) * (mB - mF)
        if between >= varMax {
            threshold = t
            varMax = between
        }
    }

    return uint32(threshold)
}

Nach dem Login kopieren

In diesem Code definieren wir eine Funktion namens „otsu“, um den Schwellenwert des OTSU-Algorithmus zu berechnen. Anschließend verwenden wir diese Funktion in der „Haupt“-Funktion, um den Schwellenwert zu ermitteln. Als nächstes erstellen wir ein neues Binärbild „binary“ und segmentieren das Graustufenbild mithilfe einer Doppelschleife mit einem Schwellenwert.

Schritt 3: Inhaltsidentifizierung

Nach der Segmentierung des Bildes können wir die „gosseract“-Bibliothek verwenden, um den Inhalt jedes Bereichs zu identifizieren. Das Codebeispiel lautet wie folgt:

package main

import (
    "fmt"
    "image"
    "image/color"
    "image/jpeg"
    "os"
    "strings"

    "github.com/otiai10/gosseract/v2"
)

func main() {
    // ...

    client := gosseract.NewClient()
    defer client.Close()

    texts := make([]string, 0)
    bounds := binary.Bounds()
    for x := bounds.Min.X; x < bounds.Max.X; x++ {
        for y := bounds.Min.Y; y < bounds.Max.Y; y++ {
            if binary.GrayAt(x, y).Y == 255 {
                continue
            }
            sx := x
            sy := y
            ex := x
            ey := y
            for ; ex < bounds.Max.X && binary.GrayAt(ex, y).Y == 0; ex++ {
            }
            for ; ey < bounds.Max.Y && binary.GrayAt(x, ey).Y == 0; ey++ {
            }
            rect := image.Rect(sx, sy, ex, ey)
            subImg := binary.SubImage(rect)

            pix := subImg.Bounds().Max.X * subImg.Bounds().Max.Y
            blackNum := 0
            for i := subImg.Bounds().Min.X; i < subImg.Bounds().Max.X; i++ {
                for j := subImg.Bounds().Min.Y; j < subImg.Bounds().Max.Y; j++ {
                    if subImg.At(i, j) == color.Gray{255} {
                        blackNum++
                    }
                }
            }
            if float64(blackNum)/float64(pix) < 0.1 { // 去除噪音
                continue
            }

            output, _ := client.ImageToText(subImg)
            output = strings.ReplaceAll(output, "
", "")
            output = strings.ReplaceAll(output, " ", "")
            texts = append(texts, output)
        }
    }

    fmt.Println(texts)
}

Nach dem Login kopieren

In diesem Code verwenden wir die Funktionen „NewClient“ und „Close“ in der „gosseract“-Bibliothek, um den Erkennungsclient zu erstellen und zu schließen. Anschließend verwenden wir eine Doppelschleife, um die segmentierten Binärbilder zu durchlaufen. Für nicht weiße Bereiche ermitteln wir den Koordinatenbereich des Bereichs und wandeln ihn in ein Unterbild um. Als nächstes berechnen wir den Anteil der schwarzen Pixel im Teilbild, um Rauschen zu entfernen. Abschließend wandeln wir das Unterbild über die Funktion „ImageToText“ in Text um und speichern das Ergebnis im Array „texts“.

Durch die oben genannten Schritte haben wir die Methode zur Verwendung von Golang zur Bildsegmentierung und Inhaltserkennung abgeschlossen. Sie können den Code entsprechend Ihren eigenen Anforderungen ändern und optimieren, um ihn an verschiedene Szenarien und Anforderungen anzupassen. Ich hoffe, dieser Artikel kann Ihnen dabei helfen, Bildsegmentierungs- und Inhaltserkennungstechnologie zu verstehen und anzuwenden.

Das obige ist der detaillierte Inhalt vonGolangs Methode zur Bildsegmentierung und Inhaltserkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1673

CakePHP-Tutorial

1428

Laravel-Tutorial

1333

PHP-Tutorial

1277

C#-Tutorial

1257

Related knowledge

Wie kann ich Dateien mit Golang sicher lesen und schreiben? Jun 06, 2024 pm 05:14 PM

Das sichere Lesen und Schreiben von Dateien in Go ist von entscheidender Bedeutung. Zu den Richtlinien gehören: Überprüfen von Dateiberechtigungen, Schließen von Dateien mithilfe von Verzögerungen, Validieren von Dateipfaden, Verwenden von Kontext-Timeouts. Das Befolgen dieser Richtlinien gewährleistet die Sicherheit Ihrer Daten und die Robustheit Ihrer Anwendungen.

Wie konfiguriere ich den Verbindungspool für die Golang-Datenbankverbindung? Jun 06, 2024 am 11:21 AM

Wie konfiguriere ich Verbindungspooling für Go-Datenbankverbindungen? Verwenden Sie den DB-Typ im Datenbank-/SQL-Paket, um eine Datenbankverbindung zu erstellen. Legen Sie MaxOpenConns fest, um die maximale Anzahl gleichzeitiger Verbindungen festzulegen. Legen Sie ConnMaxLifetime fest, um den maximalen Lebenszyklus der Verbindung festzulegen.

Wie speichere ich JSON-Daten in einer Datenbank in Golang? Jun 06, 2024 am 11:24 AM

JSON-Daten können mithilfe der gjson-Bibliothek oder der json.Unmarshal-Funktion in einer MySQL-Datenbank gespeichert werden. Die gjson-Bibliothek bietet praktische Methoden zum Parsen von JSON-Feldern, und die Funktion json.Unmarshal erfordert einen Zieltypzeiger zum Unmarshalieren von JSON-Daten. Bei beiden Methoden müssen SQL-Anweisungen vorbereitet und Einfügevorgänge ausgeführt werden, um die Daten in der Datenbank beizubehalten.

Golang Framework vs. Go Framework: Vergleich der internen Architektur und externen Funktionen Jun 06, 2024 pm 12:37 PM

Der Unterschied zwischen dem GoLang-Framework und dem Go-Framework spiegelt sich in der internen Architektur und den externen Funktionen wider. Das GoLang-Framework basiert auf der Go-Standardbibliothek und erweitert deren Funktionalität, während das Go-Framework aus unabhängigen Bibliotheken besteht, um bestimmte Zwecke zu erreichen. Das GoLang-Framework ist flexibler und das Go-Framework ist einfacher zu verwenden. Das GoLang-Framework hat einen leichten Leistungsvorteil und das Go-Framework ist skalierbarer. Fall: Gin-Gonic (Go-Framework) wird zum Erstellen der REST-API verwendet, während Echo (GoLang-Framework) zum Erstellen von Webanwendungen verwendet wird.

Ist es vielversprechender, Java oder Golang von Front-End zu Back-End-Entwicklung zu verwandeln? Apr 02, 2025 am 09:12 AM

Backend Learning Path: Die Erkundungsreise von Front-End zu Back-End als Back-End-Anfänger, der sich von der Front-End-Entwicklung verwandelt, Sie haben bereits die Grundlage von Nodejs, ...

Praktisches Tutorial zur Golang-Framework-Entwicklung: FAQs Jun 06, 2024 am 11:02 AM

Häufig gestellte Fragen zur Go-Framework-Entwicklung: Framework-Auswahl: Hängt von den Anwendungsanforderungen und Entwicklerpräferenzen ab, z. B. Gin (API), Echo (erweiterbar), Beego (ORM), Iris (Leistung). Installation und Verwendung: Verwenden Sie den Befehl gomod, um das Framework zu installieren, zu importieren und zu verwenden. Datenbankinteraktion: Verwenden Sie ORM-Bibliotheken wie gorm, um Datenbankverbindungen und -operationen herzustellen. Authentifizierung und Autorisierung: Verwenden Sie Sitzungsverwaltungs- und Authentifizierungs-Middleware wie gin-contrib/sessions. Praktischer Fall: Verwenden Sie das Gin-Framework, um eine einfache Blog-API zu erstellen, die POST, GET und andere Funktionen bereitstellt.

Welche Bibliotheken in GO werden von großen Unternehmen entwickelt oder von bekannten Open-Source-Projekten bereitgestellt? Apr 02, 2025 pm 04:12 PM

Welche Bibliotheken in GO werden von großen Unternehmen oder bekannten Open-Source-Projekten entwickelt? Bei der Programmierung in Go begegnen Entwickler häufig auf einige häufige Bedürfnisse, ...

Golangs Zweck: Aufbau effizienter und skalierbarer Systeme Apr 09, 2025 pm 05:17 PM

Go Language funktioniert gut beim Aufbau effizienter und skalierbarer Systeme. Zu den Vorteilen gehören: 1. hohe Leistung: Kompiliert in den Maschinencode, schnelle Laufgeschwindigkeit; 2. gleichzeitige Programmierung: Vereinfachen Sie Multitasking durch Goroutinen und Kanäle; 3. Einfachheit: präzise Syntax, Reduzierung der Lern- und Wartungskosten; 4. plattform: Unterstützt die plattformübergreifende Kompilierung, einfache Bereitstellung.

See all articles