Kauf mir einen Kaffee☕
*Mein Beitrag erklärt Bildklassifizierung (Erkennung), Objektlokalisierung, Objekterkennung und Bildsegmentierung.
Computer Vision ist die Technologie, die es einem Computer ermöglicht, visuelle Dinge wie Bilder, Videos usw. zu verstehen und zu analysieren.
(1) Schlüsselpunkterkennung (Landmark-Erkennung):
- kann die markanten Punkte der Objekte oder Interessenbereiche in einem Bild lokalisieren:
*Memos:
- Das Bild kann ein Einzelbild in einem Video sein.
-
Objektlokalisierung oder Bildklassifizierung und Objektlokalisierung(Objekterkennung) wird verwendet.
- kann verwendet werden, um Gesicht, seine Emotionen, die Haltung einer Person, Kleidung usw. zu erkennen.
(2) Bildanpassung:
- kann durch Vergleich ihrer charakteristischen Punkte feststellen, dass die Objekte und Interessenbereiche in mehreren Bildern gleich oder ähnlich sind.
- ist die fortschrittliche Technologie der Schlüsselpunkterkennung.
- kann zum Abgleichen von Gesichtern, Fingerabdrücken usw. verwendet werden
(3) Objektverfolgung:
- kann die Objekte und Interessenbereiche in einem Video (mehrere nacheinander aufgenommene Bilder) mit Begrenzungsrahmen verfolgen. *Das Video kann aus mehreren nacheinander aufgenommenen Bildern bestehen.
- ist die fortschrittliche Technologie der Objekterkennung.
- wird für Überwachung, autonome Fahrzeuge, virtuelle Realität, Fertigung, unbemannte Geschäfte usw. verwendet.
(4) Optischer Fluss:
- kann die Bewegung (Geschwindigkeit) der Objekte und Interessenbereiche in einem Video (mehrere nacheinander aufgenommene Bilder) erkennen und visualisieren:
*Memos:
- Geschwindigkeit ist die Geschwindigkeit und Richtung eines sich bewegenden Objekts.
- Das Video kann aus mehreren nacheinander aufgenommenen Bildern bestehen.
- ist die verzweigte Technologie der Objektverfolgung.
- wird zur Überwachung, Verkehrsüberwachung, Bewegungsanalyse usw. verwendet
(5) Stereo-Anpassung:
- kann durch Berechnung der Disparität eine 3D-Szene aus zwei oder mehr 2D-Stereobildern erstellen:
*Memos:
- Ein 2D-Stereobild ist ein ähnliches Bild, das aus einer anderen Position aufgenommen wurde.
- Disparität ist der Abstand zwischen zwei oder mehr entsprechenden Pixeln in den Stereobildern.
- wird für die Robotik verwendet.
(6) Die Videovorhersage kann zukünftige Videobilder aus vergangenen Videobildern vorhersagen.
(7) Bildunterschrift:
- kann Textbeschreibungen für Bilder generieren.
- ist die generative KI, die eine Kombination aus Computer Vision und Natural Language Processing (NLP) ist.
Das obige ist der detaillierte Inhalt vonWas ist Computer Vision? (2). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!