Dieser Artikel wurde vom Autor Beishang aus dem öffentlichen WeChat-Konto „AI Origin“ nachgedruckt. Um diesen Artikel erneut zu drucken, wenden Sie sich bitte an das öffentliche Konto von AI Yuanqi.
Können Sie Zahlen erkennen?
Apropos KI: Das, woran jeder denkt, ist ein intelligentes Hardware-Kreatur wie MOSS in „The Wandering Earth 2“. Es scheint allwissend und allmächtig zu sein, solange es das Internet gibt, wird es so sein wie in Avengers 2 Wie Ultron nutzt er das Internet, um sich überall zu verbreiten, und denkt immer an einen Plan, um Menschen zu eliminieren und „Weltfrieden“ zu erreichen.
Allerdings ist KI zu diesem Zeitpunkt noch weit von dem entfernt, was jeder in Film- und Fernsehwerken fühlt und erlebt. Nehmen wir heute das Beispiel der digitalen Bilderkennung und untersuchen, auf welcher Form KI basiert existiert tatsächlich. Der Artikel wird durch einige Schlüsselfragen indiziert, um Ihnen das Verständnis Schritt für Schritt zu erleichtern. Folge mir, lass uns gehen ~
Das ist ein Bild mit Zahlen, nachdem du es gesehen hast, wirst du sofort reagieren können (auch wenn es verschwommen ist).
Die erste Frage: Echte Intelligenz – warum kann man klar erkennen, dass es sich hier um die Zahl „3“ handelt? Was bedeutet das?
Wenn Sie dieses Bild betrachten, wandeln Ihre Augen das optische Signal in ein biologisches Signal um, das das Gehirn durch Lichtreflexion auf der Netzhaut erkennen kann, und speichern diesen Teil der Informationen vorübergehend (nur zum Verständnis, nicht tatsächlich?) in auf deiner Netzhaut. Nachdem das Gehirn das Signal empfangen hat, erkennt Ihr kluges kleines Gehirn schnell, dass es sich um die Zahl „3“ handelt. Zu diesem Zeitpunkt haben Sie das Bild vollständig verstanden und es ist eine „3“. Die Grundlage all dessen ist natürlich, dass Ihnen seit Ihrer Kindheit beigebracht wurde, dass Zahlen in dieser Form der Zahl 3 „äquivalent“ sind, nicht 5, 6 und anderen Zahlen.
Zweite Frage: Augen, Netzhaut – welche Eingabeform nutzt der Computer, um die physische Welt zu erkennen?
Welche Beziehung besteht zwischen Computern und KI? Wir können einfach verstehen, dass KI eine Art pseudointelligente Fähigkeit ist, die die Rechenleistung und Architektur eines Computers erfordert, genau wie wir selbst über Intelligenz und Leben verfügen, aber tatsächlich sind wir im Wesentlichen kohlenstoffbasierte Organismen. Wie wir alle wissen, ist die Computerwelt eine binäre Welt. Einfach ausgedrückt ist sie entweder 0 oder 1. Ich weiß, dass Sie derzeit Zweifel haben. Können Sie so viele Funktionen erreichen, indem Sie sich nur auf Binärzahlen verlassen, die entweder 0 oder 1 sind? Aber keine Sorge, es gibt hier ein Konzept, das geklärt werden muss, nämlich, dass Binärzahlen Zahlen in jeder Basis darstellen können (Sie können zuerst denken, dass es richtig ist, und wir werden später darüber sprechen, wenn Sie es speziell benötigen). Zum Beispiel ist die Zahl 13 in unserem häufig verwendeten Dezimalsystem binär Das Folgende ist 1101. Freunde, die sorgfältig lernen möchten, können die Erklärung des Bildes unten sehen.
Wir können also klar verstehen, dass der Computer eine Zahl binär „verstehen“ kann. Wenn ein Bild in eine Zahlenfolge umgewandelt werden kann, kann sich der Computer dann von einem Idioten, der nur 0 und 1 kennt, in einen Idioten verwandeln, der Informationen aus dem Bild eingeben kann (wenn Sie es nicht verstehen, legen Sie es beiseite, so wie ein Kind erst essen lernen muss, wenn es erwachsen ist. Wie in der folgenden Abbildung gezeigt, kann jeder kleine Bereich des Bildes als Pixel betrachtet werden, und ein Pixel stellt eine Farbe dar. Wie wir alle wissen, kann jede Farbe durch Rot, Grün und Blau (Blau) geleitet werden Wir können eine Liste von Zahlen in der Reihenfolge von links nach rechts und von oben nach unten erstellen und diese Inhalte dann an den Computer senden.
An diesem Punkt haben wir das Bild in ein Signal umgewandelt, das der Computer akzeptieren kann, unabhängig davon, ob der Computer es versteht oder nicht. Wie erkennt das Computergehirn, dass die Zahl im Bild „3“ ist?
Die dritte Frage: Sogenannte KI – wie soll der Computer feststellen, dass die Zahl in diesem Bild „3“ ist
Geben Sie dem Computer zwei Bilder wie dieses. Es kann Ihnen sagen, dass das Bild links die Nummer „3“ ist. Glauben Sie, dass es künstliche Intelligenz hat? Du denkst vielleicht, das sei zu naiv, aber selbst ein 3-jähriges Kind weiß das. Aber wenn das Bild rechts 10.000 Bilder seltener Vögel wie Blaufußtölpel zeigt und es nur wenige Sekunden dauert, bis der Computer verschiedene seltene Kreaturen mit einer Genauigkeit von 99 % genau identifiziert, ist das nicht richtig? ein bisschen wie KI?
Traditionelle Erkennungsmethode – Insbesondere konnten wir das Bild in eine digitale Matrix umwandeln. Die traditionelle Bilderkennungsmethode extrahiert die Merkmale im Bild, indem sie beispielsweise einige harte Regeln als Merkmale verwendet. Was die Zahl „3“ betrifft, so reagieren wir unbewusst, wenn wir diese Form in unserem Gehirn sehen, dass es sich um „3“ handelt, für den Computer ist es jedoch eine Zahlenfolge. Daher mussten Ingenieure bei der Durchführung ähnlicher Bildklassifizierungsaufgaben früher die der Zahl „3“ zugeordnete digitale Sequenz verarbeiten, was wirklich Kopfschmerzen bereitete. Daher ist die Erstellung von Merkmalen ein entscheidender, aber äußerst umständlicher Prozess bei der herkömmlichen Bilderkennung und -klassifizierung.
Der Vorteil der herkömmlichen Erkennungsmethode besteht darin, dass Sie bei einem falschen Erkennungsergebnis die Fehlerursache durch die Anzeige von Features grob ermitteln können. Der Nachteil besteht darin, dass das Feature-Engineering umständlich ist. Gibt es eine Möglichkeit, das Feature-Engineering zu schwächen (obwohl Feature-Engineering auch für viele nachfolgende Aufgaben äußerst wichtig ist) und eine End-to-End-Lösung bereitzustellen? Das sogenannte End-to-End bedeutet, dass ich nur ein digitales Bild und seine Klassifizierungsergebnisse bereitstellen muss und den Computer die Erkennungslösung selbst lernen lassen muss (ist es ein bisschen wie menschliche Lernideen)? Nach dem Wandel der Zeit und der deutlichen Verbesserung der Rechenleistung von Computern kamen nach und nach Deep-Learning-Algorithmen auf Basis neuronaler Netze zum Einsatz.
Erkennungsmethode für tiefe neuronale Netze – Diese Worte sind sehr tiefgreifend. Wer sich nicht mit Computern auskennt oder keine Algorithmen beherrscht, hat möglicherweise direkt Angst davor, in einem Satz zu übersetzen, was ein tiefes neuronales Netz ist (Hundekopf.jpg). : Es besteht eine gewisse nichtlineare Korrelation zwischen den Eingabedaten und der angegebenen Bezeichnung. Das neuronale Netzwerk verwendet mehrere nichtlineare Funktionen, um die oben erwähnte nichtlineare Korrelation näherungsweise anzupassen. Wie unten gezeigt, handelt es sich um ein einfaches tiefes neuronales Netzwerk (Buchstabe „A“), und auf der rechten Seite handelt es sich um die Struktur, die das Bild in Zahlen umwandelt und „intelligente“ Operationen ausführt, die als „Gehirn“ verstanden werden können ".
Das obige ist der detaillierte Inhalt vonComputer Vision-Bildklassifizierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!