


Kann Deep Learning andere Bildverarbeitungsalgorithmen ersetzen?
Mit dem Aufkommen der Deep-Learning-Technologie ist die visuelle Bildverarbeitung in den letzten Jahren immer beliebter geworden und wurde in verschiedenen Bereichen weit verbreitet. Gleichzeitig ist eine große Anzahl von Praktikern entstanden. Viele Menschen nutzen jedoch nur Deep Learning und denken, dass herkömmliche Bildverarbeitungsalgorithmen veraltet sind. Ich habe einmal jemanden sagen hören, dass die Bildverarbeitung so weit verbreitet ist, dass herkömmliche Algorithmen veraltet sind und der Schwellenwert sehr niedrig ist und jeder sie verwenden kann. Ehrlich gesagt, wenn ich solche Bemerkungen höre, bin ich manchmal wirklich sprachlos
Ich habe heute einfach etwas Zeit und möchte über dieses Thema sprechen. Lassen Sie uns zunächst analysieren, wofür die Bildverarbeitung hauptsächlich verwendet wird. Unabhängig davon, in welcher Branche die Bildverarbeitung eingesetzt wird, umfassen ihre Hauptfunktionen Identifizierung, Klassifizierung, Positionierung, Erkennung, Größenmessung und visuelle Führung. Da einige Leute sagen, dass Deep Learning die traditionelle Bildverarbeitungstechnologie ersetzt hat, werde ich Ihnen heute ein Beispiel geben. Schauen wir uns einige konkrete Fälle an, um die Anwendung von Deep Learning zu sehen. Gleichzeitig wollen wir auch sehen, ob die traditionelle Bildverarbeitungstechnologie noch ihre Berechtigung hat.
Lassen Sie uns zunächst kurz vorstellen, was die oben genannten Hauptfunktionen des Sehens sind. Es besteht ein gewisser Zusammenhang zwischen Identifizierung und Klassifizierung. Gesichtserkennung, Nummernschilderkennung, Zeichenerkennung, Barcode-/QR-Code-Erkennung, Produktkategorieerkennung, Fruchterkennung usw. sind allesamt Bilderkennungstechnologien. Nach Abschluss der Erkennung werden die Erkennungsergebnisse manchmal direkt ausgegeben, und manchmal ist eine Klassifizierung erforderlich . Beispielsweise müssen die in der gemischten Produktionslinie identifizierten Produkte klassifiziert und verpackt werden
Auf Chinesisch umgeschrieben: Es gibt viele Positionierungsmethoden. Manchmal muss man den Zielort nur grob kennen, manchmal braucht man eine genaue Positionierung, damit der Roboter ihn automatisch greifen kann. Zu den Erkennungsmethoden gehören die Zielerkennung und die Fehlererkennung. Die Zielerkennung muss normalerweise nur wissen, ob das Ziel in der Szene vorhanden ist, während die Fehlererkennung nicht nur erkennt, ob der Fehler vorhanden ist, sondern auch die Größe und Kategorie des Fehlers bestimmen muss. Das Ziel der Größenmessung ist sehr klar , um visuell zu erkennen, ob die spezifische Größe des Zielobjekts den Anforderungen entspricht. Die visuelle Führung wird mit dem automatischen Greifen des Roboters kombiniert. Er muss die Zielposition genau lokalisieren und auch die spezifische Position des Greifers bestimmen, um zu verhindern, dass das Ziel herunterfällt, wenn sich der Roboter bewegt. Ich werde unten einige spezifische Fälle auflisten, die zeigen, wie Sie können Deep Learning nutzen, um dies zu erreichen. Da das Unternehmen nicht möchte, dass diese Bilder veröffentlicht werden, erfassen die folgenden Bilder nur einen kleinen Teil davon und der konkrete Inhalt kann nicht bestimmt werden
Alle folgenden Beispiele sind tatsächliche Bedürfnisse des Unternehmens und die Bilder wurden ebenfalls aufgenommen vor Ort. Schauen wir uns zunächst einen einfachen Fall der Zeichenerkennung an. In diesem Fall muss festgestellt werden, ob diese Zeichen korrekt sind. Das Budget beträgt 20.000 Yuan pro visuellem System. Die Gesamtkosten betragen 2 Millionen Yuan. Meinen Sie, dass es getan werden sollte oder nicht? Obwohl 2 Millionen Yuan schon viel Geld sind, kostet jedes Vision-System nur 20.000 Yuan. Wird es profitabel sein? Wenn der Host-Computer außerdem fehlerhafte Zeichen erkennt, müssen diese automatisch beseitigt werden
Eine kurze Analyse zeigt, dass 20 Produkte pro Sekunde erkannt werden können, was bedeutet, dass jedes Produkt innerhalb von 50 Millisekunden fertiggestellt werden muss. Gleichzeitig muss der Host-Computer ein Signal an den Ablehnungsmechanismus senden. Um die Stabilität des Signals sicherzustellen, müssen 20 Millisekunden reserviert werden. Die restlichen 30 Millisekunden werden für die Bildaufnahme und Bildbearbeitung verwendet. Für das Deep-Learning-Training muss die Konfiguration des Industriecomputers berücksichtigt werden. Darüber hinaus müssen die Kosten für SPS, Aussortiergerät, Kamera, Lichtquelle, Objektiv, Gehäuse und anderes kleines Zubehör berücksichtigt werden. Wie viel kostet die manuelle Inbetriebnahme vor Ort? Wie hoch sind die Gesamtkosten? Lassen Sie uns ein weiteres Beispiel geben. Das Bild unten zeigt die Erkennung von Schweißfehlern. Es gibt viele Arten von Schweißfehlern. Jemand hat einmal eine Woche lang Deep Learning eingesetzt, um zu trainieren und zu erkennen. Sie sagten mir, die Testergebnisse seien großartig, aber einen Monat später meldeten sie sich bei mir und sagten, sie könnten sich die Kosten nicht leisten und die Testergebnisse seien schlecht. Denken Sie darüber nach, warum passiert das?Wie nutzt man Deep Learning, um den Roboter automatisch zu greifen und den Neigungswinkel des gegriffenen Objekts zu erkennen, um so die Haltung des Roboters anzupassen?
Wie misst man mithilfe von Deep Learning die Größe einer Feder, die über einen bestimmten Zeitraum verwendet wurde, um festzustellen, ob sie geeignet ist? Wie kann man andere ähnliche Parameter von Lagern, Zahnrädern, Gewinden usw. messen?
Die oben genannten Beispiele sind nur ein kleiner Teil vieler tatsächlicher Fälle, die immer wieder auftauchen, wie etwa automatisches Anziehen von Schrauben, ungeordnetes Greifen und präzise Positionierung im Mikrometerbereich. Leider verwenden viele Menschen jedoch nur Deep Learning, und einige behaupten, die Bildverarbeitung sei veraltet und Deep Learning habe andere Bildverarbeitungsmethoden ersetzt, ohne die grundlegenden Bildkonzepte zu verstehen. Wenn Sie mit realeren Fällen konfrontiert wären, würden Sie so etwas nicht sagen
Viele Menschen glauben fälschlicherweise, dass sie zum Training nur Bilder in das Deep-Learning-Modell eingeben müssen. Wenn der Effekt nicht gut ist, können sie das Training steigern Proben oder passen Sie die Parameter an, um das ideale Ergebnis zu erzielen. Ich kann nur sagen, dass dieses Bildverständnis zu oberflächlich ist. Die häufigsten Bildanwendungen sind Gesichtserkennung und Nummernschilderkennung. Für diese Erkennungsaufgaben stellt der Einsatz von Deep Learning kein großes Problem dar, da die Anforderungen an die Erkennung nicht hoch sind. Selbst wenn die Erkennung lange dauert oder ein Erkennungsfehler auftritt, stellt dies kein allzu großes Problem dar. Wenn das Gesicht beispielsweise nicht erkannt werden kann, können Sie bei der Zahlung per Gesichtserkennung auch manuell bezahlen. Wenn das Nummernschild oder das Gesicht nicht erkannt werden kann, können Sie auch die Tür öffnen manuell. In einem vollautomatischen Anwendungsszenario ist diese Situation jedoch nicht zulässig. Zur Erkennung, Klassifizierung und Identifizierung von Produktfehlern ist Deep Learning eine häufig verwendete Methode, muss jedoch auch entsprechend der spezifischen Situation entschieden werden. Darüber hinaus müssen vor dem Training normalerweise andere Bildverarbeitungsalgorithmen verwendet werden.
Manche Leute verwenden einfach öffentliche Datensätze, um Deep-Learning-Modelle zu trainieren und Artikel zu schreiben, was kein Problem darstellt. Bis zur praktischen Anwendung dieser Modelle ist es jedoch noch ein weiter Weg. Ein mir bekanntes Unternehmen rekrutierte einige Doktoranden, um an der visuellen Inspektion zu arbeiten. Dies führte jedoch dazu, dass sie vom Leiter heftig kritisiert wurden. Wissen Sie warum?
Deep Learning hat seinen Platz im Anwendungsbereich, das ist eine unbestreitbare Tatsache. Sie ist jedoch nur ein Teil der Sichtprüfung und kann in vielen anderen Aspekten nicht umgesetzt werden. Die aktuelle visuelle Erkennungstechnologie kann nur auf einige einfache Szenen angewendet werden. Bei vielen komplexen Szenen kann unabhängig vom verwendeten Algorithmus keine effektive Erkennung erreicht werden. Daher haben visuelle Bildverarbeitungsalgorithmen noch einen langen Weg vor sich. Wenn Deep Learning Bilder trainiert, ist normalerweise eine gewisse Verarbeitung des Originalbilds erforderlich, z. B. Filterung, Verbesserung, Schwellenwertsegmentierung, Kantenerkennung und morphologische Operationen. Manchmal ist es auch notwendig, das Bild zu verarbeiten und dann Bildmerkmale für Deep-Learning-Training direkt zu extrahieren. Viele Menschen, die sich mit visueller Arbeit beschäftigen, verstehen dieses Prinzip
Es wurde bereits erwähnt, dass es ausreicht, sich eingehend mit einer Richtung zu befassen, wenn man nur eine Arbeit schreiben möchte. Eine vertiefte theoretische Forschung ist ebenfalls erfolgsversprechend, erfordert jedoch höhere persönliche theoretische Fähigkeiten. Wenn Sie noch keine Erfahrung mit tatsächlichen Bildverarbeitungsanwendungen haben, sollten Sie nicht einfach so behaupten, dass andere Bildverarbeitungsalgorithmen nicht mehr verwendet werden. Brauchen wir also immer noch herkömmliche Bildverarbeitungsalgorithmen? Verarbeitung? Was ist mit Verarbeitungsalgorithmen? Ich denke, die Antwort auf diese Frage ist klar. Wenn immer noch etwas unklar ist, denken Sie bitte sorgfältig darüber nach, mit wie vielen Vision-bezogenen Projekten Sie konfrontiert waren und was Sie sonst noch nicht wissen. Verstehen Sie wirklich, was eine visuelle Inspektion leisten kann und wie man sie durchführt? Nur sehr wenige visuelle Inspektionen werden allein durch die Verwendung eines einzigen Bildverarbeitungsalgorithmus erreicht. Daher müssen wir auf Anwendungsebene die Verwendung verschiedener Bildverarbeitungsalgorithmen und die kombinierte Anwendung verschiedener Algorithmen beherrschen, um in der visuellen Industrie problemlos agieren zu können. Die Sommerferien stehen vor der Tür. Die Sommerferien sind eine sehr gute Zeit zum Lernen. Nutzen Sie diese Ferien und diese Lernplattform, um die Anwendung von Bildverarbeitungsalgorithmen schnell zu beherrschen
Das obige ist der detaillierte Inhalt vonKann Deep Learning andere Bildverarbeitungsalgorithmen ersetzen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Verbessern Sie die Produktivität, Effizienz und Genauigkeit der Entwickler, indem Sie eine abrufgestützte Generierung und ein semantisches Gedächtnis in KI-Codierungsassistenten integrieren. Übersetzt aus EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, Autor JanakiramMSV. Obwohl grundlegende KI-Programmierassistenten natürlich hilfreich sind, können sie oft nicht die relevantesten und korrektesten Codevorschläge liefern, da sie auf einem allgemeinen Verständnis der Softwaresprache und den gängigsten Mustern beim Schreiben von Software basieren. Der von diesen Coding-Assistenten generierte Code eignet sich zur Lösung der von ihnen zu lösenden Probleme, entspricht jedoch häufig nicht den Coding-Standards, -Konventionen und -Stilen der einzelnen Teams. Dabei entstehen häufig Vorschläge, die geändert oder verfeinert werden müssen, damit der Code in die Anwendung übernommen wird

Um mehr über AIGC zu erfahren, besuchen Sie bitte: 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou unterscheidet sich von der traditionellen Fragendatenbank, die überall im Internet zu sehen ist erfordert einen Blick über den Tellerrand hinaus. Large Language Models (LLMs) gewinnen in den Bereichen Datenwissenschaft, generative künstliche Intelligenz (GenAI) und künstliche Intelligenz zunehmend an Bedeutung. Diese komplexen Algorithmen verbessern die menschlichen Fähigkeiten, treiben Effizienz und Innovation in vielen Branchen voran und werden zum Schlüssel für Unternehmen, um wettbewerbsfähig zu bleiben. LLM hat ein breites Anwendungsspektrum und kann in Bereichen wie der Verarbeitung natürlicher Sprache, der Textgenerierung, der Spracherkennung und Empfehlungssystemen eingesetzt werden. Durch das Lernen aus großen Datenmengen ist LLM in der Lage, Text zu generieren

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort große Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung „verdinglicht“. Am Ende des Vortrainings hört das Modell tatsächlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren können. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Domänen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zusätzliches Wissen aus der realen Welt trifft und dieses integriert

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

Herausgeber | Rettichhaut Seit der Veröffentlichung des leistungsstarken AlphaFold2 im Jahr 2021 verwenden Wissenschaftler Modelle zur Proteinstrukturvorhersage, um verschiedene Proteinstrukturen innerhalb von Zellen zu kartieren, Medikamente zu entdecken und eine „kosmische Karte“ jeder bekannten Proteininteraktion zu zeichnen. Gerade hat Google DeepMind das AlphaFold3-Modell veröffentlicht, das gemeinsame Strukturvorhersagen für Komplexe wie Proteine, Nukleinsäuren, kleine Moleküle, Ionen und modifizierte Reste durchführen kann. Die Genauigkeit von AlphaFold3 wurde im Vergleich zu vielen dedizierten Tools in der Vergangenheit (Protein-Ligand-Interaktion, Protein-Nukleinsäure-Interaktion, Antikörper-Antigen-Vorhersage) deutlich verbessert. Dies zeigt, dass dies innerhalb eines einzigen einheitlichen Deep-Learning-Frameworks möglich ist
