Das Datenmanagement ist zum größten Engpass bei der Entwicklung künstlicher Intelligenz geworden-KI-php.cn

Inhaltsverzeichnis

Compute setzt den Standard für die Infrastruktur

Der Ursprung und die Grenzen der modellgesteuerten Entwicklung

Datenzentrierte künstliche Intelligenz und große Datenengpässe

Traditionelle Trainingsdaten stellen eine Herausforderung für die Infrastruktur dar

Pfad zu synthetischen Daten und vollständigem CV-Stack

Neue Hoffnungen für die sogenannten „Datenmanager“ der Computer Vision

Heim

Technologie-Peripheriegeräte

Das Datenmanagement ist zum größten Engpass bei der Entwicklung künstlicher Intelligenz geworden

王林

Apr 29, 2023 pm 01:25 PM

计算机视觉数据管理

Das Datenmanagement ist zum größten Engpass bei der Entwicklung künstlicher Intelligenz geworden

Das wahre Zeichen von Größe, wenn es um Infrastruktur geht, ist, dass man sie beim Fliegen leicht ignorieren kann. Je besser es funktioniert, desto weniger denken wir darüber nach. Die Bedeutung der mobilen Infrastruktur wird uns beispielsweise erst bewusst, wenn wir Schwierigkeiten haben, eine Verbindung herzustellen. Genau wie wenn wir eine neue, frisch asphaltierte Autobahn entlangfahren, machen wir uns kaum Gedanken über die Straßenoberfläche, die lautlos unter unseren Rädern vorbeizieht. Eine schlecht instandgehaltene Autobahn hingegen erinnert uns mit jedem Schlagloch, jeder Delle und jeder Unebenheit an ihre Existenz.

Infrastruktur braucht unsere Aufmerksamkeit nur dann, wenn sie fehlt, unzureichend oder beschädigt ist. Und beim Computer Vision ist die Infrastruktur – oder vielmehr das, was ihr fehlt – das, worüber sich derzeit viele Sorgen machen.

Compute setzt den Standard für die Infrastruktur

Jedem AI/ML-Projekt (einschließlich Computer Vision) liegen drei grundlegende Entwicklungssäulen zugrunde: Daten, Algorithmen/Modelle und Computing. Von diesen drei Säulen ist die Informatik mit Abstand diejenige mit der stärksten und solidesten Infrastruktur. Durch jahrzehntelange gezielte Unternehmensinvestitionen und -entwicklung ist Cloud Computing zum Goldstandard für die IT-Infrastruktur in allen IT-Umgebungen von Unternehmen geworden – und Computer Vision bildet da keine Ausnahme.

In einem Infrastructure-as-a-Service-Modell genießen Entwickler seit fast 20 Jahren On-Demand- und Pay-as-you-go-Zugriff auf eine ständig wachsende Pipeline an Rechenleistung. In dieser Zeit hat es die Unternehmens-IT revolutioniert, indem es Agilität, Kosteneffizienz, Skalierbarkeit und mehr erheblich verbessert hat. Mit dem Aufkommen dedizierter GPUs für maschinelles Lernen kann man mit Sicherheit sagen, dass dieser Teil des Computer-Vision-Infrastruktur-Stacks lebendig und gesund ist. Wenn wir sehen wollen, dass Computer Vision und KI ihr volles Potenzial ausschöpfen, wäre es klug, Computing als Modell zu verwenden, auf dem der Rest des CV-Infrastruktur-Stacks basiert.

Der Ursprung und die Grenzen der modellgesteuerten Entwicklung

Bis vor kurzem waren Algorithmen und Modellentwicklung die treibende Kraft hinter der Entwicklung von Computer Vision und künstlicher Intelligenz. Sowohl auf der Forschungs- als auch auf der kommerziellen Entwicklungsseite haben Teams jahrelang hart daran gearbeitet, KI/ML-Modelle zu testen, zu patchen und schrittweise zu verbessern und ihre Fortschritte in Open-Source-Communitys wie Kaggle zu teilen. Die Bereiche Computer Vision und künstliche Intelligenz machten in den ersten zwei Jahrzehnten des neuen Jahrtausends große Fortschritte, indem sie ihre Bemühungen auf die Entwicklung und Modellierung von Algorithmen konzentrierten.

In den letzten Jahren hat sich dieser Fortschritt jedoch verlangsamt, da die modellzentrierte Optimierung gegen das Gesetz der sinkenden Rendite verstößt. Darüber hinaus weisen modellzentrierte Ansätze mehrere Einschränkungen auf. Sie können beispielsweise nicht dieselben Daten für das Training verwenden und das Modell dann erneut trainieren. Modellzentrierte Ansätze erfordern außerdem mehr manuelle Arbeit in Bezug auf Datenbereinigung, Modellvalidierung und Schulung, wodurch wertvolle Zeit und Ressourcen für innovativere, umsatzgenerierende Aufgaben verloren gehen können.

Heutzutage haben CV-Teams über Communities wie Hugging Face freien und offenen Zugang zu einer Vielzahl großer, komplexer Algorithmen, Modelle und Architekturen, die jeweils unterschiedliche CV-Kernfunktionen unterstützen – von der Objekterkennung und Erkennung von Gesichtspunkten bis hin zur Posenschätzung und Funktion passend. Diese Assets kommen einer „Standardlösung“ so nahe, wie man es sich nur vorstellen kann: Sie bieten Computer-Vision- und KI-Teams ein fertiges Whiteboard, auf dem sie eine beliebige Anzahl spezieller Aufgaben und Anwendungsfälle trainieren können.

So wie grundlegende menschliche Fähigkeiten wie die Hand-Auge-Koordination auf eine Vielzahl verschiedener Fähigkeiten angewendet und trainiert werden können – vom Tischtennisspielen bis zum Pitching – können diese modernen ML-Algorithmen auch für eine Reihe spezifischer Anwendungen trainiert werden. Während sich Menschen jedoch durch jahrelange Übung und Schweiß spezialisieren, tun dies Maschinen durch Training mit Daten.

Datenzentrierte künstliche Intelligenz und große Datenengpässe

Dies hat viele führende Persönlichkeiten auf dem Gebiet der künstlichen Intelligenz dazu veranlasst, eine neue Ära der Deep-Learning-Entwicklung zu fordern – eine Ära, in der Daten der Hauptmotor des Fortschritts sind. Noch vor wenigen Jahren verkündeten Andrew Ng und andere, dass Datenzentrierung die Richtung der KI-Entwicklung sei. In dieser kurzen Zeit florierte die Branche. In nur wenigen Jahren ist eine Vielzahl neuartiger kommerzieller Anwendungen und Anwendungsfälle für Computer Vision entstanden, die ein breites Branchenspektrum abdecken – von Robotik und AR/VR bis hin zur Automobilherstellung und Heimsicherheit.

Kürzlich haben wir mit einem datenzentrierten Ansatz Untersuchungen zur Hand-am-Lenkrad-Erkennung in Autos durchgeführt. Unsere Experimente zeigen, dass wir mit diesem Ansatz und synthetischen Daten in der Lage sind, spezifische Randfälle zu identifizieren und zu generieren, die im Trainingsdatensatz fehlen.

Das Datenmanagement ist zum größten Engpass bei der Entwicklung künstlicher Intelligenz geworden

Datagen generiert synthetische Bilder für den Hand-Lenkrad-Test (Bild bereitgestellt von: Datagen)

Während die Computer-Vision-Branche von Daten schwärmt, ist nicht alles davon fanatisch. Während die Branche erkannt hat, dass Daten der Weg nach vorne sind, gibt es auf dem Weg dorthin viele Hindernisse und Fallstricke, von denen viele CV-Teams bereits behindert haben. Eine aktuelle Umfrage unter US-amerikanischen Computer-Vision-Experten ergab, dass der Bereich von langen Projektverzögerungen, nicht standardisierten Prozessen und Ressourcenknappheit geplagt wird – allesamt datenbedingt. In derselben Umfrage gaben 99 % der Befragten an, dass mindestens ein Lebenslaufprojekt aufgrund unzureichender Schulungsdaten auf unbestimmte Zeit abgesagt wurde.

Selbst die glücklichen 1 %, die bisher eine Projektabsage vermieden haben, können Projektverzögerungen nicht vermeiden. In der Umfrage gab jeder Befragte an, dass es aufgrund unzureichender oder unzureichender Schulungsdaten zu erheblichen Projektverzögerungen kam, wobei 80 % von Verzögerungen berichteten, die drei Monate oder länger dauerten. Letztendlich besteht der Zweck der Infrastruktur darin, sie zu nutzen – sie soll ermöglichen, beschleunigen oder kommunizieren. In einer Welt, in der erhebliche Verzögerungen zum Geschäftsleben gehören, ist klar, dass wichtige Infrastruktur fehlt.

Traditionelle Trainingsdaten stellen eine Herausforderung für die Infrastruktur dar

Im Gegensatz zu Computern und Algorithmen ist die dritte Säule der KI/ML-Entwicklung jedoch nicht für eine Infrastrukturalisierung geeignet – insbesondere im Bereich Computer Vision, wo große Datenmengen unorganisiert und sehr zeit- und zeitintensiv sind Das Sammeln und Verwalten ist ressourcenintensiv. Zwar gibt es online viele gekennzeichnete, frei verfügbare Datenbanken mit visuellen Trainingsdaten (wie die inzwischen berühmte ImageNet-Datenbank), sie haben sich jedoch als alleinige Quelle für Trainingsdaten bei der kommerziellen Lebenslaufentwicklung als unzureichend erwiesen.

Das liegt daran, dass Trainingsdaten im Gegensatz zu Modellen, die absichtlich verallgemeinern, von Natur aus anwendungsspezifisch sind. Daten unterscheiden eine Anwendung eines bestimmten Modells von einer anderen und müssen daher nicht nur für eine bestimmte Aufgabe, sondern auch für die Umgebung oder den Kontext, in dem diese Aufgabe ausgeführt wird, eindeutig sein. Im Gegensatz zu Rechenleistung, die mit Lichtgeschwindigkeit erzeugt und abgerufen werden kann, müssen herkömmliche visuelle Daten von Menschen erstellt oder gesammelt werden (indem sie vor Ort Fotos machen oder im Internet nach geeigneten Bildern suchen) und dann von Menschen sorgfältig bereinigt und beschriftet werden (Dies ist ein Prozess, der anfällig für menschliches Versagen, Inkonsistenz und Voreingenommenheit ist).

Dies wirft die Frage auf: „Wie können wir Datenvisualisierungen erstellen, die sowohl für bestimmte Anwendungen geeignet sind als auch leicht kommerziell nutzbar (d. h. schnell, kostengünstig und vielseitig) sind?“ Obwohl diese beiden Eigenschaften widersprüchlich erscheinen mögen, hat sich das Potenzial der Lösung herauskristallisiert Es ist ein vielversprechender Weg, diese beiden grundlegenden, aber scheinbar unvereinbaren Eigenschaften in Einklang zu bringen.

Pfad zu synthetischen Daten und vollständigem CV-Stack

Das Datenmanagement ist zum größten Engpass bei der Entwicklung künstlicher Intelligenz geworden

Computer Vision (CV) ist eines der führenden Gebiete der modernen künstlichen Intelligenz

Anwendungen mit spezifischen Anwendungen erstellen und Zeit und Ressourcen sparen Skala Die einzige Möglichkeit, Trainingsdaten zu visualisieren, ist die Verwendung synthetischer Daten. Für diejenigen, die mit dem Konzept nicht vertraut sind: Bei synthetischen Daten handelt es sich um von Menschen generierte Informationen, die ein reales Äquivalent originalgetreu darstellen sollen. Bei den visuellen synthetischen Daten handelt es sich um realistische computergenerierte 3D-Bilder (CGI) in Form von Standbildern oder Videos.

Als Reaktion auf viele der Probleme, die im Zeitalter der Rechenzentren entstanden sind, hat sich rund um die Generierung synthetischer Daten eine aufstrebende Branche gebildet – ein wachsendes Ökosystem kleiner und mittlerer Startups, die Lösungen anbieten, die synthetische Daten zur Lösung der Probleme nutzen Oben sind eine Reihe von Schmerzpunkten aufgeführt.

Die vielversprechendsten dieser Lösungen nutzen KI/ML-Algorithmen, um fotorealistische 3D-Bilder zu erzeugen und automatisch die zugehörige Grundwahrheit (d. h. Metadaten) für jeden Datenpunkt zu generieren. Durch synthetische Daten entfällt daher der oft monatelange manuelle Kennzeichnungs- und Anmerkungsprozess, während gleichzeitig die Möglichkeit menschlicher Fehler und Voreingenommenheit ausgeschlossen wird.

In unserem Artikel (veröffentlicht bei NeurIPS 2021) „Discovering Group Bias in Facial Landmark Detection Using Synthetic Data“ haben wir herausgefunden, dass es notwendig ist, einen Teil der Daten beiseite zu legen, um die Leistung eines trainierten Modells zu analysieren und seine Schwächen zu identifizieren zum Testen. Der Testsatz muss groß genug sein, um statistisch signifikante Abweichungen in Bezug auf alle relevanten Untergruppen innerhalb der Zielpopulation zu erkennen. Insbesondere bei datenintensiven Anwendungen kann es schwierig sein, diese Anforderung zu erfüllen.

Wir schlagen vor, diese Schwierigkeit durch die Generierung synthetischer Testsätze zu überwinden. Wir verwenden die Aufgabe zur Erkennung von Gesichtsmarkierungen, um unseren Vorschlag zu validieren, indem wir zeigen, dass alle bei realen Datensätzen beobachteten Verzerrungen auch bei gut gestalteten synthetischen Datensätzen sichtbar sind. Dies zeigt, dass synthetische Testsätze Modellschwächen effektiv erkennen und Einschränkungen in der Größe oder Vielfalt realer Testsätze überwinden können.

Heute stellen Start-ups den Lebenslaufteams von Unternehmen bewährte Self-Service-Plattformen zur Generierung synthetischer Daten zur Verfügung, die Voreingenommenheit abmildern und eine Skalierung der Datenerfassung ermöglichen. Mit diesen Plattformen können CV-Teams in Unternehmen anwendungsfallspezifische Trainingsdaten auf einer gemessenen On-Demand-Basis generieren und so die Lücke zwischen Spezifität und Umfang schließen, die herkömmliche Daten für die Infrastrukturierung ungeeignet macht.

Neue Hoffnungen für die sogenannten „Datenmanager“ der Computer Vision

Es lässt sich nicht leugnen, dass dies eine aufregende Zeit für den Bereich Computer Vision ist. Aber wie in jedem anderen sich verändernden Bereich sind auch dies herausfordernde Zeiten. Große Talente und brillante Köpfe stürmen in ein Feld voller Ideen und Begeisterung, werden jedoch durch den Mangel an geeigneten Datenpipelines zurückgehalten. Der Bereich ist so stark ineffizient, dass Datenwissenschaftler heute bekanntermaßen ein Bereich sind, in dem jedes dritte Unternehmen bereits mit einem Qualifikationsdefizit zu kämpfen hat und wir es uns nicht leisten können, wertvolle Humanressourcen zu verschwenden.

Synthetische Daten öffnen die Tür zu einer echten Trainingsdaten-Infrastruktur – eines Tages könnte es so einfach sein, den Wasserhahn für ein Glas Wasser aufzudrehen oder Berechnungen durchzuführen. Dies ist sicherlich eine willkommene Erfrischung für die Datenmanager dieser Welt.

Das obige ist der detaillierte Inhalt vonDas Datenmanagement ist zum größten Engpass bei der Entwicklung künstlicher Intelligenz geworden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7455

CakePHP-Tutorial

1375

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Der Unterschied zwischen einstufigen und zweistufigen Zielerkennungsalgorithmen Jan 23, 2024 pm 01:48 PM

Die Objekterkennung ist eine wichtige Aufgabe im Bereich Computer Vision und dient der Identifizierung von Objekten in Bildern oder Videos und der Lokalisierung ihrer Standorte. Diese Aufgabe wird üblicherweise in zwei Kategorien von Algorithmen unterteilt, einstufige und zweistufige, die sich hinsichtlich Genauigkeit und Robustheit unterscheiden. Einstufiger Zielerkennungsalgorithmus Der einstufige Zielerkennungsalgorithmus wandelt die Zielerkennung in ein Klassifizierungsproblem um. Sein Vorteil besteht darin, dass er schnell ist und die Erkennung in nur einem Schritt abschließen kann. Aufgrund der übermäßigen Vereinfachung ist die Genauigkeit jedoch normalerweise nicht so gut wie beim zweistufigen Objekterkennungsalgorithmus. Zu den gängigen einstufigen Zielerkennungsalgorithmen gehören YOLO, SSD und FasterR-CNN. Diese Algorithmen nehmen im Allgemeinen das gesamte Bild als Eingabe und führen einen Klassifikator aus, um das Zielobjekt zu identifizieren. Im Gegensatz zu herkömmlichen zweistufigen Zielerkennungsalgorithmen müssen Bereiche nicht im Voraus definiert, sondern direkt vorhergesagt werden

Wie man KI-Technologie nutzt, um alte Fotos wiederherzustellen (mit Beispielen und Code-Analyse) Jan 24, 2024 pm 09:57 PM

Bei der Restaurierung alter Fotos handelt es sich um eine Methode zur Nutzung künstlicher Intelligenz, um alte Fotos zu reparieren, aufzuwerten und zu verbessern. Mithilfe von Computer-Vision- und maschinellen Lernalgorithmen kann die Technologie Schäden und Unvollkommenheiten in alten Fotos automatisch erkennen und reparieren, sodass diese klarer, natürlicher und realistischer aussehen. Die technischen Prinzipien der Restaurierung alter Fotos umfassen hauptsächlich die folgenden Aspekte: 1. Bildrauschen und -verbesserung Bei der Wiederherstellung alter Fotos müssen diese zunächst entrauscht und verbessert werden. Bildverarbeitungsalgorithmen und -filter wie Mittelwertfilterung, Gaußsche Filterung, bilaterale Filterung usw. können zur Lösung von Rausch- und Farbfleckproblemen eingesetzt werden, wodurch die Qualität von Fotos verbessert wird. 2. Bildwiederherstellung und -reparatur Bei alten Fotos können einige Mängel und Schäden wie Kratzer, Risse, Ausbleichen usw. auftreten. Diese Probleme können durch Bildwiederherstellungs- und Reparaturalgorithmen gelöst werden

Anwendung der KI-Technologie bei der hochauflösenden Bildrekonstruktion Jan 23, 2024 am 08:06 AM

Bei der superauflösenden Bildrekonstruktion werden hochauflösende Bilder aus Bildern mit niedriger Auflösung mithilfe von Deep-Learning-Techniken wie Convolutional Neural Networks (CNN) und Generative Adversarial Networks (GAN) generiert. Das Ziel dieser Methode besteht darin, die Qualität und Detailgenauigkeit von Bildern zu verbessern, indem Bilder mit niedriger Auflösung in Bilder mit hoher Auflösung umgewandelt werden. Diese Technologie findet breite Anwendung in vielen Bereichen, beispielsweise in der medizinischen Bildgebung, Überwachungskameras, Satellitenbildern usw. Durch die hochauflösende Bildrekonstruktion können wir klarere und detailliertere Bilder erhalten, die dabei helfen, Ziele und Merkmale in Bildern genauer zu analysieren und zu identifizieren. Rekonstruktionsmethoden Hochauflösende Bildrekonstruktionsmethoden können im Allgemeinen in zwei Kategorien unterteilt werden: interpolationsbasierte Methoden und Deep-Learning-basierte Methoden. 1) Interpolationsbasierte Methode Hochauflösende Bildrekonstruktion basierend auf Interpolation

SIFT-Algorithmus (Scale Invariant Features). Jan 22, 2024 pm 05:09 PM

Der Scale Invariant Feature Transform (SIFT)-Algorithmus ist ein Merkmalsextraktionsalgorithmus, der in den Bereichen Bildverarbeitung und Computer Vision verwendet wird. Dieser Algorithmus wurde 1999 vorgeschlagen, um die Objekterkennung und die Matching-Leistung in Computer-Vision-Systemen zu verbessern. Der SIFT-Algorithmus ist robust und genau und wird häufig in der Bilderkennung, dreidimensionalen Rekonstruktion, Zielerkennung, Videoverfolgung und anderen Bereichen eingesetzt. Es erreicht Skaleninvarianz, indem es Schlüsselpunkte in mehreren Skalenräumen erkennt und lokale Merkmalsdeskriptoren um die Schlüsselpunkte herum extrahiert. Zu den Hauptschritten des SIFT-Algorithmus gehören die Skalenraumkonstruktion, die Erkennung von Schlüsselpunkten, die Positionierung von Schlüsselpunkten, die Richtungszuweisung und die Generierung von Merkmalsdeskriptoren. Durch diese Schritte kann der SIFT-Algorithmus robuste und einzigartige Merkmale extrahieren und so eine effiziente Bildverarbeitung erreichen.

Interpretation des Konzepts der Zielverfolgung in der Computer Vision Jan 24, 2024 pm 03:18 PM

Die Objektverfolgung ist eine wichtige Aufgabe in der Bildverarbeitung und wird häufig in der Verkehrsüberwachung, Robotik, medizinischen Bildgebung, automatischen Fahrzeugverfolgung und anderen Bereichen eingesetzt. Es verwendet Deep-Learning-Methoden, um die Position des Zielobjekts in jedem aufeinanderfolgenden Bild im Video vorherzusagen oder abzuschätzen, nachdem die Anfangsposition des Zielobjekts bestimmt wurde. Die Objektverfolgung hat im realen Leben ein breites Anwendungsspektrum und ist im Bereich Computer Vision von großer Bedeutung. Bei der Objektverfolgung handelt es sich üblicherweise um den Prozess der Objekterkennung. Im Folgenden finden Sie einen kurzen Überblick über die Schritte der Objektverfolgung: 1. Objekterkennung, bei der der Algorithmus Objekte klassifiziert und erkennt, indem er Begrenzungsrahmen um sie herum erstellt. 2. Weisen Sie jedem Objekt eine eindeutige Identifikation (ID) zu. 3. Verfolgen Sie die Bewegung erkannter Objekte in Bildern und speichern Sie gleichzeitig relevante Informationen. Arten von Zielverfolgungszielen

Eine Einführung in Bildannotationsmethoden und gängige Anwendungsszenarien Jan 22, 2024 pm 07:57 PM

In den Bereichen maschinelles Lernen und Computer Vision ist Bildannotation der Prozess der Anwendung menschlicher Anmerkungen auf Bilddatensätze. Bildanmerkungsmethoden können hauptsächlich in zwei Kategorien unterteilt werden: manuelle Anmerkung und automatische Anmerkung. Manuelle Anmerkung bedeutet, dass menschliche Annotatoren Bilder durch manuelle Vorgänge mit Anmerkungen versehen. Für diese Methode müssen menschliche Annotatoren über Fachwissen und Erfahrung verfügen und in der Lage sein, Zielobjekte, Szenen oder Merkmale in Bildern genau zu identifizieren und zu kommentieren. Der Vorteil der manuellen Annotation besteht darin, dass die Annotationsergebnisse zuverlässig und genau sind, der Nachteil besteht jedoch darin, dass sie zeitaufwändig und kostspielig ist. Unter automatischer Annotation versteht man die Methode, Computerprogramme zum automatischen Annotieren von Bildern zu verwenden. Diese Methode nutzt maschinelles Lernen und Computer-Vision-Technologie, um eine automatische Annotation durch Trainingsmodelle zu erreichen. Die Vorteile der automatischen Etikettierung sind hohe Geschwindigkeit und niedrige Kosten, der Nachteil besteht jedoch darin, dass die Etikettierungsergebnisse möglicherweise nicht genau sind.

Beispiele für praktische Anwendungen der Kombination von flachen Merkmalen und tiefen Merkmalen Jan 22, 2024 pm 05:00 PM

Deep Learning hat im Bereich Computer Vision große Erfolge erzielt, und einer der wichtigen Fortschritte ist die Verwendung von Deep Convolutional Neural Networks (CNN) zur Bildklassifizierung. Allerdings erfordern tiefe CNNs normalerweise große Mengen an gekennzeichneten Daten und Rechenressourcen. Um den Bedarf an Rechenressourcen und gekennzeichneten Daten zu verringern, begannen Forscher zu untersuchen, wie flache und tiefe Merkmale zusammengeführt werden können, um die Leistung der Bildklassifizierung zu verbessern. Diese Fusionsmethode kann die hohe Recheneffizienz flacher Merkmale und die starke Darstellungsfähigkeit tiefer Merkmale nutzen. Durch die Kombination beider können Rechenkosten und Datenkennzeichnungsanforderungen reduziert und gleichzeitig eine hohe Klassifizierungsgenauigkeit aufrechterhalten werden. Diese Methode ist besonders wichtig für Anwendungsszenarien, in denen die Datenmenge gering ist oder die Rechenressourcen begrenzt sind. Durch eine eingehende Untersuchung der Fusionsmethode von flachen Merkmalen und tiefen Merkmalen können wir weitere Fortschritte erzielen

Verstehen Sie die Definition und Funktionalität eingebetteter Modelle Jan 24, 2024 pm 05:57 PM

Einbettung ist ein maschinelles Lernmodell, das in Bereichen wie der Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV) weit verbreitet ist. Seine Hauptfunktion besteht darin, hochdimensionale Daten in einen niedrigdimensionalen Einbettungsraum umzuwandeln und dabei die Eigenschaften und semantischen Informationen der Originaldaten beizubehalten, wodurch die Effizienz und Genauigkeit des Modells verbessert wird. Eingebettete Modelle können ähnliche Daten ähnlichen Einbettungsräumen zuordnen, indem sie die Korrelation zwischen Daten lernen, sodass das Modell die Daten besser verstehen und verarbeiten kann. Das Prinzip des eingebetteten Modells basiert auf der Idee der verteilten Darstellung, die die semantischen Informationen der Daten in den Vektorraum kodiert, indem jeder Datenpunkt als Vektor dargestellt wird. Der Vorteil dabei ist, dass Sie die Eigenschaften des Vektorraums nutzen können, beispielsweise den Abstand zwischen Vektoren

See all articles