Inhaltsverzeichnis
Um zu verstehen, wie viele Daten Sie benötigen, müssen Sie zunächst verstehen, wo sich die Daten in der Struktur des KI-Projekts befinden. Eine visuelle Möglichkeit, den zunehmenden Wert, den wir aus Daten ziehen, zu verstehen, ist die „DIKUW-Pyramide“ (manchmal auch „DIKW-Pyramide“ genannt), die zeigt, wie die Datengrundlage durch Informationen, Wissen, Verständnis und Weisheit transformiert werden kann größeren Wert.
Big Data hat uns gelehrt, mit großen Datenmengen umzugehen. Nicht nur, wie die Daten gespeichert werden, sondern auch, wie all diese Daten verarbeitet, manipuliert und analysiert werden. Maschinelles Lernen bietet noch mehr Mehrwert, indem es die verschiedenen Arten unstrukturierter, halbstrukturierter oder strukturierter Daten verarbeitet, die Unternehmen sammeln. Tatsächlich handelt es sich bei dieser jüngsten KI-Welle um eine Welle von Big-Data-gesteuerten Analysen.
3. Übermäßige falsche Daten und unzureichende korrekte Daten töten KI-Projekte.
Heim Technologie-Peripheriegeräte KI Haben Sie bei KI-Projekten schon einmal diese fatalen Fehler gemacht?

Haben Sie bei KI-Projekten schon einmal diese fatalen Fehler gemacht?

Apr 20, 2023 am 08:10 AM
项目 ai 数据

​Übersetzer |. Bugatti

Rezensent |.Da Daten der Kern der künstlichen Intelligenz (KI) sind, ist es nicht verwunderlich, dass KI- und maschinelle Lernsysteme (ML) zum Lernen genügend hochwertige Daten benötigen. Um ein KI- oder ML-System richtig zu trainieren, sind insbesondere bei überwachten Lernmethoden in der Regel große Mengen hochwertiger Daten erforderlich. Wie viele Daten erforderlich sind, hängt vom implementierten KI-Modell, den verwendeten Algorithmen und anderen Faktoren wie internen Daten und Daten Dritter ab. Beispielsweise erfordern neuronale Netze große Datenmengen zum Trainieren, während Entscheidungsbäume oder Bayes'sche Klassifikatoren nicht so viele Daten benötigen, um qualitativ hochwertige Ergebnisse zu erhalten.

Man denkt also vielleicht, je mehr Daten, desto besser, oder? Bitte denken Sie noch einmal darüber nach. Organisationen mit großen Datenmengen (sogar Exabytes) erkennen, dass mehr Daten das Problem nicht wie erwartet lösen. Tatsächlich bringen mehr Daten auch mehr Fragen mit sich. Je mehr Daten Sie haben, desto mehr Daten müssen Sie bereinigen und vorbereiten, je mehr Daten Sie kennzeichnen und verwalten müssen, desto mehr Daten müssen Sie sichern, schützen, Voreingenommenheit reduzieren und andere Maßnahmen ergreifen. Wenn man anfängt, die Datenmenge zu erhöhen, können aus kleinen Projekten schnell große Projekte werden. Tatsächlich führen große Datenmengen oft zum Scheitern von Projekten.

Der fehlende Schritt zwischen der Identifizierung eines Geschäftsproblems und der Organisation von Daten zur Lösung dieses Problems besteht eindeutig darin, zu bestimmen, welche Daten benötigt werden und wie viele davon tatsächlich benötigt werden. Sie benötigen genügend Daten, haben aber nicht zu viele: nicht mehr und nicht weniger, genau richtig. Leider stürzen sich Unternehmen oft in KI-Projekte, ohne die Daten zu verstehen. Organisationen müssen viele Fragen beantworten, darunter herauszufinden, wo sich die Daten befinden, wie viele Daten sie bereits haben, in welchem ​​Zustand sie sich befinden, welche Merkmale der Daten am wichtigsten sind, interne und externe Verwendungen der Daten, Herausforderungen beim Datenzugriff und Anforderungen zur Verbesserung bestehender Daten sowie anderer Schlüsselfaktoren und Fragen. Ohne die Beantwortung dieser Fragen können KI-Projekte scheitern oder sogar in einem Datenmeer untergehen.

1. Die Daten besser verstehen

Um zu verstehen, wie viele Daten Sie benötigen, müssen Sie zunächst verstehen, wo sich die Daten in der Struktur des KI-Projekts befinden. Eine visuelle Möglichkeit, den zunehmenden Wert, den wir aus Daten ziehen, zu verstehen, ist die „DIKUW-Pyramide“ (manchmal auch „DIKW-Pyramide“ genannt), die zeigt, wie die Datengrundlage durch Informationen, Wissen, Verständnis und Weisheit transformiert werden kann größeren Wert.

Mit einer soliden Datengrundlage können Sie auf der nächsten Informationsebene tiefere Einblicke gewinnen, die Ihnen bei der Beantwortung grundlegender Fragen zu diesen Daten helfen können. Sobald Sie grundlegende Verbindungen zwischen Daten hergestellt haben, um Erkenntnisse zu gewinnen, können Sie Muster in diesen Informationen finden und verstehen, wie die Informationsteile miteinander verbunden sind, um tiefere Erkenntnisse zu gewinnen. Organisationen können einen größeren Mehrwert erzielen, indem sie auf der Wissensebene aufbauen und verstehen, warum diese Muster auftreten, und so dabei helfen, die zugrunde liegenden Muster zu verstehen. Schließlich können Sie den größtmöglichen Nutzen aus Informationen auf der Intelligenzebene ziehen, indem Sie die Ursache und Wirkung von Informationsentscheidungen genau verstehen.

Die jüngste KI-Welle konzentriert sich vor allem auf die Wissensschicht, da maschinelles Lernen Erkenntnisse liefert, um Muster auf der Informationsschicht zu erkennen. Leider stößt maschinelles Lernen auf der Verständnisebene auf einen Engpass, da das Finden von Mustern nicht ausreicht, um Rückschlüsse zu ziehen. Wir verfügen über maschinelles Lernen, aber nicht über maschinelles Denken, um zu verstehen, warum Muster auftreten. Sie sehen diese Einschränkung jedes Mal, wenn Sie mit einem Chatbot interagieren. Während die auf maschinellem Lernen basierende Verarbeitung natürlicher Sprache (NLP) sehr gut darin ist, menschliche Sprache zu verstehen und Absichten abzuleiten, stößt sie beim Versuch, sie zu verstehen und zu begründen, an Grenzen. Wenn Sie beispielsweise einen Sprachassistenten fragen, ob Sie morgen einen Regenmantel tragen möchten, versteht dieser nicht, dass Sie nach dem Wetter fragen. Es liegt an den Menschen, den Maschinen diese Erkenntnisse zu vermitteln, denn der Sprachassistent hat keine Ahnung, was Regen eigentlich ist.

2. Bleiben Sie datenbewusst, um Fehler zu vermeiden

Big Data hat uns gelehrt, mit großen Datenmengen umzugehen. Nicht nur, wie die Daten gespeichert werden, sondern auch, wie all diese Daten verarbeitet, manipuliert und analysiert werden. Maschinelles Lernen bietet noch mehr Mehrwert, indem es die verschiedenen Arten unstrukturierter, halbstrukturierter oder strukturierter Daten verarbeitet, die Unternehmen sammeln. Tatsächlich handelt es sich bei dieser jüngsten KI-Welle um eine Welle von Big-Data-gesteuerten Analysen.

Aber genau aus diesem Grund müssen einige Organisationen einen großen Rückschlag in Sachen KI hinnehmen. Anstatt KI-Projekte aus einer datenzentrierten Perspektive durchzuführen, konzentrieren sie sich auf die funktionalen Aspekte. Um KI-Projekte zu steuern und fatale Fehler zu vermeiden, müssen Unternehmen nicht nur KI und maschinelles Lernen, sondern auch die verschiedenen „Vs“ von Big Data besser verstehen. Es geht nicht nur um die Menge der Daten, sondern auch um die Art der Daten. Zu den Vs von Big Data gehören:

  • Menge: Die absolute Menge an Big Data im Besitz.
  • Geschwindigkeit: Die Geschwindigkeit, mit der sich Big Data verändert. Der erfolgreiche Einsatz von KI bedeutet, KI auf Hochgeschwindigkeitsdaten anzuwenden.
  • Vielfalt: Daten können in vielen verschiedenen Formaten vorliegen, darunter strukturierte Daten wie Datenbanken, halbstrukturierte Daten wie Rechnungen und unstrukturierte Daten wie E-Mails, Bilder und Videodateien. Erfolgreiche KI-Systeme können mit dieser Vielfalt umgehen.
  • Authentizität: Dies bezieht sich auf die Qualität und Genauigkeit der Daten und darauf, wie sehr Sie diesen Daten vertrauen. Müll rein, Müll raus, insbesondere in datengesteuerten KI-Systemen. Daher müssen erfolgreiche KI-Systeme in der Lage sein, mit stark unterschiedlichen Datenqualitäten umzugehen.

Mit jahrzehntelanger Erfahrung im Management von Big-Data-Projekten haben Organisationen, die im Bereich KI erfolgreich sind, vor allem im Bereich Big Data Erfolg gehabt. Organisationen, die das Scheitern von KI-Projekten erlebt haben, gehen KI-Probleme oft mit einer anwendungsentwicklungsorientierten Denkweise an.

3. Übermäßige falsche Daten und unzureichende korrekte Daten töten KI-Projekte.

Obwohl KI-Projekte korrekt gestartet werden, scheitern der Mangel an notwendigen Daten, mangelndes Verständnis und ungelöste praktische Probleme. Unternehmen schreiten immer weiter voran, ohne ein wirkliches Verständnis der erforderlichen Daten und Datenqualität zu haben, was zu echten Herausforderungen führt.

Einer der Gründe, warum Unternehmen diesen Datenfehler machen, ist, dass sie bei der Arbeit an KI-Projekten über keine echte Methodik verfügen, außer der Verwendung agiler oder Anwendungsentwicklungsmethoden. Doch erfolgreiche Unternehmen haben erkannt, dass die Verwendung eines datenzentrierten Ansatzes das Datenverständnis als erste Phase eines Projektansatzes einschließt. Der CRISP-DM-Ansatz, den es seit mehr als 20 Jahren gibt, spezifiziert das Datenverständnis als nächsten Schritt nach der Identifizierung der Geschäftsanforderungen. Basierend auf CRISP-DM und kombiniert mit agilen Methoden erfordert der Cognitive Project Management with AI (CPMAI)-Ansatz in der zweiten Phase Datenverständnis. Andere erfolgreiche Ansätze erfordern auch ein frühes Verständnis der Daten im Projekt, denn schließlich sind KI-Projekte Datenprojekte. Wie baut man ein erfolgreiches Programm auf Daten auf, wenn man es angeht, ohne die Daten zu verstehen? Dies ist definitiv ein fataler Fehler, den Sie vermeiden möchten.

Originallink: https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your-ai-projects/?sh= 352955946b54

Das obige ist der detaillierte Inhalt vonHaben Sie bei KI-Projekten schon einmal diese fatalen Fehler gemacht?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1664
14
PHP-Tutorial
1268
29
C#-Tutorial
1243
24
Wie versteht man DMA -Operationen in C? Wie versteht man DMA -Operationen in C? Apr 28, 2025 pm 10:09 PM

DMA in C bezieht sich auf DirectMemoryAccess, eine direkte Speicherzugriffstechnologie, mit der Hardware -Geräte ohne CPU -Intervention Daten direkt an den Speicher übertragen können. 1) Der DMA -Betrieb ist in hohem Maße von Hardware -Geräten und -Treibern abhängig, und die Implementierungsmethode variiert von System zu System. 2) Direkter Zugriff auf Speicher kann Sicherheitsrisiken mitbringen, und die Richtigkeit und Sicherheit des Codes muss gewährleistet werden. 3) DMA kann die Leistung verbessern, aber eine unsachgemäße Verwendung kann zu einer Verschlechterung der Systemleistung führen. Durch Praxis und Lernen können wir die Fähigkeiten der Verwendung von DMA beherrschen und seine Wirksamkeit in Szenarien wie Hochgeschwindigkeitsdatenübertragung und Echtzeitsignalverarbeitung maximieren.

Wie benutze ich die Chrono -Bibliothek in C? Wie benutze ich die Chrono -Bibliothek in C? Apr 28, 2025 pm 10:18 PM

Durch die Verwendung der Chrono -Bibliothek in C können Sie Zeit- und Zeitintervalle genauer steuern. Erkunden wir den Charme dieser Bibliothek. Die Chrono -Bibliothek von C ist Teil der Standardbibliothek, die eine moderne Möglichkeit bietet, mit Zeit- und Zeitintervallen umzugehen. Für Programmierer, die in der Zeit gelitten haben.H und CTime, ist Chrono zweifellos ein Segen. Es verbessert nicht nur die Lesbarkeit und Wartbarkeit des Codes, sondern bietet auch eine höhere Genauigkeit und Flexibilität. Beginnen wir mit den Grundlagen. Die Chrono -Bibliothek enthält hauptsächlich die folgenden Schlüsselkomponenten: std :: chrono :: system_clock: repräsentiert die Systemuhr, mit der die aktuelle Zeit erhalten wird. std :: chron

Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Apr 30, 2025 pm 07:24 PM

Zu den integrierten Quantisierungstools am Austausch gehören: 1. Binance: Binance Futures Quantitatives Modul, niedrige Handhabungsgebühren und unterstützt AI-unterstützte Transaktionen. 2. OKX (OUYI): Unterstützt Multi-Account-Management und intelligentes Auftragsrouting und bietet Risikokontrolle auf institutioneller Ebene. Zu den unabhängigen quantitativen Strategieplattformen gehören: 3. 3Commas: Drag & drop-Strategiegenerator, geeignet für Multi-Plattform-Absicherungs-Arbitrage. 4. Viercy: Algorithmus-Strategie-Bibliothek auf professioneller Ebene, unterstützt maßgeschneiderte Risikoschwellen. 5. Pionex: Integrierte 16 voreingestellte Strategie, niedrige Transaktionsgebühr. Zu den vertikalen Domänen-Tools gehören: 6. CryptoHopper: Cloud-basierte quantitative Plattform, die 150 technische Indikatoren unterstützen. 7. Bitsgap:

Wie gehe ich mit einem hohen DPI -Display in C um? Wie gehe ich mit einem hohen DPI -Display in C um? Apr 28, 2025 pm 09:57 PM

Die Handhabung der hohen DPI -Anzeige in C kann in den folgenden Schritten erreicht werden: 1) Verstehen Sie DPI und Skalierung, verwenden Sie die Betriebssystem -API, um DPI -Informationen zu erhalten und die Grafikausgabe anzupassen. 2) Übereinstimmende Kompatibilität verarbeiten, plattformübergreifende Grafikbibliotheken wie SDL oder QT verwenden. 3) Leistungsoptimierung durchführen, die Leistung durch Cache, Hardwarebeschleunigung und dynamische Anpassung der Detail -Ebene verbessern; 4) Lösen Sie gemeinsame Probleme wie verschwommene Text- und Schnittstellenelemente sind zu klein und lösen Sie durch korrektes Anwenden der DPI -Skalierung.

Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Apr 28, 2025 pm 10:15 PM

C bietet eine gute Leistung in der Programmierung von Echtzeit-Betriebssystemen (RTOs) und bietet eine effiziente Ausführungseffizienz und ein präzises Zeitmanagement. 1) C entsprechen den Anforderungen von RTOs durch direkten Betrieb von Hardwareressourcen und effizientem Speichermanagement. 2) Mit objektorientierten Funktionen kann C ein flexibles Aufgabenplanungssystem entwerfen. 3) C unterstützt eine effiziente Interrupt-Verarbeitung, aber die dynamische Speicherzuweisung und die Ausnahmeverarbeitung müssen vermieden werden, um Echtzeit zu gewährleisten. 4) Vorlagenprogrammierung und Inline -Funktionen helfen bei der Leistungsoptimierung. 5) In praktischen Anwendungen kann C verwendet werden, um ein effizientes Protokollierungssystem zu implementieren.

Wie benutze ich String -Streams in C? Wie benutze ich String -Streams in C? Apr 28, 2025 pm 09:12 PM

Die wichtigsten Schritte und Vorsichtsmaßnahmen für die Verwendung von String -Streams in C sind wie folgt: 1. Erstellen Sie einen Ausgangsstring -Stream und konvertieren Daten, z. B. Umwandlung von Ganzzahlen in Zeichenfolgen. 2. Anwenden Sie die Serialisierung komplexer Datenstrukturen wie die Umwandlung von Vektor in Zeichenfolgen. 3. Achten Sie auf Leistungsprobleme und vermeiden Sie die häufige Verwendung von Stressströmen bei der Verarbeitung großer Datenmengen. Sie können in Betracht ziehen, die Anhangmethode von STD :: String zu verwenden. 4. Achten Sie auf die Speicherverwaltung und vermeiden Sie häufige Erstellung und Zerstörung von String -Stream -Objekten. Sie können std :: stringstream wiederverwenden oder verwenden.

Wie misst ich die Thread -Leistung in C? Wie misst ich die Thread -Leistung in C? Apr 28, 2025 pm 10:21 PM

Durch die Messung der Thread -Leistung in C kann Timing -Tools, Leistungsanalyse -Tools und benutzerdefinierte Timer in der Standardbibliothek verwendet werden. 1. Verwenden Sie die Bibliothek, um die Ausführungszeit zu messen. 2. Verwenden Sie GPROF für die Leistungsanalyse. Zu den Schritten gehört das Hinzufügen der -PG -Option während der Kompilierung, das Ausführen des Programms, um eine Gmon.out -Datei zu generieren, und das Generieren eines Leistungsberichts. 3. Verwenden Sie das Callgrind -Modul von Valgrind, um eine detailliertere Analyse durchzuführen. Zu den Schritten gehört das Ausführen des Programms zum Generieren der Callgrind.out -Datei und das Anzeigen der Ergebnisse mit KCACHEGRIND. 4. Benutzerdefinierte Timer können die Ausführungszeit eines bestimmten Codesegments flexibel messen. Diese Methoden helfen dabei, die Thread -Leistung vollständig zu verstehen und den Code zu optimieren.

Eine effiziente Möglichkeit, Daten in MySQL einzufügen Eine effiziente Möglichkeit, Daten in MySQL einzufügen Apr 29, 2025 pm 04:18 PM

Effiziente Methoden für das Batch -Einfügen von Daten in MySQL gehören: 1. Verwenden von InsertInto ... Wertesyntax, 2. Verwenden von LoadDatainFile -Befehl, 3. Verwendung der Transaktionsverarbeitung, 4. Stapelgröße anpassen, 5. Deaktivieren Sie die Indexierung, 6. Verwenden Sie die Einfügung oder einfügen.

See all articles