Übersetzer|Li Rui
Rezensent|Sun Shujuan
Der weltbekannte Streaming-Dienstleister Netflix hat 2017 sein Fünf-Sterne-Bewertungssystem geändert. Einfaches Bewertungssystem für „ „Daumen hoch“ (Gefällt mir) und „Daumen runter“ (Gefällt mir nicht). Das System kann Filme auf der Grundlage prozentualer Übereinstimmungen empfehlen, einige Leute finden dies jedoch anstößig. Wie kann man also alle Nuancen der Kinokunst auf eine primitive binäre Reaktion reduzieren? Tatsächlich hat Netflix herausgefunden, dass die Leute auf die Filme reagierten, die sie für gut hielten, aber nicht unbedingt Filme waren, die sie tatsächlich gerne sahen. Das sagen zumindest die Daten. Wie funktioniert Datenanalyse bei einem Unternehmen wie Netflix? Welche Rolle spielt das Data-Science-Team?
NETFLIX-FEEDBACK-SYSTEM
Extraktion: Extrahieren Sie Daten aus der Datenquelle und senden Sie sie an den Staging-Bereich.
Der Data Engineer ist für den Aufbau der gesamten Pipeline verantwortlich. Die meisten Techniker sind mit dem, was man „Rohrleitungen“ nennt, bestens vertraut. Verschieben Sie Daten über Pipelines von der Quelle zum Ziel und transformieren Sie sie dabei. Sie entwerfen die Pipeline-Architektur, richten den ETL-Prozess ein, konfigurieren das Warehouse und verbinden es mit Reporting-Tools. Airbnb hat beispielsweise etwa 50 Dateningenieure. Das Unternehmen kann manchmal auf einen ausgefeilteren Ansatz stoßen, der einige zusätzliche Regeln beinhaltet. Beispielsweise stellen Datenqualitätsingenieure sicher, dass Daten korrekt erfasst und transformiert werden. Verzerrte oder falsche Daten sind zu kostspielig, wenn man versucht, daraus Entscheidungen zu treffen. Möglicherweise gibt es einen separaten Ingenieur, der nur für ETL verantwortlich ist. Darüber hinaus konzentrieren sich Business-Intelligence-Entwickler nur auf die Integration von Berichts- und Visualisierungstools. Berichterstellungstools sorgen jedoch nicht für Schlagzeilen, und Dateningenieur ist nicht der beste Job des 21. Jahrhunderts, maschinelles Lernen und Datenwissenschaftler jedoch wahrscheinlich schon.
Es ist bekannt, dass Data Scientists besonders gut darin sind, Daten zu sammeln und komplexe Fragen zu den Daten zu beantworten, beispielsweise wie viel Umsatz das Unternehmen erzielen wird nächstes Quartal verdienen? Wann kommt das mit Uber geplante Auto an? Wie hoch sind die Chancen, Schindlers Liste und Uncut Gems zu mögen?
Es gibt eigentlich zwei Möglichkeiten, diese Fragen zu beantworten. Datenwissenschaftler arbeiten mit Business-Intelligence-Tools und Lagerdaten, genau wie Geschäftsanalysten und Datenanalysten. Sie erhalten also die Daten aus dem Lager. Manchmal nutzen Datenwissenschaftler einen Data Lake: eine andere Art der Speicherung unstrukturierter Betrugsdaten. Sie erstellen ein Prognosemodell und erstellen Prognosen, die vom Management verwendet werden können. Es eignet sich gut für einmalige Berichte über Umsatzschätzungen, ist jedoch nicht hilfreich für die Vorhersage der Ankunftszeiten von Autos für Uber-Termine.
Der wahre Wert des maschinellen Lernens besteht darin, dass Produktionsmodelle automatisch arbeiten und regelmäßig Antworten auf komplexe Fragen generieren können, manchmal tausende Male pro Sekunde, und dass die Dinge, mit denen sie umgehen können, viel komplexer sind.
Damit das Modell funktioniert, ist auch Infrastruktur erforderlich. Manchmal ist das ein großes Problem. Datenwissenschaftler untersuchen Daten in Data Warehouses und Data Lakes, führen Experimente damit durch, wählen Algorithmen aus und trainieren Modelle, um endgültigen Code für maschinelles Lernen zu erstellen. Dies erfordert ein tiefes Verständnis statistischer Datenbanken, maschineller Lernalgorithmen und Fachgebiete.
Josh Wills, ehemaliger Leiter der Datentechnik bei SLAC, sagte auf Twitter: „Ein Datenwissenschaftler ist eine Person, die sich besser mit Statistik auskennt als jedes Software-Engineering.“ Beispiel: Essen bestellen Benutzer nutzen die Ubereats-Software, um Essen zu bestellen. Sobald der Benutzer die Bestellung bestätigt, muss die Anwendung die Lieferzeit, den Standort des Bestellers, das Restaurant und die Bestelldaten schätzen, die an einen Server gesendet werden sollen, auf dem ein maschinelles Lernmodell zur Liefervorhersage eingesetzt wird. Doch diese Daten reichen nicht aus. Das Modell ruft außerdem zusätzliche Daten aus einer separaten Datenbank ab, die durchschnittliche Zubereitungszeiten im Restaurant und andere Details enthält. Sobald alle Daten verfügbar sind, gibt das Modell Vorhersagen an den Besteller zurück. Damit ist der Prozess jedoch noch nicht beendet. Die Vorhersagen selbst werden in einer separaten Datenbank gespeichert. Ziel ist die Überwachung der Modellleistung und die Untersuchung des Modells mithilfe von Analysetools, damit es später aktualisiert werden kann. All diese Daten landen in Data Lakes und Data Warehouses.
Tatsächlich nutzt allein der Essensbestellservice UberEats Hunderte verschiedener Modelle, die gleichzeitig arbeiten, um Empfehlungen zu bewerten, Restaurants in der Suche einzustufen und Lieferzeiten zu schätzen.
Fazit
Das obige ist der detaillierte Inhalt vonWas Sie über diese Rollen in einem Data-Science-Team wissen müssen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!