Maison > Périphériques technologiques > IA > Opinion impopulaire: elle est plus difficile que jamais pour être un bon scientifique des données

Opinion impopulaire: elle est plus difficile que jamais pour être un bon scientifique des données

PHPz
Libérer: 2025-02-26 03:55:10
original
550 Les gens l'ont consulté

Le paysage évolutif de la science des données et de l'ingénierie de l'IA: un aperçu des défis et des opportunités

L'IA générative (Genai) et les modèles de grandes langues (LLMS) remodèlent le monde professionnel, en particulier au sein de la science des données. Cet environnement axé sur le Genai présente des défis sans précédent pour les aspirants et les scientifiques des données établies. Cet article partage des idées et des expériences de plus de six ans en travaillant avec le ML et le Genai traditionnels, offrant une perspective sur l'évolution du rôle d'un scientifique des données réussi.

Avertissement: Les anecdotes ci-dessous peuvent être fictives.

? Si vous trouvez cet article utile, veuillez aimer et commenter! Vous pouvez également trouver le post original sur mon blog. ?

Opinion impopulaire: le rôle des data scientist est plus exigeant que jamais.

Table des matières

  1. définir un "bon" scientifique des données
  2. Défi n ° 1: attentes élevées, données limitées et stratégie
  3. Challenge # 2: Le battage médiatique de l'IA et les experts autoproclamés
  4. Défi n ° 3: rôles de science des données incohérentes dans les organisations
  5. Défi n ° 4: Problèmes de qualité des données persistants
  6. Défi n ° 5: Le besoin crucial de l'expertise du domaine
  7. Challenge # 6: Navigation du paysage "OPS" (DataOps, Mlops, AIOPS, LLMOPS)
  8. Défi n ° 7: Adaptation aux progrès technologiques rapides
  9. Réflexions concluantes
  10. références

1. Définir un "bon" scientifique des données

"Deep Learning? Nous nous sommes concentrés sur un apprentissage ici. L'ingénierie des données est là où elle est." - un employeur hypothétique, 2015

Mon voyage a commencé avec R et SQL, analysant les tendances boursières nordiques. L'apprentissage en profondeur de pointe que j'avais étudié se sentait des mondes. Maintenant, je me concentre sur les flux de travail LLMS, Genai et Agent, créant des services Genai avec TypeScript. Ce changement reflète l'évolution plus large des attentes pour les professionnels des données - de la ML / DL traditionnelle à l'IA et aux LLMS génératifs.

La définition d'un "bon" scientifique des données s'est développée. Les rôles varient considérablement, des tests A / B et de la modélisation statistique à la propriété du pipeline ML de bout en bout (E2E). Cependant, les compétences de base restent essentielles:

Le scientifique des données en V dans l'ère Genai (voir référence [1])

Ma thèse met l'accent sur un ensemble de compétences en forme de V pour réussir à cette époque de changement rapide:

  1. Expertise profonde AI / ML
  2. Programmation et développement du système
  3. Ingénierie des données
  4. Business Acumen
  5. Considérations éthiques et gouvernance

Avec cette fondation, explorons les défis actuels.

2. Défi n ° 1: attentes élevées, données limitées et stratégie

"Nous avons besoin d'IA, Genai, LLMS! Nos concurrents utilisent le chatppt. Créez un chatbot! Oh, et pas de données pour votre première année. Concernages de confidentialité." - un gestionnaire hypothétique, 2023

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist AI est une priorité absolue pour de nombreuses organisations. La montée en puissance de Chatgpt a alimenté une ruée vers les entreprises «axées sur l'IA». Bien que l'intégration de l'IA via les LLM semble facile, la réalité est complexe.

Les défis clés mettent en évidence un écart entre les attentes et la réalité:

  • La rareté des données: Les pipelines de données robustes sont cruciaux. Les scientifiques des données passent souvent du temps à défendre les ressources d'ingénierie des données pour construire ces pipelines. De plus, les données sont souvent dispersées, incohérentes et mal structurées.
  • Manque de stratégie de données: Une stratégie claire est nécessaire - pas seulement les données elle-même. Cela comprend la lutte contre les données sensibles, l'alignement des efforts de science des données sur les objectifs commerciaux et la promotion d'une culture basée sur les données. Sans cela, les scientifiques des données résolvent des problèmes non pertinents ou créent des solutions inutilisées.
  • Absence de stratégie de l'IA: De nombreuses entreprises adoptent l'IA pour le bien. Une stratégie d'IA claire avec des cas d'utilisation définie et un retour sur investissement est essentiel.

Ces défis soulignent la nécessité d'un soutien fondamental avant de poursuivre les initiatives de l'IA.

3. Défi n ° 2: Le battage médiatique de l'IA et les experts autoproclamés

"Chatgpt est sorti fin 2022. J'ai suivi cinq cours d'ingénierie rapides - c'est facile! Mon modèle local fonctionne, alors réduisons-le." - un collègue hypothétique non-ai, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Le boom de l'IA a conduit à une vague d'experts autoproclamés. Bien que la marchandisation de l'IA par le biais de LLMS soit positive, elle dilue également l'expertise. Suivre un cours d'ingénierie rapide ne fait pas de quelqu'un un spécialiste de l'IA.

Ce battage médiatique crée des défis:

  • Rise des experts autoproclamés: La confiance excessive et un manque d'expertise authentique peuvent entraver les progrès.
  • Compétences mal alignées: Les équipes peuvent posséder des compétences en outils d'IA mais n'ont pas l'expertise pour construire, affiner et déployer des modèles efficacement.
  • SUR RÉLAIRATION SUR LES SOLUTIONS DE PLIG-AND: Bien que accessibles, ces solutions manquent souvent de personnalisation, d'évolutivité et de préoccupations de sécurité / conformité.
  • Misonctant des capacités LLM: Les LLM ne sont pas une solution universelle. Ils excellent dans des domaines spécifiques (génération de texte, résumé) mais ne sont pas adaptés aux autres (régression, séries chronologiques).

4. Défi n ° 3: rôles de science des données incohérentes entre les organisations

"Data Scientist? Que faites-vous faire ? Pouvez-vous aider avec cette requête SQL?" - un collègue hypothétique, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Le rôle des data scientists manque de définition claire. Les responsabilités varient considérablement:

  • Analyste de produit: Focus sur les tests A / B, analyse du comportement des utilisateurs.
  • Ingénieur de données: Focus sur la construction et la maintenance des pipelines de données.
  • Ingénieur d'apprentissage automatique: Focus sur le cycle de vie complet du modèle ML.

Cette incohérence mène à:

  • Rôles non définis: Confusion lors des demandes et des entretiens de l'emploi.
  • Surcharge de compétences et burnout: Pression pour être compétente dans divers domaines.
  • Vers l'ingénierie de l'IA: Demande croissante de professionnels pontant la science des données et l'ingénierie logicielle.

La clarté pendant le processus de recherche d'emploi est cruciale.

5. Défi n ° 4: Problèmes persistants de la qualité des données

"Données, mon ami, ennemi et partenaire. Dois-je utiliser les LLM pour générer des données synthétiques?" - A Hypothétique Data Scientist, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Garbage dans, Garbage Out (Gigo) reste un problème important. De nombreuses entreprises n'ont pas une compréhension complète de leurs données, ce qui a conduit à des défis dans l'utiliser efficacement pour l'IA.

6. Défi n ° 5: Le besoin crucial de l'expertise du domaine

"N'êtes-vous pas un scientifique? Ne devriez-vous pas tout savoir sur la finance et la loi? Utilisez le chatppt!" - un expert en domaine hypothétique, 2022-2023

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Bien que les LLM sont puissantes, l'expertise du domaine profond reste vitale. La collaboration avec les experts du domaine est cruciale pour:

  • Compréhension contextuelle: Fournir un contexte souvent manquant dans l'analyse des données.
  • Modèle Fonction des modèles: Assurer que les modèles s'alignent sur les normes de l'industrie.
  • Atténuation des risques et conformité: Navigation des réglementations dans les secteurs sensibles.

7. Défi n ° 6: naviguer dans le paysage "OPS"

"Pipelines de données, déploiements de modèles, optimisation LLM et infrastructure cloud? Je voulais juste former un modèle!" - A Hypothétique Data Scientist, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Les systèmes d'IA de l'opérationnalisation sont essentiels. Comprendre les dataops, les Mlops, les AIOP et les LLMops sont essentiels pour les déploiements de production réussis.

8. Défi n ° 7: s'adapter aux progrès technologiques rapides

"La nouvelle bibliothèque n'est pas compatible avec notre pile, mais c'est plus rapide. Je vais le faire correspondre." - un directeur de génie hypothétique, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Le rythme rapide du changement technologique présente à la fois les opportunités et les défis:

  • Choix écrasant des outils: difficulté à choisir les bons outils.
  • Fragmentation et intégration: défis l'intégration de différents systèmes.
  • Evolution des compétences: Besoin d'apprentissage et d'adaptation continus.
  • Équilibrer l'innovation et la praticité: distinguer la véritable innovation du battage médiatique.
  • L'avenir des rôles de programmation: Le potentiel de l'AI pour automatiser les tâches de programmation.

9. Réflexions de conclusion

Le domaine de la science des données évolue rapidement. Le succès nécessite un mélange d'expertise technique, de sens des affaires, de compétences en collaboration et d'un engagement à l'apprentissage continu.

10. Références

[1] Elwin, M. (2024). Scientifique des données en V à l'ère de l'IA générative. moyen . [Lien vers l'article médium d'origine] [2-10] [Liens vers les références restantes]

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal