Le paysage évolutif de la science des données et de l'ingénierie de l'IA: un aperçu des défis et des opportunités
L'IA générative (Genai) et les modèles de grandes langues (LLMS) remodèlent le monde professionnel, en particulier au sein de la science des données. Cet environnement axé sur le Genai présente des défis sans précédent pour les aspirants et les scientifiques des données établies. Cet article partage des idées et des expériences de plus de six ans en travaillant avec le ML et le Genai traditionnels, offrant une perspective sur l'évolution du rôle d'un scientifique des données réussi.
Avertissement: Les anecdotes ci-dessous peuvent être fictives.
? Si vous trouvez cet article utile, veuillez aimer et commenter! Vous pouvez également trouver le post original sur mon blog. ?
Opinion impopulaire: le rôle des data scientist est plus exigeant que jamais.
Table des matières
1. Définir un "bon" scientifique des données
"Deep Learning? Nous nous sommes concentrés sur un apprentissage ici. L'ingénierie des données est là où elle est." - un employeur hypothétique, 2015
Mon voyage a commencé avec R et SQL, analysant les tendances boursières nordiques. L'apprentissage en profondeur de pointe que j'avais étudié se sentait des mondes. Maintenant, je me concentre sur les flux de travail LLMS, Genai et Agent, créant des services Genai avec TypeScript. Ce changement reflète l'évolution plus large des attentes pour les professionnels des données - de la ML / DL traditionnelle à l'IA et aux LLMS génératifs.
La définition d'un "bon" scientifique des données s'est développée. Les rôles varient considérablement, des tests A / B et de la modélisation statistique à la propriété du pipeline ML de bout en bout (E2E). Cependant, les compétences de base restent essentielles:
Le scientifique des données en V dans l'ère Genai (voir référence [1])
Ma thèse met l'accent sur un ensemble de compétences en forme de V pour réussir à cette époque de changement rapide:
Avec cette fondation, explorons les défis actuels.
2. Défi n ° 1: attentes élevées, données limitées et stratégie
"Nous avons besoin d'IA, Genai, LLMS! Nos concurrents utilisent le chatppt. Créez un chatbot! Oh, et pas de données pour votre première année. Concernages de confidentialité." - un gestionnaire hypothétique, 2023
AI est une priorité absolue pour de nombreuses organisations. La montée en puissance de Chatgpt a alimenté une ruée vers les entreprises «axées sur l'IA». Bien que l'intégration de l'IA via les LLM semble facile, la réalité est complexe.
Les défis clés mettent en évidence un écart entre les attentes et la réalité:
Ces défis soulignent la nécessité d'un soutien fondamental avant de poursuivre les initiatives de l'IA.
3. Défi n ° 2: Le battage médiatique de l'IA et les experts autoproclamés
"Chatgpt est sorti fin 2022. J'ai suivi cinq cours d'ingénierie rapides - c'est facile! Mon modèle local fonctionne, alors réduisons-le." - un collègue hypothétique non-ai, 2024
Le boom de l'IA a conduit à une vague d'experts autoproclamés. Bien que la marchandisation de l'IA par le biais de LLMS soit positive, elle dilue également l'expertise. Suivre un cours d'ingénierie rapide ne fait pas de quelqu'un un spécialiste de l'IA.
Ce battage médiatique crée des défis:
4. Défi n ° 3: rôles de science des données incohérentes entre les organisations
"Data Scientist? Que faites-vous faire ? Pouvez-vous aider avec cette requête SQL?" - un collègue hypothétique, 2024
Le rôle des data scientists manque de définition claire. Les responsabilités varient considérablement:
Cette incohérence mène à:
La clarté pendant le processus de recherche d'emploi est cruciale.
5. Défi n ° 4: Problèmes persistants de la qualité des données
"Données, mon ami, ennemi et partenaire. Dois-je utiliser les LLM pour générer des données synthétiques?" - A Hypothétique Data Scientist, 2024
Garbage dans, Garbage Out (Gigo) reste un problème important. De nombreuses entreprises n'ont pas une compréhension complète de leurs données, ce qui a conduit à des défis dans l'utiliser efficacement pour l'IA.
6. Défi n ° 5: Le besoin crucial de l'expertise du domaine
"N'êtes-vous pas un scientifique? Ne devriez-vous pas tout savoir sur la finance et la loi? Utilisez le chatppt!" - un expert en domaine hypothétique, 2022-2023
Bien que les LLM sont puissantes, l'expertise du domaine profond reste vitale. La collaboration avec les experts du domaine est cruciale pour:
7. Défi n ° 6: naviguer dans le paysage "OPS"
"Pipelines de données, déploiements de modèles, optimisation LLM et infrastructure cloud? Je voulais juste former un modèle!" - A Hypothétique Data Scientist, 2024
Les systèmes d'IA de l'opérationnalisation sont essentiels. Comprendre les dataops, les Mlops, les AIOP et les LLMops sont essentiels pour les déploiements de production réussis.
8. Défi n ° 7: s'adapter aux progrès technologiques rapides
"La nouvelle bibliothèque n'est pas compatible avec notre pile, mais c'est plus rapide. Je vais le faire correspondre." - un directeur de génie hypothétique, 2024
Le rythme rapide du changement technologique présente à la fois les opportunités et les défis:
9. Réflexions de conclusion
Le domaine de la science des données évolue rapidement. Le succès nécessite un mélange d'expertise technique, de sens des affaires, de compétences en collaboration et d'un engagement à l'apprentissage continu.
10. Références
[1] Elwin, M. (2024). Scientifique des données en V à l'ère de l'IA générative. moyen . [Lien vers l'article médium d'origine] [2-10] [Liens vers les références restantes]
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!