Opinion impopulaire: elle est plus difficile que jamais pour être un bon scientifique des données-IA-php.cn

Maison

Périphériques technologiques

Opinion impopulaire: elle est plus difficile que jamais pour être un bon scientifique des données

PHPz

Feb 26, 2025 am 03:55 AM

Le paysage évolutif de la science des données et de l'ingénierie de l'IA: un aperçu des défis et des opportunités

L'IA générative (Genai) et les modèles de grandes langues (LLMS) remodèlent le monde professionnel, en particulier au sein de la science des données. Cet environnement axé sur le Genai présente des défis sans précédent pour les aspirants et les scientifiques des données établies. Cet article partage des idées et des expériences de plus de six ans en travaillant avec le ML et le Genai traditionnels, offrant une perspective sur l'évolution du rôle d'un scientifique des données réussi.

Avertissement: Les anecdotes ci-dessous peuvent être fictives.

? Si vous trouvez cet article utile, veuillez aimer et commenter! Vous pouvez également trouver le post original sur mon blog. ?

Opinion impopulaire: le rôle des data scientist est plus exigeant que jamais.

Table des matières

définir un "bon" scientifique des données
Défi n ° 1: attentes élevées, données limitées et stratégie
Challenge # 2: Le battage médiatique de l'IA et les experts autoproclamés
Défi n ° 3: rôles de science des données incohérentes dans les organisations
Défi n ° 4: Problèmes de qualité des données persistants
Défi n ° 5: Le besoin crucial de l'expertise du domaine
Challenge # 6: Navigation du paysage "OPS" (DataOps, Mlops, AIOPS, LLMOPS)
Défi n ° 7: Adaptation aux progrès technologiques rapides
Réflexions concluantes
références

1. Définir un "bon" scientifique des données

"Deep Learning? Nous nous sommes concentrés sur un apprentissage ici. L'ingénierie des données est là où elle est." - un employeur hypothétique, 2015

Mon voyage a commencé avec R et SQL, analysant les tendances boursières nordiques. L'apprentissage en profondeur de pointe que j'avais étudié se sentait des mondes. Maintenant, je me concentre sur les flux de travail LLMS, Genai et Agent, créant des services Genai avec TypeScript. Ce changement reflète l'évolution plus large des attentes pour les professionnels des données - de la ML / DL traditionnelle à l'IA et aux LLMS génératifs.

La définition d'un "bon" scientifique des données s'est développée. Les rôles varient considérablement, des tests A / B et de la modélisation statistique à la propriété du pipeline ML de bout en bout (E2E). Cependant, les compétences de base restent essentielles:

Le scientifique des données en V dans l'ère Genai (voir référence [1])

Ma thèse met l'accent sur un ensemble de compétences en forme de V pour réussir à cette époque de changement rapide:

Expertise profonde AI / ML
Programmation et développement du système
Ingénierie des données
Business Acumen
Considérations éthiques et gouvernance

Avec cette fondation, explorons les défis actuels.

2. Défi n ° 1: attentes élevées, données limitées et stratégie

"Nous avons besoin d'IA, Genai, LLMS! Nos concurrents utilisent le chatppt. Créez un chatbot! Oh, et pas de données pour votre première année. Concernages de confidentialité." - un gestionnaire hypothétique, 2023

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist AI est une priorité absolue pour de nombreuses organisations. La montée en puissance de Chatgpt a alimenté une ruée vers les entreprises «axées sur l'IA». Bien que l'intégration de l'IA via les LLM semble facile, la réalité est complexe.

Les défis clés mettent en évidence un écart entre les attentes et la réalité:

La rareté des données: Les pipelines de données robustes sont cruciaux. Les scientifiques des données passent souvent du temps à défendre les ressources d'ingénierie des données pour construire ces pipelines. De plus, les données sont souvent dispersées, incohérentes et mal structurées.
Manque de stratégie de données: Une stratégie claire est nécessaire - pas seulement les données elle-même. Cela comprend la lutte contre les données sensibles, l'alignement des efforts de science des données sur les objectifs commerciaux et la promotion d'une culture basée sur les données. Sans cela, les scientifiques des données résolvent des problèmes non pertinents ou créent des solutions inutilisées.
Absence de stratégie de l'IA: De nombreuses entreprises adoptent l'IA pour le bien. Une stratégie d'IA claire avec des cas d'utilisation définie et un retour sur investissement est essentiel.

Ces défis soulignent la nécessité d'un soutien fondamental avant de poursuivre les initiatives de l'IA.

3. Défi n ° 2: Le battage médiatique de l'IA et les experts autoproclamés

"Chatgpt est sorti fin 2022. J'ai suivi cinq cours d'ingénierie rapides - c'est facile! Mon modèle local fonctionne, alors réduisons-le." - un collègue hypothétique non-ai, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Le boom de l'IA a conduit à une vague d'experts autoproclamés. Bien que la marchandisation de l'IA par le biais de LLMS soit positive, elle dilue également l'expertise. Suivre un cours d'ingénierie rapide ne fait pas de quelqu'un un spécialiste de l'IA.

Ce battage médiatique crée des défis:

Rise des experts autoproclamés: La confiance excessive et un manque d'expertise authentique peuvent entraver les progrès.
Compétences mal alignées: Les équipes peuvent posséder des compétences en outils d'IA mais n'ont pas l'expertise pour construire, affiner et déployer des modèles efficacement.
SUR RÉLAIRATION SUR LES SOLUTIONS DE PLIG-AND: Bien que accessibles, ces solutions manquent souvent de personnalisation, d'évolutivité et de préoccupations de sécurité / conformité.
Misonctant des capacités LLM: Les LLM ne sont pas une solution universelle. Ils excellent dans des domaines spécifiques (génération de texte, résumé) mais ne sont pas adaptés aux autres (régression, séries chronologiques).

4. Défi n ° 3: rôles de science des données incohérentes entre les organisations

"Data Scientist? Que faites-vous faire ? Pouvez-vous aider avec cette requête SQL?" - un collègue hypothétique, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Le rôle des data scientists manque de définition claire. Les responsabilités varient considérablement:

Analyste de produit: Focus sur les tests A / B, analyse du comportement des utilisateurs.
Ingénieur de données: Focus sur la construction et la maintenance des pipelines de données.
Ingénieur d'apprentissage automatique: Focus sur le cycle de vie complet du modèle ML.

Cette incohérence mène à:

Rôles non définis: Confusion lors des demandes et des entretiens de l'emploi.
Surcharge de compétences et burnout: Pression pour être compétente dans divers domaines.
Vers l'ingénierie de l'IA: Demande croissante de professionnels pontant la science des données et l'ingénierie logicielle.

La clarté pendant le processus de recherche d'emploi est cruciale.

5. Défi n ° 4: Problèmes persistants de la qualité des données

"Données, mon ami, ennemi et partenaire. Dois-je utiliser les LLM pour générer des données synthétiques?" - A Hypothétique Data Scientist, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Garbage dans, Garbage Out (Gigo) reste un problème important. De nombreuses entreprises n'ont pas une compréhension complète de leurs données, ce qui a conduit à des défis dans l'utiliser efficacement pour l'IA.

6. Défi n ° 5: Le besoin crucial de l'expertise du domaine

"N'êtes-vous pas un scientifique? Ne devriez-vous pas tout savoir sur la finance et la loi? Utilisez le chatppt!" - un expert en domaine hypothétique, 2022-2023

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Bien que les LLM sont puissantes, l'expertise du domaine profond reste vitale. La collaboration avec les experts du domaine est cruciale pour:

Compréhension contextuelle: Fournir un contexte souvent manquant dans l'analyse des données.
Modèle Fonction des modèles: Assurer que les modèles s'alignent sur les normes de l'industrie.
Atténuation des risques et conformité: Navigation des réglementations dans les secteurs sensibles.

7. Défi n ° 6: naviguer dans le paysage "OPS"

"Pipelines de données, déploiements de modèles, optimisation LLM et infrastructure cloud? Je voulais juste former un modèle!" - A Hypothétique Data Scientist, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Les systèmes d'IA de l'opérationnalisation sont essentiels. Comprendre les dataops, les Mlops, les AIOP et les LLMops sont essentiels pour les déploiements de production réussis.

8. Défi n ° 7: s'adapter aux progrès technologiques rapides

"La nouvelle bibliothèque n'est pas compatible avec notre pile, mais c'est plus rapide. Je vais le faire correspondre." - un directeur de génie hypothétique, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Le rythme rapide du changement technologique présente à la fois les opportunités et les défis:

Choix écrasant des outils: difficulté à choisir les bons outils.
Fragmentation et intégration: défis l'intégration de différents systèmes.
Evolution des compétences: Besoin d'apprentissage et d'adaptation continus.
Équilibrer l'innovation et la praticité: distinguer la véritable innovation du battage médiatique.
L'avenir des rôles de programmation: Le potentiel de l'AI pour automatiser les tâches de programmation.

9. Réflexions de conclusion

Le domaine de la science des données évolue rapidement. Le succès nécessite un mélange d'expertise technique, de sens des affaires, de compétences en collaboration et d'un engagement à l'apprentissage continu.

10. Références

[1] Elwin, M. (2024). Scientifique des données en V à l'ère de l'IA générative. moyen . [Lien vers l'article médium d'origine] [2-10] [Liens vers les références restantes]

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1672

Tutoriel CakePHP

1428

Tutoriel Laravel

1332

Tutoriel PHP

1276

Tutoriel C#

1256

Afficher plus

Related knowledge

Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Apr 23, 2025 am 11:30 AM

Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Comment ajouter une colonne dans SQL? - Analytique Vidhya Apr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Apr 16, 2025 am 11:37 AM

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue Apr 14, 2025 am 11:09 AM

Benchmarks en difficulté: une étude de cas de lama Début avril 2025, Meta a dévoilé sa suite de modèles Llama 4, avec des métriques de performance impressionnantes qui les ont placés favorablement contre des concurrents comme GPT-4O et Claude 3.5 Sonnet. Au centre du launc

Nouveau cours court sur les modèles d'intégration par Andrew Ng Apr 15, 2025 am 11:32 AM

Déverrouiller la puissance des modèles d'intégration: une plongée profonde dans le nouveau cours d'Andrew Ng Imaginez un avenir où les machines comprennent et répondent à vos questions avec une précision parfaite. Ce n'est pas de la science-fiction; Grâce aux progrès de l'IA, cela devient un R

Comment les jeux de TDAH, les outils de santé et les chatbots d'IA transforment la santé mondiale Apr 14, 2025 am 11:27 AM

Un jeu vidéo peut-il faciliter l'anxiété, se concentrer ou soutenir un enfant atteint de TDAH? Au fur et à mesure que les défis de la santé augmentent à l'échelle mondiale - en particulier chez les jeunes - les innovateurs se tournent vers un outil improbable: les jeux vidéo. Maintenant l'un des plus grands divertissements du monde Indus

Simulation et analyse de lancement de fusées à l'aide de Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simuler les lancements de fusée avec Rocketpy: un guide complet Cet article vous guide à travers la simulation des lancements de fusées haute puissance à l'aide de Rocketpy, une puissante bibliothèque Python. Nous couvrirons tout, de la définition de composants de fusée à l'analyse de Simula

Google dévoile la stratégie d'agent la plus complète au cloud prochain 2025 Apr 15, 2025 am 11:14 AM

Gemini comme fondement de la stratégie d'IA de Google Gemini est la pierre angulaire de la stratégie d'agent AI de Google, tirant parti de ses capacités multimodales avancées pour traiter et générer des réponses à travers le texte, les images, l'audio, la vidéo et le code. Développé par Deepm

See all articles