首页 > 科技周边 > 人工智能 > 不受欢迎的意见:成为一名好数据科学家比以往任何时候都更难

不受欢迎的意见:成为一名好数据科学家比以往任何时候都更难

PHPz
发布: 2025-02-26 03:55:10
原创
549 人浏览过

>数据科学和人工智能工程的不断发展的景观:查看挑战和机遇

>

生成的AI(Genai)和大语言模型(LLM)正在重塑专业世界,尤其是在数据科学中。 这个Genai驱动的环境给有抱负和建立的数据科学家带来了前所未有的挑战。本文分享了与传统ML和Genai合作的六年多以来的见解和经验,对成功数据科学家的不断发展的作用提供了观点。

免责声明:以下轶事可能是虚构的。> ?如果您发现这篇文章有帮助,请喜欢并发表评论! 您还可以在我的博客上找到原始帖子。 ?

不受欢迎的意见:数据科学家的角色比以往任何时候都更加要求。

目录的

定义“​​好”数据科学家

挑战#1:高期望,有限的数据和策略
  1. 挑战#2:AI Hype&自称专家
  2. 挑战#3:整个组织之间的数据科学角色不一致
  3. 挑战#4:持续数据质量问题
  4. 挑战#5:域专业知识的关键需求
  5. 挑战#6:导航“ OPS”景观(DATAOPS,MLOPS,AIOPS,LLMOPS)
  6. 挑战#7:适应快速技术进步
  7. 结论
  8. 参考
  9. 1。定义一个“好”数据科学家

“深度学习?我们专注于

在这里学习。数据工程是它所处的位置。” -
一个假设的雇主,2015

> >我的旅程始于R和SQL,分析了北欧股票市场的趋势。 我研究的尖端深度学习感觉到了世界。现在,我的重点是LLMS,Genai和Agentic Workfrows,它们使用打字稿构建Genai服务。这种转变反映了对数据专业人员的期望的更广泛的发展 - 从传统的ML/DL到生成AI和LLM。 “好”数据科学家的定义已经扩展。角色差异很大,从A/B测试和统计建模到端到端(E2E)ML管道所有权。 但是,核心技能仍然至关重要:

Genai时代的V形数据科学家>(请参阅参考文献[1])

我的论文强调了在这个快速变化时代成功的V形技巧:

深度AI/ML专业知识

编程和系统开发 数据工程

>业务敏锐度

道德考虑与治理
  1. 在这个基础上,让我们探索当前的挑战。
  2. 2。挑战#1:高期望,有限的数据和策略
  3. >

    “我们需要AI,Genai,LLMS!我们的竞争对手正在使用Chatgpt。建立聊天机器人!哦,您的第一年没有数据。隐私问题。” - 假设的经理,2023

    >

    Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist AI是许多组织的重中之重。 Chatgpt的兴起推动了朝着“ AI驱动”的业务奔波。 虽然通过LLMS集成AI似乎很容易,但现实很复杂。

    >

    关键挑战突出了期望与现实之间的差距:

  • 数据稀缺:强大的数据管道至关重要。数据科学家经常花时间倡导数据工程资源来构建这些管道。 此外,数据通常是分散的,不一致的,结构不佳。 缺乏数据策略>
  • 需要一个明确的策略 - 不仅仅是数据本身。 这包括解决敏感数据,将数据科学工作与业务目标保持一致以及培养数据驱动的文化。 没有此,数据科学家解决了无关紧要的问题或创建未使用的解决方案。
  • 缺乏AI策略:许多公司为此而采用AI。 具有定义用例和ROI的明确AI策略至关重要。
  • 这些挑战强调了在追求AI计划之前需要基础支持的必要性。
  • 3。挑战#2:AI Hype&自称专家
“ Chatgpt于2022年底发布。我参加了五个及时的工程课程 - 这很容易!我的本地模型可以使用,所以让我们进行扩展。” -

一个假设的非AI同事,2024

> AI繁荣导致自称专家的激增。 尽管通过LLM的AI商品化是积极的,但它也稀释了专业知识。 参加及时的工程课程并不会使某人成为AI专家。

这个炒作带来了挑战:

自称专家的兴起

过分自信和缺乏真正的专业知识可能会阻碍进步。

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist未对准技能:

团队可能具有AI工具技能,但缺乏有效构建,微调和部署模型的专业知识。

>

    过度依赖插件解决方案:
  • 虽然可访问,但这些解决方案通常缺乏自定义,可伸缩性和地址安全/合规性问题。> LLM功能的
  • 误解: 4。挑战#3:组织之间的数据科学角色不一致>

    “数据科学家?您什么?您可以帮助此SQL查询吗?” - 假设的同事,2024

    >

    >数据科学家角色缺乏明确的定义。 职责差异很大:Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

      >
    • 产品分析师:专注于A/B测试,用户行为分析。
    • 数据工程师:专注于构建和维护数据管道。
    • 机器学习工程师:专注于完整的ML模型生命周期。
    这种不一致导致:

    • >未定义的角色:在工作申请和访谈中混乱。
    • 技能超载和倦怠:在不同地区精通的压力。
    • >转向AI工程:对专业人士的需求不断增长。 在求职过程中的
    • 清晰度至关重要。
    >

    5。挑战#4:持续数据质量问题

    “数据,我的朋友,敌人和合作伙伴。我应该使用llms生成合成数据吗?” -
    假设数据科学家,2024

    >

    >
    >垃圾,垃圾(Gigo)仍然是一个重要的问题。许多公司对其数据缺乏全面的了解,从而导致有效地使用AI的挑战。 6。挑战#5:对域专业知识的关键需求

    Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

    “您不是科学家吗?您不应该知道有关金融和法律的一切吗?使用Chatgpt!” - 一个假设的领域专家,2022-2023

    >

    >> LLM强大,但深厚的领域专业知识仍然至关重要。 与领域专家的合作至关重要:>

    上下文理解:Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist提供数据分析中经常缺少的上下文。

    • 模型微调:确保模型与行业标准保持一致。
    • 风险缓解与合规性:敏感部门的规定。
    • 7。挑战#6:导航“ OPS”景观
    • >

    “数据管道,模型部署,LLM优化和云基础架构?我只是想训练模型!” - 假设数据科学家,2024

    >

    Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist>操作AI系统至关重要。 了解DataOps,MLOPS,AIOPS和LLMOPS对于成功的生产部署至关重要。

    8。挑战#7:适应快速技术进步

    “新图书馆与我们的堆栈不兼容,但是它更快。我会适合。” -

    假设工程经理,2024>

    技术变革的迅速步伐既提出了机遇和挑战:> Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

      压倒性的工具选择:
    • 难以选择正确的工具。
    • 碎片和集成:
    • 挑战集成不同的系统。
    • >不断发展的技能:
    • 需要持续学习和适应。
    • 平衡创新与实用性:
    • 将真正的创新与炒作区分开。 编程角色的未来
    • AI有可能自动化编程任务的潜力。
    9。总结思想

    数据科学领域正在迅速发展。 成功需要融合技术专长,业务敏锐度,协作技巧以及致力于持续学习的承诺。

    10。参考

    [1] Elwin,M。(2024)。 V形数据科学家在生成AI时代。

    中等

    。 [链接到原始中等文章] [2-10] [链接到其余参考]

以上是不受欢迎的意见:成为一名好数据科学家比以往任何时候都更难的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板