首頁 > 科技週邊 > 人工智慧 > 不受歡迎的意見:成為一名好數據科學家比以往任何時候都更難

不受歡迎的意見:成為一名好數據科學家比以往任何時候都更難

PHPz
發布: 2025-02-26 03:55:10
原創
550 人瀏覽過

>數據科學和人工智能工程的不斷發展的景觀:查看挑戰和機遇

>

生成的AI(Genai)和大語言模型(LLM)正在重塑專業世界,尤其是在數據科學中。 這個Genai驅動的環境給有抱負和建立的數據科學家帶來了前所未有的挑戰。本文分享了與傳統ML和Genai合作的六年多以來的見解和經驗,對成功數據科學家的不斷發展的作用提供了觀點。

免責聲明:以下軼事可能是虛構的。 > ?如果您發現這篇文章有幫助,請喜歡並發表評論! 您還可以在我的博客上找到原始帖子。 ?

不受歡迎的意見:數據科學家的角色比以往任何時候都更加要求。

目錄的

定義“​​好”數據科學家

挑戰#1:高期望,有限的數據和策略
  1. 挑戰#2:AI Hype&自稱專家
  2. 挑戰#3:整個組織之間的數據科學角色不一致
  3. 挑戰#4:持續數據質量問題
  4. 挑戰#5:域專業知識的關鍵需求
  5. 挑戰#6:導航“ OPS”景觀(DATAOPS,MLOPS,AIOPS,LLMOPS)
  6. 挑戰#7:適應快速技術進步
  7. 結論
  8. 參考
  9. 1。定義一個“好”數據科學家

“深度學習?我們專注於

在這裡學習。數據工程是它所處的位置。” -
一個假設的雇主,2015

> >我的旅程始於R和SQL,分析了北歐股票市場的趨勢。 我研究的尖端深度學習感覺到了世界。現在,我的重點是LLMS,Genai和Agentic Workfrows,它們使用打字稿構建Genai服務。這種轉變反映了對數據專業人員的期望的更廣泛的發展 - 從傳統的ML/DL到生成AI和LLM。 “好”數據科學家的定義已經擴展。角色差異很大,從A/B測試和統計建模到端到端(E2E)ML管道所有權。 但是,核心技能仍然至關重要:

Genai時代的V形數據科學家>(請參閱參考文獻[1])

我的論文強調了在這個快速變化時代成功的V形技巧:

深度AI/ML專業知識

編程和系統開發 數據工程

>業務敏銳度

道德考慮與治理
  1. 在這個基礎上,讓我們探索當前的挑戰。
  2. 2。挑戰#1:高期望,有限的數據和策略
  3. >

    “我們需要AI,Genai,LLMS!我們的競爭對手正在使用Chatgpt。建立聊天機器人!哦,您的第一年沒有數據。隱私問題。” - 假設的經理,2023

    >

    Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist AI是許多組織的重中之重。 Chatgpt的興起推動了朝著“ AI驅動”的業務奔波。 雖然通過LLMS集成AI似乎很容易,但現實很複雜。

    >

    關鍵挑戰突出了期望與現實之間的差距:

  • 數據稀缺:強大的數據管道至關重要。數據科學家經常花時間倡導數據工程資源來構建這些管道。 此外,數據通常是分散的,不一致的,結構不佳。 缺乏數據策略>
  • 需要一個明確的策略 - 不僅僅是數據本身。 這包括解決敏感數據,將數據科學工作與業務目標保持一致以及培養數據驅動的文化。 沒有此,數據科學家解決了無關緊要的問題或創建未使用的解決方案。
  • 缺乏AI策略:許多公司為此而採用AI。 具有定義用例和ROI的明確AI策略至關重要。
  • 這些挑戰強調了在追求AI計劃之前需要基礎支持的必要性。
  • 3。挑戰#2:AI Hype&自稱專家
“ Chatgpt於2022年底發布。我參加了五個及時的工程課程- 這很容易!我的本地模型可以使用,所以讓我們進行擴展。” -

一個假設的非AI同事,2024

> AI繁榮導致自稱專家的激增。 儘管通過LLM的AI商品化是積極的,但它也稀釋了專業知識。 參加及時的工程課程並不會使某人成為AI專家。

這個炒作帶來了挑戰:

自稱專家的興起

過分自信和缺乏真正的專業知識可能會阻礙進步。

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist未對準技能:

團隊可能具有AI工具技能,但缺乏有效構建,微調和部署模型的專業知識。

>

    過度依賴插件解決方案:
  • 雖然可訪問,但這些解決方案通常缺乏自定義,可伸縮性和地址安全/合規性問題。 > LLM功能的
  • 誤解: 4。挑戰#3:組織之間的數據科學角色不一致>

    “數據科學家?您什麼?您可以幫助此SQL查詢嗎?” - 假設的同事,2024

    >

    >數據科學家角色缺乏明確的定義。 職責差異很大:Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

      >
    • 產品分析師:專注於A/B測試,用戶行為分析。
    • 數據工程師:專注於構建和維護數據管道。
    • 機器學習工程師:專注於完整的ML模型生命週期。
    這種不一致導致:

    • >未定義的角色:在工作申請和訪談中混亂。
    • 技能超載和倦怠:在不同地區精通的壓力。
    • >轉向AI工程:對專業人士的需求不斷增長。 在求職過程中的
    • 清晰度至關重要。
    >

    5。挑戰#4:持續數據質量問題

    “數據,我的朋友,敵人和合作夥伴。我應該使用llms生成合成數據嗎?” -
    假設數據科學家,2024

    >

    >
    >垃圾,垃圾(Gigo)仍然是一個重要的問題。許多公司對其數據缺乏全面的了解,從而導致有效地使用AI的挑戰。 6。挑戰#5:對域專業知識的關鍵需求

    Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

    “您不是科學家嗎?您不應該知道有關金融和法律的一切嗎?使用Chatgpt!” - 一個假設的領域專家,2022-2023

    >

    >> LLM強大,但深厚的領域專業知識仍然至關重要。 與領域專家的合作至關重要:>

    上下文理解:Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist提供數據分析中經常缺少的上下文。

    • 模型微調:確保模型與行業標准保持一致。
    • 風險緩解與合規性:敏感部門的規定。
    • 7。挑戰#6:導航“ OPS”景觀
    • >

    “數據管道,模型部署,LLM優化和雲基礎架構?我只是想訓練模型!” - 假設數據科學家,2024

    >

    Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist>操作AI系統至關重要。 了解DataOps,MLOPS,AIOPS和LLMOPS對於成功的生產部署至關重要。

    8。挑戰#7:適應快速技術進步

    “新圖書館與我們的堆棧不兼容,但是它更快。我會適合。” -

    假設工程經理,2024>

    技術變革的迅速步伐既提出了機遇和挑戰:> Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

      壓倒性的工具選擇:
    • 難以選擇正確的工具。
    • 碎片和集成:
    • 挑戰集成不同的系統。
    • >不斷發展的技能:
    • 需要持續學習和適應。
    • 平衡創新與實用性:
    • 將真正的創新與炒作區分開。 編程角色的未來
    • AI有可能自動化編程任務的潛力。
    9。總結思想

    數據科學領域正在迅速發展。 成功需要融合技術專長,業務敏銳度,協作技巧以及致力於持續學習的承諾。

    10。參考

    [1] Elwin,M。 (2024)。 V形數據科學家在生成AI時代。

    中等

    。 [鏈接到原始中等文章] [2-10] [鏈接到其餘參考]

以上是不受歡迎的意見:成為一名好數據科學家比以往任何時候都更難的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板