Rumah > Peranti teknologi > AI > Pendapat yang tidak popular: ia lebih sukar daripada sebelumnya untuk menjadi saintis data yang baik

Pendapat yang tidak popular: ia lebih sukar daripada sebelumnya untuk menjadi saintis data yang baik

PHPz
Lepaskan: 2025-02-26 03:55:10
asal
550 orang telah melayarinya

Landskap Sains Data dan Kejuruteraan AI yang berkembang: Lihatlah cabaran dan peluang

Generative AI (genai) dan model bahasa besar (LLMs) membentuk semula dunia profesional, terutamanya dalam sains data. Persekitaran yang didorong oleh Benari ini memberikan cabaran yang belum pernah terjadi sebelumnya untuk saintis data yang bercita-cita dan ditubuhkan. Artikel ini berkongsi pandangan dan pengalaman dari lebih dari enam tahun bekerja dengan ML tradisional dan genai, yang menawarkan perspektif mengenai peranan yang berkembang dari saintis data yang berjaya.

penafian: anekdot di bawah mungkin fiksyen.

? Jika anda mendapati artikel ini membantu, sila suka dan komen! Anda juga boleh mencari jawatan asal di blog saya. ?

Pendapat tidak popular: Peranan saintis data lebih menuntut berbanding sebelum ini.

Jadual Kandungan

  1. Mendefinisikan Saintis Data "Baik"
  2. Cabaran #1: Harapan Tinggi, Data & Strategi Terhad
  3. Cabaran #2: Pakar Hype & Sendiri AI
  4. Cabaran #3: Peranan sains data yang tidak konsisten di seluruh organisasi
  5. cabaran #4: Isu kualiti data berterusan
  6. Cabaran #5: Keperluan penting untuk kepakaran domain
  7. Cabaran #6: Menavigasi Landskap "Ops" (Dataops, MLOPS, AIOPS, LLMOPS)
  8. cabaran #7: menyesuaikan diri dengan kemajuan teknologi pesat
  9. Kesimpulan Pemikiran
  10. Rujukan

1. Mendefinisikan Saintis Data "Baik"

"Pembelajaran mendalam? Kami memberi tumpuan kepada un pembelajaran di sini. Kejuruteraan data adalah di mana ia berada." - majikan hipotesis, 2015

Perjalanan saya bermula dengan R dan SQL, menganalisis trend pasaran saham Nordik. Pembelajaran mendalam yang saya pelajari yang saya pelajari. Sekarang, tumpuan saya adalah pada aliran kerja LLMS, genai, dan agentik, membina perkhidmatan genai dengan typescript. Peralihan ini mencerminkan evolusi jangkaan yang lebih luas untuk profesional data - dari ML/DL tradisional kepada AI dan LLM generatif.

Definisi seorang saintis data "baik" telah berkembang. Peranan berbeza-beza, dari ujian A/B dan pemodelan statistik ke pemilikan saluran paip akhir (E2E) ml. Walau bagaimanapun, kemahiran teras tetap penting:

saintis data berbentuk v di era genai (lihat rujukan [1])

tesis saya menekankan skillet berbentuk V untuk berjaya dalam era perubahan pesat ini:

  1. Deep AI/ML kepakaran
  2. Pengaturcaraan & Pembangunan Sistem
  3. Kejuruteraan Data
  4. acumen perniagaan
  5. pertimbangan etika & tadbir urus

dengan asas ini, mari kita meneroka cabaran semasa.

2. Cabaran #1: Harapan Tinggi, Data & Strategi Terhad

"Kami memerlukan ai, genai, llms! Pesaing kami menggunakan chatgpt. Bina chatbot! Oh, dan tidak ada data untuk tahun pertama anda. - Pengurus Hipotetikal, 2023

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist AI adalah keutamaan bagi banyak organisasi. Kebangkitan CHATGPT memacu ke arah perniagaan "AI-didorong". Semasa mengintegrasikan AI melalui LLMS nampaknya mudah, realiti adalah kompleks.

Cabaran utama menyerlahkan jurang antara jangkaan dan realiti:

  • kekurangan data: saluran paip data yang mantap adalah penting. Para saintis data sering meluangkan masa untuk menganjurkan sumber kejuruteraan data untuk membina saluran paip ini. Tambahan pula, data sering bertaburan, tidak konsisten, dan kurang berstruktur.
  • Kekurangan Strategi Data: Strategi yang jelas diperlukan - bukan hanya data itu sendiri. Ini termasuk menangani data sensitif, menyelaraskan usaha sains data dengan matlamat perniagaan, dan memupuk budaya yang didorong data. Tanpa ini, saintis data menyelesaikan masalah yang tidak relevan atau membuat penyelesaian yang tidak digunakan.
  • Ketiadaan strategi AI: Banyak syarikat yang mengadopsi AI demi kepentingannya. Strategi AI yang jelas dengan kes penggunaan yang ditetapkan dan ROI adalah penting.
Cabaran -cabaran ini menggariskan keperluan untuk sokongan asas sebelum mengejar inisiatif AI.

3. Cabaran #2: Pakar Hype & Sendiri AI

"Chatgpt keluar pada akhir 2022. Saya mengambil lima kursus kejuruteraan segera - mudah! Model tempatan saya berfungsi, jadi mari kita skala." -

rakan sekerja bukan hipotetikal, 2024

Boom AI telah membawa kepada lonjakan pakar yang diisytiharkan sendiri. Walaupun komoditi AI melalui LLM adalah positif, ia juga mencairkan kepakaran. Mengambil kursus kejuruteraan segera tidak menjadikan seseorang pakar AI. Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

gembar -gembur ini mencipta cabaran:

  • Kebangkitan pakar yang mengisytiharkan diri: terlalu yakin dan kekurangan kepakaran tulen dapat menghalang kemajuan.
  • Keterampilan Misaligned: Pasukan mungkin mempunyai kemahiran alat AI tetapi tidak mempunyai kepakaran untuk membina, menyempurnakan, dan menggunakan model dengan berkesan.
  • over-reliance pada penyelesaian plug-and-play: Walaupun boleh diakses, penyelesaian ini sering kekurangan penyesuaian, skalabilitas, dan alamat keselamatan/pematuhan alamat.
  • salah faham keupayaan LLM: LLMs bukan penyelesaian sejagat. Mereka cemerlang dalam bidang tertentu (penjanaan teks, ringkasan) tetapi tidak sesuai untuk orang lain (regresi, siri masa).

4. Cabaran #3: Peranan sains data yang tidak konsisten di seluruh organisasi

"Saintis Data? Apa yang anda lakukan ? Bolehkah anda membantu dengan pertanyaan SQL ini?" - rakan sekerja hipotesis, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Peranan saintis data tidak mempunyai definisi yang jelas. Tanggungjawab berbeza -beza secara meluas:

  • Penganalisis Produk: Fokus pada ujian A/B, analisis tingkah laku pengguna.
  • Jurutera Data: Fokus pada membina dan mengekalkan saluran paip data.
  • Jurutera Pembelajaran Mesin: Fokus pada kitaran hayat model ML penuh.

ketidakkonsistenan ini membawa kepada:

  • Peranan tidak ditentukan: kekeliruan semasa aplikasi kerja dan wawancara.
  • Overload Skill & Burnout: tekanan menjadi mahir dalam pelbagai kawasan.
  • beralih ke arah kejuruteraan AI: Permintaan yang semakin meningkat untuk profesional merapatkan sains data dan kejuruteraan perisian.

kejelasan semasa proses carian pekerjaan adalah penting.

5. Cabaran #4: Isu Kualiti Data yang berterusan

"Data, rakan saya, musuh, dan rakan kongsi. Sekiranya saya menggunakan LLM untuk menghasilkan data sintetik?" - Saintis Data Hipotetikal, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist sampah, sampah (gigo) tetap menjadi masalah yang besar. Banyak syarikat tidak mempunyai pemahaman yang komprehensif mengenai data mereka, yang membawa kepada cabaran menggunakannya dengan berkesan untuk AI.

6. Cabaran #5: Keperluan penting untuk kepakaran domain

"Bukankah anda seorang saintis? Tidakkah anda tahu segala -galanya mengenai kewangan dan undang -undang? Gunakan chatgpt!" - Pakar domain hipotesis, 2022-2023

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Walaupun LLMs adalah kepakaran domain yang kuat dan mendalam tetap penting. Kerjasama dengan pakar domain adalah penting untuk:

  • pemahaman kontekstual: Menyediakan konteks sering hilang dalam analisis data.
  • model penalaan halus: memastikan model sejajar dengan piawaian industri.
  • Mitigasi & Pematuhan Risiko: Menavigasi peraturan dalam sektor sensitif.

7. Cabaran #6: Menavigasi Landskap "Ops"

"saluran paip data, penyebaran model, pengoptimuman LLM, dan infrastruktur awan? Saya hanya mahu melatih model!" - Saintis Data Hipotetikal, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Operasi sistem AI adalah kritikal. Memahami Dataops, MLOPS, AIOPS, dan LLMOPS adalah penting untuk penyebaran pengeluaran yang berjaya.

8. Cabaran #7: Mengadaptasi kepada Kemajuan Teknologi Rapid

"Perpustakaan baru tidak serasi dengan timbunan kami, tetapi lebih cepat, saya akan membuatnya sesuai." - Pengurus Kejuruteraan Hipotetikal, 2024

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist Perubahan teknologi pesat membentangkan peluang dan cabaran:

  • pilihan alat yang menggembirakan: Kesukaran memilih alat yang betul.
  • Fragmentasi & Integrasi: Cabaran Mengintegrasikan Sistem yang Berbeza.
  • kemahiran yang berkembang: Perlu pembelajaran dan penyesuaian berterusan.
  • Mengimbangi Inovasi & Praktikal: Membezakan inovasi tulen dari gembar -gembur.
  • Masa depan peranan pengaturcaraan: potensi AI untuk mengautomasikan tugas pengaturcaraan.

9. Kesimpulan Pemikiran

bidang sains data berkembang pesat. Kejayaan memerlukan gabungan kepakaran teknikal, ketajaman perniagaan, kemahiran kerjasama, dan komitmen untuk pembelajaran berterusan.

10. Rujukan

[1] Elwin, M. (2024). Saintis data berbentuk V dalam era AI generatif.

medium . [Pautan ke artikel sederhana asal] [2-10] [pautan ke rujukan yang tinggal]

Atas ialah kandungan terperinci Pendapat yang tidak popular: ia lebih sukar daripada sebelumnya untuk menjadi saintis data yang baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan