Landskap Sains Data dan Kejuruteraan AI yang berkembang: Lihatlah cabaran dan peluang
Generative AI (genai) dan model bahasa besar (LLMs) membentuk semula dunia profesional, terutamanya dalam sains data. Persekitaran yang didorong oleh Benari ini memberikan cabaran yang belum pernah terjadi sebelumnya untuk saintis data yang bercita-cita dan ditubuhkan. Artikel ini berkongsi pandangan dan pengalaman dari lebih dari enam tahun bekerja dengan ML tradisional dan genai, yang menawarkan perspektif mengenai peranan yang berkembang dari saintis data yang berjaya.
penafian: anekdot di bawah mungkin fiksyen.
? Jika anda mendapati artikel ini membantu, sila suka dan komen! Anda juga boleh mencari jawatan asal di blog saya. ?
Pendapat tidak popular: Peranan saintis data lebih menuntut berbanding sebelum ini.
Jadual Kandungan
1. Mendefinisikan Saintis Data "Baik"
"Pembelajaran mendalam? Kami memberi tumpuan kepada un pembelajaran di sini. Kejuruteraan data adalah di mana ia berada." - majikan hipotesis, 2015
Perjalanan saya bermula dengan R dan SQL, menganalisis trend pasaran saham Nordik. Pembelajaran mendalam yang saya pelajari yang saya pelajari. Sekarang, tumpuan saya adalah pada aliran kerja LLMS, genai, dan agentik, membina perkhidmatan genai dengan typescript. Peralihan ini mencerminkan evolusi jangkaan yang lebih luas untuk profesional data - dari ML/DL tradisional kepada AI dan LLM generatif.
Definisi seorang saintis data "baik" telah berkembang. Peranan berbeza-beza, dari ujian A/B dan pemodelan statistik ke pemilikan saluran paip akhir (E2E) ml. Walau bagaimanapun, kemahiran teras tetap penting:
saintis data berbentuk v di era genai (lihat rujukan [1])
tesis saya menekankan skillet berbentuk V untuk berjaya dalam era perubahan pesat ini:
dengan asas ini, mari kita meneroka cabaran semasa.
2. Cabaran #1: Harapan Tinggi, Data & Strategi Terhad
"Kami memerlukan ai, genai, llms! Pesaing kami menggunakan chatgpt. Bina chatbot! Oh, dan tidak ada data untuk tahun pertama anda. - Pengurus Hipotetikal, 2023
AI adalah keutamaan bagi banyak organisasi. Kebangkitan CHATGPT memacu ke arah perniagaan "AI-didorong". Semasa mengintegrasikan AI melalui LLMS nampaknya mudah, realiti adalah kompleks.
Cabaran utama menyerlahkan jurang antara jangkaan dan realiti:
3. Cabaran #2: Pakar Hype & Sendiri AI
"Chatgpt keluar pada akhir 2022. Saya mengambil lima kursus kejuruteraan segera - mudah! Model tempatan saya berfungsi, jadi mari kita skala." -rakan sekerja bukan hipotetikal, 2024
Boom AI telah membawa kepada lonjakan pakar yang diisytiharkan sendiri. Walaupun komoditi AI melalui LLM adalah positif, ia juga mencairkan kepakaran. Mengambil kursus kejuruteraan segera tidak menjadikan seseorang pakar AI.
4. Cabaran #3: Peranan sains data yang tidak konsisten di seluruh organisasi
"Saintis Data? Apa yang anda lakukan ? Bolehkah anda membantu dengan pertanyaan SQL ini?" - rakan sekerja hipotesis, 2024
Peranan saintis data tidak mempunyai definisi yang jelas. Tanggungjawab berbeza -beza secara meluas:
ketidakkonsistenan ini membawa kepada:
kejelasan semasa proses carian pekerjaan adalah penting.
5. Cabaran #4: Isu Kualiti Data yang berterusan
"Data, rakan saya, musuh, dan rakan kongsi. Sekiranya saya menggunakan LLM untuk menghasilkan data sintetik?" - Saintis Data Hipotetikal, 2024
sampah, sampah (gigo) tetap menjadi masalah yang besar. Banyak syarikat tidak mempunyai pemahaman yang komprehensif mengenai data mereka, yang membawa kepada cabaran menggunakannya dengan berkesan untuk AI.
6. Cabaran #5: Keperluan penting untuk kepakaran domain
"Bukankah anda seorang saintis? Tidakkah anda tahu segala -galanya mengenai kewangan dan undang -undang? Gunakan chatgpt!" - Pakar domain hipotesis, 2022-2023
Walaupun LLMs adalah kepakaran domain yang kuat dan mendalam tetap penting. Kerjasama dengan pakar domain adalah penting untuk:
7. Cabaran #6: Menavigasi Landskap "Ops"
"saluran paip data, penyebaran model, pengoptimuman LLM, dan infrastruktur awan? Saya hanya mahu melatih model!" - Saintis Data Hipotetikal, 2024
Operasi sistem AI adalah kritikal. Memahami Dataops, MLOPS, AIOPS, dan LLMOPS adalah penting untuk penyebaran pengeluaran yang berjaya.
8. Cabaran #7: Mengadaptasi kepada Kemajuan Teknologi Rapid
"Perpustakaan baru tidak serasi dengan timbunan kami, tetapi lebih cepat, saya akan membuatnya sesuai." - Pengurus Kejuruteraan Hipotetikal, 2024
Perubahan teknologi pesat membentangkan peluang dan cabaran:
9. Kesimpulan Pemikiran
10. Rujukan
[1] Elwin, M. (2024). Saintis data berbentuk V dalam era AI generatif.medium . [Pautan ke artikel sederhana asal] [2-10] [pautan ke rujukan yang tinggal]
Atas ialah kandungan terperinci Pendapat yang tidak popular: ia lebih sukar daripada sebelumnya untuk menjadi saintis data yang baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!