Apabila kita melangkah lebih jauh ke dalam dunia ML dan GenAI, penekanan pada kualiti data menjadi kritikal. John Jeske, CTO Kumpulan Inovasi Teknologi Termaju KMS Technology, menyelidiki kaedah tadbir urus data seperti penjejakan keturunan data dan pembelajaran bersekutu untuk memastikan prestasi model terbaik.
Kualiti data adalah kunci kepada model kemampanan dan kepercayaan pihak berkepentingan. Semasa proses pemodelan, kualiti data menjadikan penyelenggaraan jangka panjang lebih mudah dan membolehkan anda membina keyakinan dan keyakinan pengguna di kalangan komuniti pemegang kepentingan anda. Kesan 'sampah masuk, sampah keluar' diburukkan lagi dalam model yang kompleks, termasuk bahasa berskala besar dan algoritma generatif. "Jeske berkata.
Tidak kira model mana yang anda pilih untuk kes penggunaan anda, kualiti data yang lemah pasti akan membawa kepada kegagalan model GenAI . Herotan sering datang daripada data latihan yang menyalahgambarkan skop syarikat, pangkalan pelanggan atau skop aplikasi Kekayaan sebenar adalah dalam data itu sendiri, bukan model atau struktur pemodelan yang sementara data sebagai aset boleh wang telah menjadi lebih menonjol apabila beberapa rangka kerja pemodelan telah muncul, Jeff Scott, naib presiden kanan perkhidmatan perisian di KMS Technology, menjelaskan lagi: " Apabila kandungan yang dihasilkan oleh AI menyimpang daripada output yang dijangkakan, ia adalah. bukan ralat algoritma, tetapi mencerminkan data latihan yang tidak mencukupi atau diherotkan Amalan terbaik termasuk aktiviti seperti pengurusan metadata, pengurusan data dan semakan kualiti automatik. Contohnya, pastikan kebolehpercayaan sumber data, gunakan set data yang diperakui apabila memperoleh data untuk latihan dan pemodelan, dan pertimbangkan untuk menggunakan alatan kualiti data automatik. Walaupun ini mungkin menambah kerumitan, alatan ini sangat membantu dalam memastikan integriti data
Untuk meningkatkan kualiti data, kami menggunakan alatan yang menyediakan sifat seperti kesahihan data, semakan integriti dan ketekalan masa , yang menggalakkan kebolehpercayaan, data yang konsisten, yang penting untuk model AI yang teguh.
Tanggungjawab dan penambahbaikan berterusan dalam pembangunan AI
Perkara yang paling penting ialah memastikan ciri berfungsi seperti yang direka dan data yang dilatih masuk akal dari perspektif bakal pelanggan. Maklum balas meningkatkan pembelajaran, yang kemudiannya diambil kira pada kali berikutnya model dilatih, memohon peningkatan berterusan sehingga titik kepercayaan.
Dalam aliran kerja kami, model AI dan ML menjalani ujian dalaman yang ketat sebelum dilancarkan secara terbuka. Pasukan kejuruteraan data menerima maklum balas berterusan, membolehkan penambahbaikan berulang pada model untuk meminimumkan bias dan anomali lain Bidang perniagaan yang berkaitan menjalankan pengurusan data dan memerlukan penglibatan berterusan pakar perkara untuk memastikan data merentas pasukan dan sistem disusun dengan betul dan bertanggungjawab secara konsisten#🎜 🎜#
Mesti memahami dan menerima ketidaktepatan daripada teknologi Akibatnya, syarikat mesti menilai ketelusan mereka, daripada sumber data dan pengendalian harta intelek kepada kualiti dan integriti data keseluruhan. Ketelusan adalah penting kepada kepercayaan pelanggan, dan tadbir urus data bukan sekadar latihan teknikal, ia juga boleh memberi kesan kepada reputasi syarikat kerana risiko dipindahkan daripada ramalan AI yang tidak tepat kepada pengguna akhir. Dengan pembangunan berterusan GenAI, penguasaan tadbir urus data menjadi semakin penting. Ini bukan sahaja untuk memastikan kualiti data, tetapi juga untuk memahami hubungan kompleks antara data dan model AI. Wawasan ini penting untuk kemajuan teknologi, kesihatan perniagaan dan mengekalkan kepercayaan pihak berkepentingan dan orang ramai yang lebih luasAtas ialah kandungan terperinci Pelan tindakan tadbir urus data dalam era GenAI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!