Penterjemah |. Cui Hao
Penilai |. . Walau bagaimanapun, satu lagi masalah yang berkait rapat dengan kecerdasan buatan telah diabaikan: kualiti data yang lemah.
Sistem AI yang mengenal pasti penyakit pesakit adalah contoh baik kualiti data yang lemah yang membawa kepada akibat buruk. Apabila data tidak mencukupi, sistem ini boleh menghasilkan diagnosis yang salah dan ramalan yang tidak tepat, yang membawa kepada diagnosis yang salah dan rawatan yang tertangguh. Sebagai contoh, kajian Universiti Cambridge terhadap lebih daripada 400 alat yang digunakan untuk mendiagnosis Covid-19 mendapati bahawa laporan yang dijana AI tidak dapat digunakan sepenuhnya kerana penggunaan set data yang cacat.
Dalam erti kata lain, jika data tidak cukup baik, inisiatif AI akan membawa kesan buruk kepada dunia sebenar.
Apakah maksud data "cukup baik"?
Terdapat perdebatan besar tentang apakah data yang "cukup baik". Ada yang mengatakan data yang cukup baik tidak wujud. Orang lain mengatakan bahawa data "terlalu baik" boleh menyebabkan kelumpuhan analisis (Penterjemah: harus merujuk kepada pemasangan berlebihan) - sementara HBR menyatakan secara terang-terangan bahawa maklumat yang tidak baik akan menyebabkan alatan pembelajaran mesin gagal berfungsi.
Bagaimanakah data buruk mempengaruhi sistem kecerdasan buatan?
Isu kualiti data timbul pada permulaan proses apabila algoritma belajar berdasarkan data latihan. Contohnya, jika algoritma AI diberi data media sosial yang tidak ditapis, ia akan mengeluarkan penyalahgunaan, komen perkauman dan kenyataan misoginis, seperti yang ditunjukkan oleh bot AI Microsoft. Baru-baru ini, ketidakupayaan kecerdasan buatan untuk mengesan orang berkulit gelap juga telah dipersalahkan atas masalah dengan data latihan.
Bagaimanakah ini berkaitan dengan kualiti data?
Apa yang perlu saya lakukan?
Apabila syarikat menyedari terdapat masalah dengan kualiti data, mereka panik tentang pengambilan pekerja. Dengan mengupah perunding, jurutera dan penganalisis secara membabi buta untuk mendiagnosis dan membersihkan data, dengan harapan dapat menyelesaikan masalah secepat mungkin. Malangnya, beberapa bulan berlalu dan walaupun berjuta-juta dolar dibelanjakan, masalah itu nampaknya tidak hilang. Mengambil pendekatan tanpa henti terhadap isu kualiti data jarang membantu.
Perubahan sebenar bermula di akar umbi.
Mengiktiraf dan mengakui isu kualiti data
Pertama, menilai kualiti data dengan mewujudkan budaya literasi data. Bill Schmarzo adalah suara yang kuat dalam hal ini, mengesyorkan menggunakan pemikiran reka bentuk untuk mencipta budaya di mana semua orang memahami dan menyumbang kepada matlamat dan cabaran data organisasi.
Dalam persekitaran perniagaan hari ini, data dan kualiti data bukan lagi tanggungjawab sepenuhnya IT atau pasukan data. Pengguna perniagaan mesti menyedari isu seperti isu data kotor dan data yang tidak konsisten dan pendua.
Dengan senarai semak di bawah, anda boleh menggunakannya untuk menjejak kualiti data.
Senarai Semak Kesihatan Data
Bagaimanakah data ditangkap, disimpan dan diuruskan? Berapa banyak sumber data yang disambungkan ke pangkalan data pusat anda dan sejauh manakah data itu disebarkan? Sejauh manakah anda mengurus data anda? Adakah anda telah melaksanakan piawaian tadbir urus data? Berapa banyak data berstruktur, separa berstruktur atau tidak berstruktur?Strategi mesti menyelesaikan masalah pengumpulan data, pelabelan, pemprosesan dan pemadanan data dengan projek AI/ML. Sebagai contoh, jika program pengambilan AI hanya memilih calon lelaki untuk jawatan teknikal, maka data latihan program jelas berat sebelah, tidak lengkap (tidak cukup data tentang calon wanita dikumpul) dan tidak tepat. Oleh itu, data ini tidak memenuhi tujuan sebenar projek AI.
Keperluan untuk kualiti data melangkaui tugas harian membersihkan dan membaiki data. Jadi, integriti data dan piawaian tadbir urus perlu ditetapkan sebelum memulakan sesuatu projek. Ia menyelamatkan projek daripada jatuh ke dalam kegagalan!
Tiada standard universal untuk "data atau tahap kualiti data yang cukup baik". Sebaliknya, semuanya bergantung pada sistem pengurusan maklumat perusahaan, garis panduan tadbir urus data, pengetahuan tentang matlamat pasukan dan perniagaan, dan banyak faktor lain.
Tetapi sebelum memulakan projek, terdapat beberapa soalan untuk ditanya kepada pasukan:
Tanya soalan yang betul, tetapkan peranan yang betul, laksanakan standard kualiti data dan bantu pasukan anda menangani cabaran sebelum ia timbul!
Kualiti data bukan sekadar membetulkan kesilapan atau kesilapan. Ia memastikan bahawa sistem AI tidak bersifat diskriminasi, mengelirukan atau tidak tepat. Sebelum melancarkan projek AI, adalah perlu untuk menangani cabaran kualiti data dengan menangani kelemahan dalam data. Selain itu, lancarkan program literasi data seluruh organisasi untuk menghubungkan setiap pasukan kepada matlamat keseluruhan.
Cui Hao, editor komuniti 51CTO dan arkitek kanan, mempunyai 18 tahun pengalaman pembangunan perisian dan seni bina serta 10 tahun pengalaman seni bina yang diedarkan.
Tajuk asal: Adakah Data Anda Cukup Baik untuk Pelan Pembelajaran Mesin/AI Anda?, pengarang: Farah Kim
Atas ialah kandungan terperinci Bagaimana untuk meningkatkan kualiti data untuk memenuhi keperluan projek AI dengan lebih baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!