Bagaimana untuk meningkatkan kualiti data untuk memenuhi keperluan projek AI dengan lebih baik-AI-php.cn

Jadual Kandungan

Algoritma AI bergantung pada data yang boleh dipercayai untuk menghasilkan hasil yang optimum – jika data itu berat sebelah, tidak lengkap, tidak mencukupi atau bahkan tidak tepat, akibatnya boleh memudaratkan.

Di WinPure, data yang cukup baik ditakrifkan sebagai "lengkap, tepat, sah dan boleh digunakan dengan yakin dalam proses perniagaan yang berisiko, pada tahap yang bergantung pada matlamat peribadi dan keadaan perniagaan." 🎜>Kebanyakan syarikat bergelut dengan kualiti data dan tadbir urus, walaupun mereka tidak mahu mengakuinya. Penyeksaan ini terus meningkatkan ketegangan projek dan mengatasi mereka Anda boleh bayangkan bahawa mereka berada di bawah tekanan yang hebat untuk menggunakan rancangan kecerdasan buatan untuk mengekalkan kelebihan daya saing. Malangnya, isu seperti data kotor tidak mungkin dibincangkan di bilik lembaga sehingga ia menyebabkan projek gagal.

Kekurangan tadbir urus data, kesedaran yang rendah tentang kualiti data dan pandangan senyap data adalah punca utama kualiti data yang lemah.

Jika anda mahu projek AI/ML anda bergerak ke arah yang betul, lakukan tiga langkah utama ini.

Jadi, mulakan dengan menjadikan latihan kualiti data sebagai usaha organisasi yang dihargai dan memperkasakan pasukan untuk mengenal pasti atribut data yang lemah.

Tanya soalan yang betul dan tetapkan akauntabiliti

Ringkasan

Pengenalan penterjemah

Rumah

Peranti teknologi

Bagaimana untuk meningkatkan kualiti data untuk memenuhi keperluan projek AI dengan lebih baik

王林

Apr 16, 2023 am 08:13 AM

AI pembelajaran mesin data

Penterjemah |. Cui Hao

Penilai |. . Walau bagaimanapun, satu lagi masalah yang berkait rapat dengan kecerdasan buatan telah diabaikan: kualiti data yang lemah.

Algoritma AI bergantung pada data yang boleh dipercayai untuk menghasilkan hasil yang optimum – jika data itu berat sebelah, tidak lengkap, tidak mencukupi atau bahkan tidak tepat, akibatnya boleh memudaratkan.

Sistem AI yang mengenal pasti penyakit pesakit adalah contoh baik kualiti data yang lemah yang membawa kepada akibat buruk. Apabila data tidak mencukupi, sistem ini boleh menghasilkan diagnosis yang salah dan ramalan yang tidak tepat, yang membawa kepada diagnosis yang salah dan rawatan yang tertangguh. Sebagai contoh, kajian Universiti Cambridge terhadap lebih daripada 400 alat yang digunakan untuk mendiagnosis Covid-19 mendapati bahawa laporan yang dijana AI tidak dapat digunakan sepenuhnya kerana penggunaan set data yang cacat.

Dalam erti kata lain, jika data tidak cukup baik, inisiatif AI akan membawa kesan buruk kepada dunia sebenar.

Apakah maksud data "cukup baik"?

Terdapat perdebatan besar tentang apakah data yang "cukup baik". Ada yang mengatakan data yang cukup baik tidak wujud. Orang lain mengatakan bahawa data "terlalu baik" boleh menyebabkan kelumpuhan analisis (Penterjemah: harus merujuk kepada pemasangan berlebihan) - sementara HBR menyatakan secara terang-terangan bahawa maklumat yang tidak baik akan menyebabkan alatan pembelajaran mesin gagal berfungsi.

Di WinPure, data yang cukup baik ditakrifkan sebagai "lengkap, tepat, sah dan boleh digunakan dengan yakin dalam proses perniagaan yang berisiko, pada tahap yang bergantung pada matlamat peribadi dan keadaan perniagaan." 🎜>Kebanyakan syarikat bergelut dengan kualiti data dan tadbir urus, walaupun mereka tidak mahu mengakuinya. Penyeksaan ini terus meningkatkan ketegangan projek dan mengatasi mereka Anda boleh bayangkan bahawa mereka berada di bawah tekanan yang hebat untuk menggunakan rancangan kecerdasan buatan untuk mengekalkan kelebihan daya saing. Malangnya, isu seperti data kotor tidak mungkin dibincangkan di bilik lembaga sehingga ia menyebabkan projek gagal.

Bagaimanakah data buruk mempengaruhi sistem kecerdasan buatan?

Isu kualiti data timbul pada permulaan proses apabila algoritma belajar berdasarkan data latihan. Contohnya, jika algoritma AI diberi data media sosial yang tidak ditapis, ia akan mengeluarkan penyalahgunaan, komen perkauman dan kenyataan misoginis, seperti yang ditunjukkan oleh bot AI Microsoft. Baru-baru ini, ketidakupayaan kecerdasan buatan untuk mengesan orang berkulit gelap juga telah dipersalahkan atas masalah dengan data latihan.

Bagaimanakah ini berkaitan dengan kualiti data?

Kekurangan tadbir urus data, kesedaran yang rendah tentang kualiti data dan pandangan senyap data adalah punca utama kualiti data yang lemah.

Apa yang perlu saya lakukan?

Apabila syarikat menyedari terdapat masalah dengan kualiti data, mereka panik tentang pengambilan pekerja. Dengan mengupah perunding, jurutera dan penganalisis secara membabi buta untuk mendiagnosis dan membersihkan data, dengan harapan dapat menyelesaikan masalah secepat mungkin. Malangnya, beberapa bulan berlalu dan walaupun berjuta-juta dolar dibelanjakan, masalah itu nampaknya tidak hilang. Mengambil pendekatan tanpa henti terhadap isu kualiti data jarang membantu.

Perubahan sebenar bermula di akar umbi.

Jika anda mahu projek AI/ML anda bergerak ke arah yang betul, lakukan tiga langkah utama ini.

Mengiktiraf dan mengakui isu kualiti data

Pertama, menilai kualiti data dengan mewujudkan budaya literasi data. Bill Schmarzo adalah suara yang kuat dalam hal ini, mengesyorkan menggunakan pemikiran reka bentuk untuk mencipta budaya di mana semua orang memahami dan menyumbang kepada matlamat dan cabaran data organisasi.

Dalam persekitaran perniagaan hari ini, data dan kualiti data bukan lagi tanggungjawab sepenuhnya IT atau pasukan data. Pengguna perniagaan mesti menyedari isu seperti isu data kotor dan data yang tidak konsisten dan pendua.

Jadi, mulakan dengan menjadikan latihan kualiti data sebagai usaha organisasi yang dihargai dan memperkasakan pasukan untuk mengenal pasti atribut data yang lemah.

Dengan senarai semak di bawah, anda boleh menggunakannya untuk menjejak kualiti data.

Senarai Semak Kesihatan Data

Bagaimanakah data ditangkap, disimpan dan diuruskan?

Berapa banyak sumber data yang disambungkan ke pangkalan data pusat anda dan sejauh manakah data itu disebarkan?

Sejauh manakah anda mengurus data anda? Adakah anda telah melaksanakan piawaian tadbir urus data? Berapa banyak data berstruktur, separa berstruktur atau tidak berstruktur?

Berapa banyak yang anda belanjakan untuk pembaikan data manual berbanding pengurusan data automatik? Bagaimanakah pasukan anda berkoordinasi antara satu sama lain semasa mengakses dan memproses data? Adakah terdapat konflik dalaman yang kerap antara pengguna IT dan perniagaan?
Bagaimanakah kualiti data anda? Adakah data anda tepat pada masanya, lengkap, tepat, unik dan mengikut peraturan piawai?
Membangunkan rancangan untuk memenuhi metrik kualiti
Perniagaan sering melakukan kesilapan apabila melibatkan isu kualiti data. Sebagai contoh, penganalisis data diupah untuk menyelesaikan tugas pembersihan data rutin dan bukannya menumpukan pada perancangan dan kerja strategik. Sesetengah perniagaan menggunakan alat pengurusan data untuk membersihkan, menyahduplikasi, menyatukan dan membersihkan data tanpa rancangan. Malangnya, alat dan bakat tidak dapat menyelesaikan masalah secara berasingan. Strategi yang memenuhi dimensi kualiti data adalah penyelesaian asas kepada masalah tersebut.

Strategi mesti menyelesaikan masalah pengumpulan data, pelabelan, pemprosesan dan pemadanan data dengan projek AI/ML. Sebagai contoh, jika program pengambilan AI hanya memilih calon lelaki untuk jawatan teknikal, maka data latihan program jelas berat sebelah, tidak lengkap (tidak cukup data tentang calon wanita dikumpul) dan tidak tepat. Oleh itu, data ini tidak memenuhi tujuan sebenar projek AI.

Keperluan untuk kualiti data melangkaui tugas harian membersihkan dan membaiki data. Jadi, integriti data dan piawaian tadbir urus perlu ditetapkan sebelum memulakan sesuatu projek. Ia menyelamatkan projek daripada jatuh ke dalam kegagalan!

Tanya soalan yang betul dan tetapkan akauntabiliti

Tiada standard universal untuk "data atau tahap kualiti data yang cukup baik". Sebaliknya, semuanya bergantung pada sistem pengurusan maklumat perusahaan, garis panduan tadbir urus data, pengetahuan tentang matlamat pasukan dan perniagaan, dan banyak faktor lain.

Tetapi sebelum memulakan projek, terdapat beberapa soalan untuk ditanya kepada pasukan:

Apakah sumber maklumat kami dan apakah kaedah pengumpulan data?
Apakah isu yang boleh memberi kesan kepada proses pengumpulan data dan mengancam hasil yang positif?
Apakah maklumat yang disampaikan oleh data? Adakah ia memenuhi piawaian kualiti data (iaitu maklumat adalah tepat, boleh dipercayai sepenuhnya dan berterusan)?
Adakah orang yang dilantik sedar tentang kepentingan kualiti data dan kualiti rendah?
Adakah peranan dan tanggungjawab ditakrifkan? Sebagai contoh, siapa yang perlu mengekalkan jadual pembersihan data biasa? Siapa yang bertanggungjawab mencipta rekod induk?
Adakah data sesuai untuk tujuan?

Tanya soalan yang betul, tetapkan peranan yang betul, laksanakan standard kualiti data dan bantu pasukan anda menangani cabaran sebelum ia timbul!

Ringkasan

Kualiti data bukan sekadar membetulkan kesilapan atau kesilapan. Ia memastikan bahawa sistem AI tidak bersifat diskriminasi, mengelirukan atau tidak tepat. Sebelum melancarkan projek AI, adalah perlu untuk menangani cabaran kualiti data dengan menangani kelemahan dalam data. Selain itu, lancarkan program literasi data seluruh organisasi untuk menghubungkan setiap pasukan kepada matlamat keseluruhan.

Pengenalan penterjemah

Cui Hao, editor komuniti 51CTO dan arkitek kanan, mempunyai 18 tahun pengalaman pembangunan perisian dan seni bina serta 10 tahun pengalaman seni bina yang diedarkan.

Tajuk asal: Adakah Data Anda Cukup Baik untuk Pelan Pembelajaran Mesin/AI Anda?, pengarang: Farah Kim

Atas ialah kandungan terperinci Bagaimana untuk meningkatkan kualiti data untuk memenuhi keperluan projek AI dengan lebih baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7546

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Bytedance Cutting melancarkan keahlian super SVIP: 499 yuan untuk langganan tahunan berterusan, menyediakan pelbagai fungsi AI Jun 28, 2024 am 03:51 AM

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Pembantu pengekodan AI yang ditambah konteks menggunakan Rag dan Sem-Rag Jun 10, 2024 am 11:08 AM

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Bolehkah penalaan halus benar-benar membolehkan LLM mempelajari perkara baharu: memperkenalkan pengetahuan baharu boleh menjadikan model menghasilkan lebih banyak halusinasi Jun 11, 2024 pm 03:57 PM

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Jun 07, 2024 am 10:06 AM

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Lima sekolah pembelajaran mesin yang anda tidak tahu Jun 05, 2024 pm 08:51 PM

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Pemula AI secara kolektif menukar pekerjaan kepada OpenAI, dan pasukan keselamatan berkumpul semula selepas Ilya pergi! Jun 08, 2024 pm 01:00 PM

Minggu lalu, di tengah gelombang peletakan jawatan dalaman dan kritikan luar, OpenAI dibelenggu oleh masalah dalaman dan luaran: - Pelanggaran kakak balu itu mencetuskan perbincangan hangat global - Pekerja menandatangani "fasal tuan" didedahkan satu demi satu - Netizen menyenaraikan " Ultraman " tujuh dosa maut" ” Pembasmi khabar angin: Menurut maklumat dan dokumen bocor yang diperolehi oleh Vox, kepimpinan kanan OpenAI, termasuk Altman, sangat mengetahui peruntukan pemulihan ekuiti ini dan menandatanganinya. Di samping itu, terdapat isu serius dan mendesak yang dihadapi oleh OpenAI - keselamatan AI. Pemergian lima pekerja berkaitan keselamatan baru-baru ini, termasuk dua pekerjanya yang paling terkemuka, dan pembubaran pasukan "Penjajaran Super" sekali lagi meletakkan isu keselamatan OpenAI dalam perhatian. Majalah Fortune melaporkan bahawa OpenA

Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama Jul 17, 2024 pm 06:37 PM

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

See all articles