Jadual Kandungan
Untuk memahami jumlah data yang anda perlukan, anda mesti terlebih dahulu memahami di mana data berada dalam struktur lokasi projek AI. Satu cara visual untuk membantu kami memahami peningkatan nilai yang kami peroleh daripada data ialah "Piramid DIKUW" (kadangkala dipanggil "Piramid DIKW"), yang menunjukkan bagaimana asas data boleh diubah melalui maklumat, pengetahuan, pemahaman dan kebijaksanaan nilai yang lebih besar.
Data besar telah mengajar kami cara mengendalikan jumlah data yang besar. Bukan sahaja bagaimana data disimpan, tetapi bagaimana semua data itu diproses, dimanipulasi dan dianalisis. Pembelajaran mesin menambah lebih banyak nilai dengan memproses pelbagai jenis data tidak berstruktur, separa berstruktur atau berstruktur yang dikumpulkan oleh organisasi. Sememangnya, gelombang AI baru-baru ini sebenarnya adalah gelombang analitik dipacu data besar.
3. Terlalu banyak data yang salah dan data yang tidak mencukupi membunuh projek AI
Rumah Peranti teknologi AI Pernahkah anda membuat kesilapan maut ini dalam projek AI?

Pernahkah anda membuat kesilapan maut ini dalam projek AI?

Apr 20, 2023 am 08:10 AM
projek ai data

​Penterjemah |. Bugatti

Penilai |. mengejutkan bahawa sistem memerlukan data yang cukup baik untuk dipelajari. Sejumlah besar data berkualiti tinggi biasanya diperlukan, terutamanya untuk kaedah pembelajaran yang diselia, untuk melatih sistem AI atau ML dengan betul. Jumlah data yang diperlukan bergantung pada model AI yang dilaksanakan, algoritma yang digunakan dan faktor lain seperti data dalaman dan data pihak ketiga. Sebagai contoh, rangkaian saraf memerlukan sejumlah besar data untuk dilatih, manakala pepohon keputusan atau pengelas Bayesian tidak memerlukan banyak data untuk mendapatkan hasil yang berkualiti tinggi.

Jadi, anda mungkin fikir lebih banyak data adalah lebih baik, bukan? Sila fikir semula. Organisasi dengan jumlah data yang besar (walaupun exabait data) menyedari bahawa mempunyai lebih banyak data tidak menyelesaikan masalah seperti yang diharapkan. Sesungguhnya, dengan lebih banyak data datang lebih banyak soalan. Lebih banyak data yang anda ada, lebih banyak data yang perlu anda bersihkan dan sediakan, lebih banyak data yang anda perlukan untuk label dan uruskan, lebih banyak data yang anda perlukan untuk melindungi, melindungi, mengurangkan berat sebelah dan langkah lain. Apabila anda mula meningkatkan jumlah data, projek kecil boleh bertukar menjadi besar dengan cepat. Malah, sejumlah besar data sering membunuh projek.

Jelas sekali, langkah yang hilang antara mengenal pasti masalah perniagaan dan mengatur data untuk menyelesaikan masalah itu ialah menentukan data yang diperlukan dan berapa banyak yang sebenarnya diperlukan. Anda memerlukan data yang mencukupi, tetapi tidak mempunyai terlalu banyak: tidak lebih, tidak kurang, tepat. Malangnya, organisasi sering melompat ke dalam projek AI tanpa memahami data. Organisasi perlu menjawab banyak soalan, termasuk mencari tahu di mana data itu, berapa banyak data yang sudah ada, dalam keadaan apa ia, ciri data manakah yang paling penting, penggunaan dalaman dan luaran data, cabaran capaian data, keperluan untuk meningkatkan data sedia ada, dan faktor dan persoalan utama lain. Tanpa menjawab soalan-soalan ini, projek AI mungkin gagal atau bahkan tenggelam dalam lautan data.

1 Memahami data dengan lebih baik

Untuk memahami jumlah data yang anda perlukan, anda mesti terlebih dahulu memahami di mana data berada dalam struktur lokasi projek AI. Satu cara visual untuk membantu kami memahami peningkatan nilai yang kami peroleh daripada data ialah "Piramid DIKUW" (kadangkala dipanggil "Piramid DIKW"), yang menunjukkan bagaimana asas data boleh diubah melalui maklumat, pengetahuan, pemahaman dan kebijaksanaan nilai yang lebih besar.

Dengan asas data yang kukuh, anda boleh mendapatkan cerapan yang lebih mendalam pada lapisan maklumat seterusnya, yang boleh membantu anda menjawab soalan asas tentang data tersebut. Setelah anda membuat perkaitan asas antara data untuk mendapatkan cerapan maklumat, anda boleh mencari corak dalam maklumat tersebut dan memahami cara cebisan maklumat bersambung bersama untuk mendapatkan cerapan yang lebih mendalam. Organisasi boleh memperoleh lebih nilai dengan membina lapisan pengetahuan dan memahami sebab corak ini berlaku, membantu memahami corak asas. Akhir sekali, anda boleh mendapatkan nilai tertinggi daripada maklumat di peringkat kecerdasan dengan memahami secara mendalam sebab dan akibat keputusan maklumat.

Gelombang AI terbaharu ini paling memfokuskan pada lapisan pengetahuan, kerana pembelajaran mesin memberikan cerapan untuk mengenal pasti corak di atas lapisan maklumat. Malangnya, pembelajaran mesin mengalami hambatan pada lapisan pemahaman, kerana mencari corak tidak mencukupi untuk membuat inferens. Kami mempunyai pembelajaran mesin, tetapi kami tidak mempunyai penaakulan mesin untuk memahami sebab corak berlaku. Anda melihat had ini setiap kali anda berinteraksi dengan chatbot. Walaupun pemprosesan bahasa semula jadi berasaskan pembelajaran mesin (NLP) sangat baik dalam memahami pertuturan manusia dan menyimpulkan niat, ia menghadapi batasan apabila cuba memahami dan menaakul. Sebagai contoh, jika anda bertanya kepada pembantu suara jika anda ingin memakai baju hujan esok, ia tidak faham bahawa anda bertanya tentang cuaca. Terpulang kepada manusia untuk memberikan cerapan ini kepada mesin kerana pembantu suara tidak tahu apa sebenarnya hujan.

2. Sentiasa sedar data untuk mengelakkan kegagalan

Data besar telah mengajar kami cara mengendalikan jumlah data yang besar. Bukan sahaja bagaimana data disimpan, tetapi bagaimana semua data itu diproses, dimanipulasi dan dianalisis. Pembelajaran mesin menambah lebih banyak nilai dengan memproses pelbagai jenis data tidak berstruktur, separa berstruktur atau berstruktur yang dikumpulkan oleh organisasi. Sememangnya, gelombang AI baru-baru ini sebenarnya adalah gelombang analitik dipacu data besar.

Tetapi atas sebab inilah sesetengah organisasi mengalami kerugian besar apabila melibatkan AI. Daripada menjalankan projek AI dari perspektif tertumpu data, mereka menumpukan pada aspek fungsi. Untuk menavigasi projek AI dan mengelakkan kesilapan yang membawa maut, organisasi mesti lebih memahami bukan sahaja AI dan pembelajaran mesin, tetapi juga beberapa "V" data besar. Ia bukan hanya tentang jumlah data yang ada, tetapi juga tentang sifat data. Beberapa V data besar termasuk:

  • Kuantiti: Jumlah mutlak data besar yang dimiliki.
  • Kelajuan: Kepantasan perubahan data besar. Berjaya menggunakan AI bermakna menggunakan AI pada data berkelajuan tinggi.
  • Kepelbagaian: Data boleh datang dalam pelbagai format, termasuk data berstruktur seperti pangkalan data, data separa berstruktur seperti invois dan data tidak berstruktur seperti e-mel, imej dan fail video. Sistem AI yang berjaya boleh mengendalikan kepelbagaian ini.
  • Keaslian: Ini merujuk kepada kualiti dan ketepatan data dan sejauh mana anda mempercayai data tersebut. Sampah masuk, sampah keluar, terutamanya dalam sistem AI dipacu data. Oleh itu, sistem AI yang berjaya perlu dapat mengendalikan kualiti data yang berbeza-beza secara meluas.

Dengan pengalaman berdekad-dekad mengurus projek data besar, organisasi yang berjaya dalam AI pada dasarnya telah berjaya dalam data besar. Organisasi yang telah melihat projek AI gagal sering mendekati masalah AI dengan pemikiran pembangunan aplikasi.

3. Terlalu banyak data yang salah dan data yang tidak mencukupi membunuh projek AI

Walaupun projek AI bermula dengan betul, kekurangan data yang diperlukan, kekurangan pemahaman , dan kekurangan Menyelesaikan masalah sebenar membunuh projek AI. Organisasi terus bergerak ke hadapan tanpa pemahaman sebenar tentang data dan kualiti data yang diperlukan, yang mewujudkan cabaran sebenar.

Salah satu sebab organisasi membuat kesilapan data ini ialah mereka tidak mempunyai sebarang pendekatan sebenar terhadap projek AI selain menggunakan metodologi pembangunan aplikasi yang tangkas atau. Namun organisasi yang berjaya telah menyedari bahawa menggunakan pendekatan data-centric termasuk pemahaman data sebagai peringkat pertama pendekatan projek. Pendekatan CRISP-DM, yang telah wujud selama lebih daripada 20 tahun, menentukan pemahaman data sebagai langkah seterusnya selepas keperluan perniagaan dikenal pasti. Berdasarkan CRISP-DM dan digabungkan dengan kaedah tangkas, pendekatan Pengurusan Projek Kognitif dengan AI (CPMAI) memerlukan pemahaman data dalam fasa kedua. Pendekatan lain yang berjaya juga memerlukan pemahaman data awal dalam projek, kerana projek AI, selepas semua, projek data. Bagaimanakah anda membina program yang berjaya pada data jika anda mendekatinya tanpa memahami data? Ini pasti kesilapan maut yang anda ingin elakkan.

Pautan asal: https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your -ai-projects/?sh=352955946b54

Atas ialah kandungan terperinci Pernahkah anda membuat kesilapan maut ini dalam projek AI?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Memeriksa Konfigurasi HDFS CentOS Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Baris arahan shutdown centos Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Apakah kaedah sandaran untuk gitlab di centos Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

CentOS memasang MySQL CentOS memasang MySQL Apr 14, 2025 pm 08:09 PM

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Apr 14, 2025 pm 06:36 PM

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

Penjelasan terperinci mengenai Prinsip Docker Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Cara Melihat Log Gitlab Di Bawah Centos Cara Melihat Log Gitlab Di Bawah Centos Apr 14, 2025 pm 06:18 PM

Panduan Lengkap untuk Melihat Log Gitlab Di bawah Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk melihat pelbagai log Gitlab dalam sistem CentOS, termasuk log utama, log pengecualian, dan log lain yang berkaitan. Sila ambil perhatian bahawa laluan fail log mungkin berbeza -beza bergantung pada versi GitLab dan kaedah pemasangan. Jika laluan berikut tidak wujud, sila semak fail Direktori Pemasangan dan Konfigurasi GitLab. 1. Lihat log Gitlab utama Gunakan arahan berikut untuk melihat fail log utama aplikasi GitLabRails: Perintah: Sudocat/var/Log/Gitlab/Gitlab-Rails/Production.log Perintah ini akan memaparkan produk

Bagaimana sokongan GPU untuk Pytorch di CentOS Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

See all articles