Jadual Kandungan
Data tidak berstruktur memerlukan lebih daripada sekadar salin dan tampal
Perkara yang perlu diambil perhatian apabila menggunakan pembelajaran mesin untuk memastikan kualiti data
Rumah Peranti teknologi AI Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin

Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin

Apr 11, 2023 pm 10:07 PM
pembelajaran mesin Set data data tidak berstruktur

​Penterjemah |. Bugatti

Penyemak | Sun Shujuan

Revolusi data sedang rancak. Jumlah data digital yang dicipta dalam tempoh lima tahun akan datang akan menjadi dua kali ganda jumlah data yang dijana setakat ini, dan data tidak berstruktur akan menentukan era baharu pengalaman digital ini.

Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin

Data tidak berstruktur merujuk kepada maklumat yang tidak mengikut model tradisional atau tidak sesuai untuk format pangkalan data berstruktur, mencakupi lebih daripada 80% daripada semua data perusahaan baharu. Untuk bersedia untuk peralihan ini, banyak syarikat sedang mencari cara yang inovatif untuk mengurus, menganalisis dan memanfaatkan sepenuhnya semua data yang tersedia dalam pelbagai alat, termasuk analisis perniagaan dan kecerdasan buatan. Tetapi penggubal dasar juga menghadapi masalah lama: Bagaimana untuk mengekalkan dan meningkatkan kualiti set data yang besar dan sukar digunakan?

Pembelajaran mesin adalah penyelesaiannya. Kemajuan dalam teknologi pembelajaran mesin kini membolehkan organisasi memproses data tidak berstruktur dengan cekap dan meningkatkan usaha jaminan kualiti. Dengan revolusi data yang semakin hampir, di manakah syarikat anda bergelut? Menghadapi sekumpulan data yang berharga tetapi tidak terurus, atau menggunakan data untuk memacu perniagaan anda ke hadapan?

Data tidak berstruktur memerlukan lebih daripada sekadar salin dan tampal

Nilai data yang tepat, tepat pada masanya, konsisten kepada perniagaan moden tidak dapat dipertikaikan dan sama pentingnya dengan pengkomputeran awan dan aplikasi digital. Namun, kualiti data yang lemah menyebabkan syarikat menanggung kos purata $13 juta setahun.

Untuk menyelesaikan masalah data, anda menggunakan kaedah statistik untuk mengukur bentuk data, yang membolehkan pasukan data menjejaki perubahan, menyingkirkan penyimpangan dan menghapuskan hanyutan data. Kawalan berdasarkan kaedah statistik kekal berharga untuk menilai kualiti data dan menentukan bagaimana dan bila set data harus digunakan sebelum keputusan kritikal dibuat. Walaupun kaedah statistik ini berkesan, ia biasanya dikhaskan untuk set data berstruktur, yang sesuai untuk pengukuran objektif dan kuantitatif.

Tetapi bagaimana pula dengan data yang tidak sesuai dengan Microsoft Excel atau Helaian Google? Termasuk:

  • Internet Perkara: data penderia, data stok dan data log
  • Multimedia: foto, audio dan video
  • Media kaya: data geospatial, imejan satelit , data cuaca dan data pengawasan
  • Dokumen: dokumen pemprosesan perkataan, hamparan, pembentangan, e-mel dan data komunikasi

Apabila jenis data tidak berstruktur ini digunakan, Tidak Lengkap atau maklumat yang tidak tepat boleh memasuki model dengan mudah. Jika ralat tidak disedari, masalah data boleh terkumpul, mendatangkan malapetaka pada segala-galanya daripada pelaporan suku tahunan kepada ramalan dan ramalan. Pendekatan salin dan tampal ringkas daripada data berstruktur kepada tidak berstruktur tidak mencukupi dan sebenarnya boleh memburukkan perniagaan anda.

Perkataan biasa "sampah masuk, sampah keluar" sangat sesuai untuk set data tidak berstruktur. Mungkin sudah tiba masanya untuk meninggalkan pendekatan semasa anda terhadap data.

Perkara yang perlu diambil perhatian apabila menggunakan pembelajaran mesin untuk memastikan kualiti data

Apabila mempertimbangkan penyelesaian untuk data tidak berstruktur, pembelajaran mesin harus menjadi pilihan pertama. Ini kerana pembelajaran mesin boleh menganalisis set data yang besar dan mencari corak dalam data yang tidak kemas dengan cepat. Dengan latihan yang betul, model pembelajaran mesin boleh belajar mentafsir, menyusun dan mengelaskan sebarang bentuk jenis data tidak berstruktur.

Sebagai contoh, model pembelajaran mesin boleh belajar untuk mengesyorkan peraturan untuk analisis data, pembersihan dan penskalaan, menjadikan kerja dalam industri seperti penjagaan kesihatan dan insurans lebih cekap dan tepat. Begitu juga, program pembelajaran mesin boleh mengenal pasti dan mengklasifikasikan data teks mengikut topik atau sentimen dalam sumber data tidak berstruktur, seperti yang terdapat di media sosial atau dalam rekod e-mel.

Sambil anda meningkatkan usaha kualiti data anda melalui pembelajaran mesin, ingatlah beberapa pertimbangan utama:

  • Automasikan: Operasi data manual seperti penyahgandingan dan pembetulan data membosankan dan memakan masa. Ia juga merupakan operasi yang semakin usang memandangkan keupayaan automasi hari ini, yang mengurus operasi harian yang membosankan dan membolehkan pasukan data menumpukan pada kerja yang lebih penting dan lebih cekap. Untuk memasukkan automasi ke dalam saluran paip data anda, cuma pastikan anda mempunyai prosedur operasi dan model tadbir urus yang diseragamkan untuk menggalakkan proses yang diperkemas dan boleh diramal di sekeliling sebarang aktiviti automasi.
  • Jangan abaikan pengawasan manusia: Kerumitan data akan sentiasa memerlukan tahap kepakaran dan konteks yang hanya boleh diberikan oleh manusia, sama ada data berstruktur atau tidak berstruktur. Walaupun pembelajaran mesin dan penyelesaian digital lain akan membantu pasukan data, jangan bergantung pada teknologi sahaja. Sebaliknya, memperkasakan pasukan untuk memanfaatkan teknologi sambil menyediakan pengawasan tetap terhadap proses data individu. Kompromi ini boleh membetulkan ralat data yang tidak dapat dikendalikan oleh sebarang langkah teknikal sedia ada. Kemudian, model itu boleh dilatih semula berdasarkan perbezaan ini.
  • Kesan punca: Apabila anomali atau ralat data lain berlaku, ia selalunya bukan satu peristiwa. Jika anda mengabaikan isu yang lebih mendalam semasa mengumpul dan menganalisis data, organisasi anda berisiko menghadapi isu kualiti yang berleluasa sepanjang saluran data anda. Malah inisiatif pembelajaran mesin yang terbaik tidak dapat menangani ralat yang dijana di hulu, dan sekali lagi campur tangan manusia yang terpilih dapat mengukuhkan aliran data keseluruhan dan mencegah ralat yang ketara.
  • Jangan membuat andaian tentang kualiti: Untuk menganalisis kualiti data dari semasa ke semasa, cari cara untuk mengukur data tidak berstruktur secara kualitatif dan bukannya membuat andaian tentang bentuk data. Anda boleh membuat dan menguji senario "bagaimana-jika" untuk membangunkan kaedah pengukuran unik anda sendiri, output yang dijangkakan dan parameter. Menjalankan percubaan dengan data anda menyediakan cara yang pasti untuk mengira kualiti dan prestasi data, dan anda boleh mengukur kualiti data itu sendiri secara automatik. Langkah ini memastikan bahawa kawalan kualiti sentiasa ada dan berfungsi sebagai ciri penting saluran paip pengingesan data, bukannya difikirkan semula.

Data tidak berstruktur ialah khazanah peluang dan cerapan baharu. Walau bagaimanapun, hanya 18% organisasi pada masa ini memanfaatkan data tidak berstruktur mereka, dan kualiti data merupakan salah satu faktor utama yang menghalang lebih banyak perniagaan.

Memandangkan data tidak berstruktur menjadi lebih popular dan lebih relevan kepada keputusan dan operasi perniagaan harian, kawalan kualiti berasaskan pembelajaran mesin memberikan jaminan yang amat diperlukan bahawa data anda adalah relevan dan tepat, berguna. Jika anda tidak terperangkap pada kualiti data, anda boleh komited untuk menggunakan data untuk memajukan syarikat anda.

Fikirkan peluang yang timbul apabila anda mengawal data anda, atau lebih baik lagi, biarkan pembelajaran mesin mengendalikan kerja untuk anda.

Tajuk asal: Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin​ , Pengarang: Edgar Honing​

Atas ialah kandungan terperinci Selesaikan masalah data tidak berstruktur dengan pembelajaran mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Artikel ini akan membawa anda memahami SHAP: penjelasan model untuk pembelajaran mesin Artikel ini akan membawa anda memahami SHAP: penjelasan model untuk pembelajaran mesin Jun 01, 2024 am 10:58 AM

Dalam bidang pembelajaran mesin dan sains data, kebolehtafsiran model sentiasa menjadi tumpuan penyelidik dan pengamal. Dengan aplikasi meluas model yang kompleks seperti kaedah pembelajaran mendalam dan ensemble, memahami proses membuat keputusan model menjadi sangat penting. AI|XAI yang boleh dijelaskan membantu membina kepercayaan dan keyakinan dalam model pembelajaran mesin dengan meningkatkan ketelusan model. Meningkatkan ketelusan model boleh dicapai melalui kaedah seperti penggunaan meluas pelbagai model yang kompleks, serta proses membuat keputusan yang digunakan untuk menerangkan model. Kaedah ini termasuk analisis kepentingan ciri, anggaran selang ramalan model, algoritma kebolehtafsiran tempatan, dsb. Analisis kepentingan ciri boleh menerangkan proses membuat keputusan model dengan menilai tahap pengaruh model ke atas ciri input. Anggaran selang ramalan model

Telus! Analisis mendalam tentang prinsip model pembelajaran mesin utama! Telus! Analisis mendalam tentang prinsip model pembelajaran mesin utama! Apr 12, 2024 pm 05:55 PM

Dalam istilah orang awam, model pembelajaran mesin ialah fungsi matematik yang memetakan data input kepada output yang diramalkan. Secara lebih khusus, model pembelajaran mesin ialah fungsi matematik yang melaraskan parameter model dengan belajar daripada data latihan untuk meminimumkan ralat antara output yang diramalkan dan label sebenar. Terdapat banyak model dalam pembelajaran mesin, seperti model regresi logistik, model pepohon keputusan, model mesin vektor sokongan, dll. Setiap model mempunyai jenis data dan jenis masalah yang berkenaan. Pada masa yang sama, terdapat banyak persamaan antara model yang berbeza, atau terdapat laluan tersembunyi untuk evolusi model. Mengambil perceptron penyambung sebagai contoh, dengan meningkatkan bilangan lapisan tersembunyi perceptron, kita boleh mengubahnya menjadi rangkaian neural yang mendalam. Jika fungsi kernel ditambah pada perceptron, ia boleh ditukar menjadi SVM. yang ini

Kenal pasti overfitting dan underfitting melalui lengkung pembelajaran Kenal pasti overfitting dan underfitting melalui lengkung pembelajaran Apr 29, 2024 pm 06:50 PM

Artikel ini akan memperkenalkan cara mengenal pasti pemasangan lampau dan kekurangan dalam model pembelajaran mesin secara berkesan melalui keluk pembelajaran. Underfitting dan overfitting 1. Overfitting Jika model terlampau latihan pada data sehingga ia mempelajari bunyi daripadanya, maka model tersebut dikatakan overfitting. Model yang dipasang terlebih dahulu mempelajari setiap contoh dengan sempurna sehingga ia akan salah mengklasifikasikan contoh yang tidak kelihatan/baharu. Untuk model terlampau, kami akan mendapat skor set latihan yang sempurna/hampir sempurna dan set pengesahan/skor ujian yang teruk. Diubah suai sedikit: "Punca overfitting: Gunakan model yang kompleks untuk menyelesaikan masalah mudah dan mengekstrak bunyi daripada data. Kerana set data kecil sebagai set latihan mungkin tidak mewakili perwakilan yang betul bagi semua data. 2. Underfitting Heru

Evolusi kecerdasan buatan dalam penerokaan angkasa lepas dan kejuruteraan penempatan manusia Evolusi kecerdasan buatan dalam penerokaan angkasa lepas dan kejuruteraan penempatan manusia Apr 29, 2024 pm 03:25 PM

Pada tahun 1950-an, kecerdasan buatan (AI) dilahirkan. Ketika itulah penyelidik mendapati bahawa mesin boleh melakukan tugas seperti manusia, seperti berfikir. Kemudian, pada tahun 1960-an, Jabatan Pertahanan A.S. membiayai kecerdasan buatan dan menubuhkan makmal untuk pembangunan selanjutnya. Penyelidik sedang mencari aplikasi untuk kecerdasan buatan dalam banyak bidang, seperti penerokaan angkasa lepas dan kelangsungan hidup dalam persekitaran yang melampau. Penerokaan angkasa lepas ialah kajian tentang alam semesta, yang meliputi seluruh alam semesta di luar bumi. Angkasa lepas diklasifikasikan sebagai persekitaran yang melampau kerana keadaannya berbeza daripada di Bumi. Untuk terus hidup di angkasa, banyak faktor mesti dipertimbangkan dan langkah berjaga-jaga mesti diambil. Para saintis dan penyelidik percaya bahawa meneroka ruang dan memahami keadaan semasa segala-galanya boleh membantu memahami cara alam semesta berfungsi dan bersedia untuk menghadapi kemungkinan krisis alam sekitar

Melaksanakan Algoritma Pembelajaran Mesin dalam C++: Cabaran dan Penyelesaian Biasa Melaksanakan Algoritma Pembelajaran Mesin dalam C++: Cabaran dan Penyelesaian Biasa Jun 03, 2024 pm 01:25 PM

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

AI yang boleh dijelaskan: Menerangkan model AI/ML yang kompleks AI yang boleh dijelaskan: Menerangkan model AI/ML yang kompleks Jun 03, 2024 pm 10:08 PM

Penterjemah |. Disemak oleh Li Rui |. Chonglou Model kecerdasan buatan (AI) dan pembelajaran mesin (ML) semakin kompleks hari ini, dan output yang dihasilkan oleh model ini adalah kotak hitam – tidak dapat dijelaskan kepada pihak berkepentingan. AI Boleh Dijelaskan (XAI) bertujuan untuk menyelesaikan masalah ini dengan membolehkan pihak berkepentingan memahami cara model ini berfungsi, memastikan mereka memahami cara model ini sebenarnya membuat keputusan, dan memastikan ketelusan dalam sistem AI, Amanah dan akauntabiliti untuk menyelesaikan masalah ini. Artikel ini meneroka pelbagai teknik kecerdasan buatan (XAI) yang boleh dijelaskan untuk menggambarkan prinsip asasnya. Beberapa sebab mengapa AI boleh dijelaskan adalah penting Kepercayaan dan ketelusan: Untuk sistem AI diterima secara meluas dan dipercayai, pengguna perlu memahami cara keputusan dibuat

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Lima sekolah pembelajaran mesin yang anda tidak tahu Lima sekolah pembelajaran mesin yang anda tidak tahu Jun 05, 2024 pm 08:51 PM

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

See all articles