Jadual Kandungan
Mari kita mulakan dengan set data
Split
Pandangan lain data
Pisah secara menegak
Pecahan hibrid
Pecahan berbilang dimensi
Kesimpulan
Rumah Peranti teknologi AI Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Apr 13, 2023 pm 01:10 PM
pembelajaran mesin data Set data

Satu percubaan untuk memastikan model pembelajaran mesin digeneralisasikan dalam persekitaran yang tidak diketahui adalah dengan memisahkan data. Ini boleh dicapai dalam pelbagai cara, daripada pemisahan 3 hala (kereta api, ujian, penilaian) kepada pemisahan k yang disahkan silang. Prinsip asasnya ialah dengan melatih model pembelajaran mesin pada subset data dan menilainya pada data yang tidak diketahui, anda boleh membuat alasan yang lebih baik tentang sama ada model itu kurang muat atau terlalu muat semasa latihan.

Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Untuk kebanyakan pekerjaan, 3 hala yang mudah sudah memadai. Dalam pengeluaran sebenar, kaedah pemisahan selalunya memerlukan kaedah yang lebih kompleks untuk memastikan isu generalisasi. Pemisahan ini lebih kompleks kerana ia diperoleh daripada data sebenar dan bukannya struktur data yang berasaskan kaedah pemisahan biasa. Artikel ini cuba menerangkan beberapa cara yang tidak konvensional untuk memisahkan data dalam pembangunan pembelajaran mesin, dan sebab di sebaliknya.

Mari kita mulakan dengan set data

Demi kesederhanaan, mari gunakan format jadual untuk mewakili set data siri masa multivariate yang ringkas. Data terdiri daripada 3 ciri berangka, 1 ciri kategori dan 1 ciri cap masa. Berikut ialah visualisasi:

Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Jenis set data ini biasa merentas banyak kes penggunaan dan industri untuk pembelajaran mesin. Contoh khusus ialah data strim masa yang dihantar daripada berbilang penderia di tingkat kilang. Pembolehubah kategori ialah ID mesin, ciri berangka ialah maklumat yang dirakam oleh sensor (cth. tekanan, suhu, dsb.), dan cap masa ialah masa data dipindahkan dan direkodkan dalam pangkalan data.

Split

Andaikan anda menerima set data ini dalam bentuk fail csv daripada jabatan kejuruteraan data dan ditugaskan untuk menulis model klasifikasi atau regresi. Dalam kes ini, label boleh berupa sebarang ciri atau lajur tambahan. Perkara pertama yang perlu dilakukan ialah membahagikan data kepada subset yang bermakna.

Untuk kemudahan, anda boleh membahagikannya kepada set latihan dan set ujian. Serta-merta masalah itu timbul, pemisahan mudah data tidak akan berfungsi di sini: data terdiri daripada berbilang aliran data sensor yang diindeks mengikut masa. Jadi, bagaimana untuk membahagikan data supaya susunan dikekalkan dan model pembelajaran mesin seterusnya digeneralisasikan dengan baik?

Pandangan lain data

Apa yang boleh kita lakukan Transformasi yang paling mudah adalah untuk mewakili data untuk setiap kelas pengelasan (dalam contoh berjalan kami, menggambarkan data untuk setiap mesin). Ini akan menghasilkan keputusan berikut:

Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Pemisahan Mendatar

Pengumpulan menjadikan masalah pemisahan sedikit lebih mudah, dan sebahagian besarnya bergantung kepada hipotesis anda. Anda mungkin bertanya: Bagaimanakah model pembelajaran mesin yang dilatih pada satu kumpulan digeneralisasikan kepada kumpulan lain, iaitu, jika ia dilatih pada aliran masa kelas_1, kelas_2 dan kelas_3, bagaimanakah prestasi model pada aliran masa kelas_4 dan kelas_5? berikut ialah visualisasi pemisahan ini:

Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Kaedah pemisahan di atas ialah apa yang saya panggil pemisahan mendatar. Dalam kebanyakan perpustakaan pembelajaran mesin, pemisahan ini mudah dicapai dengan hanya mengumpulkan mengikut ciri kategori dan pembahagian mengikut kategori. Dengan latihan dengan pemisahan ini, model telah mengumpulkan maklumat yang digeneralisasikan merentas kumpulan yang tidak diketahui.

Perlu diperhatikan bahawa pemisahan tidak menggunakan masa sebagai asas untuk membelah itu sendiri. Walau bagaimanapun, boleh diandaikan bahawa anda juga akan berpecah mengikut susunan masa setiap aliran masa untuk mengekalkan hubungan ini dalam data. Ini membawa kita ke perpecahan seterusnya.

Pisah secara menegak

Tetapi bagaimana jika anda mahu menjangkau masa itu sendiri Untuk kebanyakan pemodelan siri masa, cara biasa untuk memisahkan data adalah masa lalu dan masa hadapan. Iaitu, data sejarah set latihan dibandingkan dengan data set penilaian. Hipotesis dalam kes ini ialah: Bagaimanakah model pembelajaran mesin yang dilatih pada data sejarah setiap kumpulan digeneralisasikan kepada data masa hadapan setiap kumpulan Soalan ini boleh dijawab dengan apa yang dipanggil pemisahan menegak:

Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Latihan yang berjaya bagi perpecahan ini akan menunjukkan bahawa model itu dapat mengekstrak corak dalam aliran masa yang telah dilihatnya dan membuat ramalan yang tepat tentang tingkah laku masa hadapan. Walau bagaimanapun, ini dengan sendirinya tidak menunjukkan bahawa model itu digeneralisasikan dengan baik kepada aliran temporal lain daripada kumpulan yang berbeza.

Sudah tentu, strim masa berbilang anda kini mesti diisih secara individu, jadi kami masih perlu mengumpulkan. Tetapi kali ini, bukannya menyeberangi kumpulan, kami mengambil sampel daripada setiap kumpulan pada masa lalu dan memasukkannya ke dalam kereta api, dan meletakkan kumpulan masa depan ke dalam eval sewajarnya. Dalam contoh ideal ini, semua aliran masa mempunyai panjang yang sama, iaitu setiap aliran masa mempunyai bilangan titik data yang sama. Walau bagaimanapun, dalam dunia nyata, ini mungkin tidak berlaku - jadi anda memerlukan sistem untuk mengindeks setiap kumpulan untuk pemisahan.

Pecahan hibrid

Anda mungkin tertanya-tanya, bolehkah mereka menjana model yang boleh digeneralisasikan dengan baik di bawah kekangan pemisahan mendatar dan menegak? Dalam kes ini, hipotesisnya ialah: Bagaimanakah model pembelajaran mesin yang dilatih pada beberapa kumpulan data sejarah digeneralisasikan kepada data masa depan kumpulan ini dan kepada semua data kumpulan lain Visualisasi pembahagian hibrid ini akan kelihatan seperti ini:

Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa

Sudah tentu, jika latihan model berjaya, model ini pasti akan lebih mantap di dunia nyata berbanding model lain. Ia bukan sahaja dapat menunjukkan bahawa ia telah melihat corak pembelajaran untuk beberapa kumpulan, tetapi ia juga boleh menunjukkan bahawa ia telah memperoleh maklumat yang umum merentas kumpulan. Ini boleh berguna jika kami menambah lebih banyak mesin serupa ke kilang pada masa hadapan.

Pecahan berbilang dimensi

Konsep pembelahan mendatar dan menegak boleh digeneralisasikan kepada banyak dimensi. Sebagai contoh, anda mungkin mahu mengumpulkan berdasarkan dua ciri kategori dan bukannya satu untuk mengasingkan lagi subkumpulan dalam data anda dan mengisihnya mengikut subkumpulan. Mungkin juga terdapat logik kompleks di tengah untuk menapis kumpulan dengan saiz sampel yang kecil, serta logik peringkat perniagaan lain yang berkaitan dengan domain.

Kesimpulan

Contoh hipotetikal ini berfungsi untuk menggambarkan kemungkinan tidak berkesudahan pelbagai pemisahan pembelajaran mesin yang boleh dibuat. Sama seperti pentingnya untuk memastikan kesaksamaan dalam pembelajaran mesin semasa menilai model, sama pentingnya untuk meluangkan masa yang mencukupi untuk mempertimbangkan membahagikan set data anda dan akibatnya untuk membiaskan model hiliran.

Atas ialah kandungan terperinci Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Artikel ini akan membawa anda memahami SHAP: penjelasan model untuk pembelajaran mesin Artikel ini akan membawa anda memahami SHAP: penjelasan model untuk pembelajaran mesin Jun 01, 2024 am 10:58 AM

Dalam bidang pembelajaran mesin dan sains data, kebolehtafsiran model sentiasa menjadi tumpuan penyelidik dan pengamal. Dengan aplikasi meluas model yang kompleks seperti kaedah pembelajaran mendalam dan ensemble, memahami proses membuat keputusan model menjadi sangat penting. AI|XAI yang boleh dijelaskan membantu membina kepercayaan dan keyakinan dalam model pembelajaran mesin dengan meningkatkan ketelusan model. Meningkatkan ketelusan model boleh dicapai melalui kaedah seperti penggunaan meluas pelbagai model yang kompleks, serta proses membuat keputusan yang digunakan untuk menerangkan model. Kaedah ini termasuk analisis kepentingan ciri, anggaran selang ramalan model, algoritma kebolehtafsiran tempatan, dsb. Analisis kepentingan ciri boleh menerangkan proses membuat keputusan model dengan menilai tahap pengaruh model ke atas ciri input. Anggaran selang ramalan model

Kenal pasti overfitting dan underfitting melalui lengkung pembelajaran Kenal pasti overfitting dan underfitting melalui lengkung pembelajaran Apr 29, 2024 pm 06:50 PM

Artikel ini akan memperkenalkan cara mengenal pasti pemasangan lampau dan kekurangan dalam model pembelajaran mesin secara berkesan melalui keluk pembelajaran. Underfitting dan overfitting 1. Overfitting Jika model terlampau latihan pada data sehingga ia mempelajari bunyi daripadanya, maka model tersebut dikatakan overfitting. Model yang dipasang terlebih dahulu mempelajari setiap contoh dengan sempurna sehingga ia akan salah mengklasifikasikan contoh yang tidak kelihatan/baharu. Untuk model terlampau, kami akan mendapat skor set latihan yang sempurna/hampir sempurna dan set pengesahan/skor ujian yang teruk. Diubah suai sedikit: "Punca overfitting: Gunakan model yang kompleks untuk menyelesaikan masalah mudah dan mengekstrak bunyi daripada data. Kerana set data kecil sebagai set latihan mungkin tidak mewakili perwakilan yang betul bagi semua data. 2. Underfitting Heru

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

Melaksanakan Algoritma Pembelajaran Mesin dalam C++: Cabaran dan Penyelesaian Biasa Melaksanakan Algoritma Pembelajaran Mesin dalam C++: Cabaran dan Penyelesaian Biasa Jun 03, 2024 pm 01:25 PM

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

AI yang boleh dijelaskan: Menerangkan model AI/ML yang kompleks AI yang boleh dijelaskan: Menerangkan model AI/ML yang kompleks Jun 03, 2024 pm 10:08 PM

Penterjemah |. Disemak oleh Li Rui |. Chonglou Model kecerdasan buatan (AI) dan pembelajaran mesin (ML) semakin kompleks hari ini, dan output yang dihasilkan oleh model ini adalah kotak hitam – tidak dapat dijelaskan kepada pihak berkepentingan. AI Boleh Dijelaskan (XAI) bertujuan untuk menyelesaikan masalah ini dengan membolehkan pihak berkepentingan memahami cara model ini berfungsi, memastikan mereka memahami cara model ini sebenarnya membuat keputusan, dan memastikan ketelusan dalam sistem AI, Amanah dan akauntabiliti untuk menyelesaikan masalah ini. Artikel ini meneroka pelbagai teknik kecerdasan buatan (XAI) yang boleh dijelaskan untuk menggambarkan prinsip asasnya. Beberapa sebab mengapa AI boleh dijelaskan adalah penting Kepercayaan dan ketelusan: Untuk sistem AI diterima secara meluas dan dipercayai, pengguna perlu memahami cara keputusan dibuat

See all articles