


Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa
Satu percubaan untuk memastikan model pembelajaran mesin digeneralisasikan dalam persekitaran yang tidak diketahui adalah dengan memisahkan data. Ini boleh dicapai dalam pelbagai cara, daripada pemisahan 3 hala (kereta api, ujian, penilaian) kepada pemisahan k yang disahkan silang. Prinsip asasnya ialah dengan melatih model pembelajaran mesin pada subset data dan menilainya pada data yang tidak diketahui, anda boleh membuat alasan yang lebih baik tentang sama ada model itu kurang muat atau terlalu muat semasa latihan.
Untuk kebanyakan pekerjaan, 3 hala yang mudah sudah memadai. Dalam pengeluaran sebenar, kaedah pemisahan selalunya memerlukan kaedah yang lebih kompleks untuk memastikan isu generalisasi. Pemisahan ini lebih kompleks kerana ia diperoleh daripada data sebenar dan bukannya struktur data yang berasaskan kaedah pemisahan biasa. Artikel ini cuba menerangkan beberapa cara yang tidak konvensional untuk memisahkan data dalam pembangunan pembelajaran mesin, dan sebab di sebaliknya.
Mari kita mulakan dengan set data
Demi kesederhanaan, mari gunakan format jadual untuk mewakili set data siri masa multivariate yang ringkas. Data terdiri daripada 3 ciri berangka, 1 ciri kategori dan 1 ciri cap masa. Berikut ialah visualisasi:
Jenis set data ini biasa merentas banyak kes penggunaan dan industri untuk pembelajaran mesin. Contoh khusus ialah data strim masa yang dihantar daripada berbilang penderia di tingkat kilang. Pembolehubah kategori ialah ID mesin, ciri berangka ialah maklumat yang dirakam oleh sensor (cth. tekanan, suhu, dsb.), dan cap masa ialah masa data dipindahkan dan direkodkan dalam pangkalan data.
Split
Andaikan anda menerima set data ini dalam bentuk fail csv daripada jabatan kejuruteraan data dan ditugaskan untuk menulis model klasifikasi atau regresi. Dalam kes ini, label boleh berupa sebarang ciri atau lajur tambahan. Perkara pertama yang perlu dilakukan ialah membahagikan data kepada subset yang bermakna.
Untuk kemudahan, anda boleh membahagikannya kepada set latihan dan set ujian. Serta-merta masalah itu timbul, pemisahan mudah data tidak akan berfungsi di sini: data terdiri daripada berbilang aliran data sensor yang diindeks mengikut masa. Jadi, bagaimana untuk membahagikan data supaya susunan dikekalkan dan model pembelajaran mesin seterusnya digeneralisasikan dengan baik?
Pandangan lain data
Apa yang boleh kita lakukan Transformasi yang paling mudah adalah untuk mewakili data untuk setiap kelas pengelasan (dalam contoh berjalan kami, menggambarkan data untuk setiap mesin). Ini akan menghasilkan keputusan berikut:
Pemisahan Mendatar
Pengumpulan menjadikan masalah pemisahan sedikit lebih mudah, dan sebahagian besarnya bergantung kepada hipotesis anda. Anda mungkin bertanya: Bagaimanakah model pembelajaran mesin yang dilatih pada satu kumpulan digeneralisasikan kepada kumpulan lain, iaitu, jika ia dilatih pada aliran masa kelas_1, kelas_2 dan kelas_3, bagaimanakah prestasi model pada aliran masa kelas_4 dan kelas_5? berikut ialah visualisasi pemisahan ini:
Kaedah pemisahan di atas ialah apa yang saya panggil pemisahan mendatar. Dalam kebanyakan perpustakaan pembelajaran mesin, pemisahan ini mudah dicapai dengan hanya mengumpulkan mengikut ciri kategori dan pembahagian mengikut kategori. Dengan latihan dengan pemisahan ini, model telah mengumpulkan maklumat yang digeneralisasikan merentas kumpulan yang tidak diketahui.
Perlu diperhatikan bahawa pemisahan tidak menggunakan masa sebagai asas untuk membelah itu sendiri. Walau bagaimanapun, boleh diandaikan bahawa anda juga akan berpecah mengikut susunan masa setiap aliran masa untuk mengekalkan hubungan ini dalam data. Ini membawa kita ke perpecahan seterusnya.
Pisah secara menegak
Tetapi bagaimana jika anda mahu menjangkau masa itu sendiri Untuk kebanyakan pemodelan siri masa, cara biasa untuk memisahkan data adalah masa lalu dan masa hadapan. Iaitu, data sejarah set latihan dibandingkan dengan data set penilaian. Hipotesis dalam kes ini ialah: Bagaimanakah model pembelajaran mesin yang dilatih pada data sejarah setiap kumpulan digeneralisasikan kepada data masa hadapan setiap kumpulan Soalan ini boleh dijawab dengan apa yang dipanggil pemisahan menegak:
Sudah tentu, strim masa berbilang anda kini mesti diisih secara individu, jadi kami masih perlu mengumpulkan. Tetapi kali ini, bukannya menyeberangi kumpulan, kami mengambil sampel daripada setiap kumpulan pada masa lalu dan memasukkannya ke dalam kereta api, dan meletakkan kumpulan masa depan ke dalam eval sewajarnya. Dalam contoh ideal ini, semua aliran masa mempunyai panjang yang sama, iaitu setiap aliran masa mempunyai bilangan titik data yang sama. Walau bagaimanapun, dalam dunia nyata, ini mungkin tidak berlaku - jadi anda memerlukan sistem untuk mengindeks setiap kumpulan untuk pemisahan.
Pecahan hibrid
Anda mungkin tertanya-tanya, bolehkah mereka menjana model yang boleh digeneralisasikan dengan baik di bawah kekangan pemisahan mendatar dan menegak? Dalam kes ini, hipotesisnya ialah: Bagaimanakah model pembelajaran mesin yang dilatih pada beberapa kumpulan data sejarah digeneralisasikan kepada data masa depan kumpulan ini dan kepada semua data kumpulan lain Visualisasi pembahagian hibrid ini akan kelihatan seperti ini:
Sudah tentu, jika latihan model berjaya, model ini pasti akan lebih mantap di dunia nyata berbanding model lain. Ia bukan sahaja dapat menunjukkan bahawa ia telah melihat corak pembelajaran untuk beberapa kumpulan, tetapi ia juga boleh menunjukkan bahawa ia telah memperoleh maklumat yang umum merentas kumpulan. Ini boleh berguna jika kami menambah lebih banyak mesin serupa ke kilang pada masa hadapan.
Pecahan berbilang dimensi
Konsep pembelahan mendatar dan menegak boleh digeneralisasikan kepada banyak dimensi. Sebagai contoh, anda mungkin mahu mengumpulkan berdasarkan dua ciri kategori dan bukannya satu untuk mengasingkan lagi subkumpulan dalam data anda dan mengisihnya mengikut subkumpulan. Mungkin juga terdapat logik kompleks di tengah untuk menapis kumpulan dengan saiz sampel yang kecil, serta logik peringkat perniagaan lain yang berkaitan dengan domain.
Kesimpulan
Contoh hipotetikal ini berfungsi untuk menggambarkan kemungkinan tidak berkesudahan pelbagai pemisahan pembelajaran mesin yang boleh dibuat. Sama seperti pentingnya untuk memastikan kesaksamaan dalam pembelajaran mesin semasa menilai model, sama pentingnya untuk meluangkan masa yang mencukupi untuk mempertimbangkan membahagikan set data anda dan akibatnya untuk membiaskan model hiliran.
Atas ialah kandungan terperinci Teknik Pemisahan Bukan Konvensional untuk Set Data Pembelajaran Mesin Siri Masa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Dalam bidang pembelajaran mesin dan sains data, kebolehtafsiran model sentiasa menjadi tumpuan penyelidik dan pengamal. Dengan aplikasi meluas model yang kompleks seperti kaedah pembelajaran mendalam dan ensemble, memahami proses membuat keputusan model menjadi sangat penting. AI|XAI yang boleh dijelaskan membantu membina kepercayaan dan keyakinan dalam model pembelajaran mesin dengan meningkatkan ketelusan model. Meningkatkan ketelusan model boleh dicapai melalui kaedah seperti penggunaan meluas pelbagai model yang kompleks, serta proses membuat keputusan yang digunakan untuk menerangkan model. Kaedah ini termasuk analisis kepentingan ciri, anggaran selang ramalan model, algoritma kebolehtafsiran tempatan, dsb. Analisis kepentingan ciri boleh menerangkan proses membuat keputusan model dengan menilai tahap pengaruh model ke atas ciri input. Anggaran selang ramalan model

Artikel ini akan memperkenalkan cara mengenal pasti pemasangan lampau dan kekurangan dalam model pembelajaran mesin secara berkesan melalui keluk pembelajaran. Underfitting dan overfitting 1. Overfitting Jika model terlampau latihan pada data sehingga ia mempelajari bunyi daripadanya, maka model tersebut dikatakan overfitting. Model yang dipasang terlebih dahulu mempelajari setiap contoh dengan sempurna sehingga ia akan salah mengklasifikasikan contoh yang tidak kelihatan/baharu. Untuk model terlampau, kami akan mendapat skor set latihan yang sempurna/hampir sempurna dan set pengesahan/skor ujian yang teruk. Diubah suai sedikit: "Punca overfitting: Gunakan model yang kompleks untuk menyelesaikan masalah mudah dan mengekstrak bunyi daripada data. Kerana set data kecil sebagai set latihan mungkin tidak mewakili perwakilan yang betul bagi semua data. 2. Underfitting Heru

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Penterjemah |. Disemak oleh Li Rui |. Chonglou Model kecerdasan buatan (AI) dan pembelajaran mesin (ML) semakin kompleks hari ini, dan output yang dihasilkan oleh model ini adalah kotak hitam – tidak dapat dijelaskan kepada pihak berkepentingan. AI Boleh Dijelaskan (XAI) bertujuan untuk menyelesaikan masalah ini dengan membolehkan pihak berkepentingan memahami cara model ini berfungsi, memastikan mereka memahami cara model ini sebenarnya membuat keputusan, dan memastikan ketelusan dalam sistem AI, Amanah dan akauntabiliti untuk menyelesaikan masalah ini. Artikel ini meneroka pelbagai teknik kecerdasan buatan (XAI) yang boleh dijelaskan untuk menggambarkan prinsip asasnya. Beberapa sebab mengapa AI boleh dijelaskan adalah penting Kepercayaan dan ketelusan: Untuk sistem AI diterima secara meluas dan dipercayai, pengguna perlu memahami cara keputusan dibuat
