Kesan strategi pensampelan set data ke atas prestasi model
Impak strategi pensampelan set data pada prestasi model memerlukan contoh kod khusus
Dengan perkembangan pesat pembelajaran mesin dan pembelajaran mendalam, The kualiti dan saiz set data menjadi semakin penting untuk prestasi model. Dalam aplikasi praktikal, kami sering menghadapi masalah seperti saiz set data yang berlebihan, kategori sampel tidak seimbang dan bunyi bising. Pada masa ini, pilihan strategi persampelan yang munasabah boleh meningkatkan prestasi dan keupayaan generalisasi model. Artikel ini akan membincangkan kesan strategi pensampelan set data yang berbeza pada prestasi model melalui contoh kod tertentu.
- Pensampelan rawak
Pensampelan rawak ialah salah satu strategi pensampelan set data yang paling biasa. Semasa proses latihan, kami secara rawak memilih bahagian tertentu sampel daripada set data sebagai set latihan. Kaedah ini mudah dan intuitif, tetapi ia boleh menyebabkan pengedaran kategori sampel yang tidak seimbang atau kehilangan sampel penting. Berikut ialah kod sampel:
import numpy as np def random_sampling(X, y, sample_ratio): num_samples = int(sample_ratio * X.shape[0]) indices = np.random.choice(X.shape[0], num_samples, replace=False) X_sampled = X[indices] y_sampled = y[indices] return X_sampled, y_sampled
- pensampelan berstrata
Pensampelan berstrata ialah strategi biasa untuk menyelesaikan masalah ketidakseimbangan kelas sampel. Dalam persampelan berstrata, kami menyusun set data mengikut kategori sampel dan memilih perkadaran sampel daripada setiap kategori. Kaedah ini boleh mengekalkan perkadaran setiap kategori dalam set data, dengan itu meningkatkan keupayaan model untuk mengendalikan kategori minoriti. Berikut ialah kod sampel:
from sklearn.model_selection import train_test_split from sklearn.utils import resample def stratified_sampling(X, y, sample_ratio): X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=1-sample_ratio) X_sampled, y_sampled = resample(X_train, y_train, n_samples=int(sample_ratio * X.shape[0])) return X_sampled, y_sampled
- Pensampelan Tepi
Pensampelan tepi ialah strategi biasa untuk menyelesaikan masalah bunyi bising. Dalam pensampelan tepi, kami membahagikan sampel kepada sampel yang boleh dipercayai dan sampel bunyi dengan mempelajari model, dan kemudian hanya memilih sampel yang boleh dipercayai untuk latihan. Berikut ialah kod sampel:
from sklearn.svm import OneClassSVM def margin_sampling(X, y, sample_ratio): clf = OneClassSVM(gamma='scale') clf.fit(X) y_pred = clf.predict(X) reliable_samples = X[y_pred == 1] num_samples = int(sample_ratio * X.shape[0]) indices = np.random.choice(reliable_samples.shape[0], num_samples, replace=False) X_sampled = reliable_samples[indices] y_sampled = y[indices] return X_sampled, y_sampled
Ringkasnya, strategi pensampelan set data yang berbeza mempunyai kesan yang berbeza pada prestasi model. Persampelan rawak boleh dengan mudah dan cepat mendapatkan set latihan, tetapi ia boleh menyebabkan kategori sampel tidak seimbang boleh mengekalkan keseimbangan kategori sampel dan meningkatkan keupayaan model untuk mengendalikan kategori minoriti boleh menapis sampel yang bising dan meningkatkan keteguhan; daripada jantina model. Dalam aplikasi praktikal, kita perlu memilih strategi pensampelan yang sesuai berdasarkan masalah khusus, dan memilih strategi optimum melalui eksperimen dan penilaian untuk meningkatkan prestasi dan keupayaan generalisasi model.
Atas ialah kandungan terperinci Kesan strategi pensampelan set data ke atas prestasi model. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Dalam beberapa tahun kebelakangan ini, model berasaskan pembelajaran mendalam telah menunjukkan prestasi yang baik dalam tugas seperti pengesanan objek dan pengecaman imej. Mengenai set data klasifikasi imej yang mencabar seperti ImageNet, yang mengandungi 1,000 klasifikasi objek berbeza, sesetengah model kini melebihi tahap manusia. Tetapi model ini bergantung pada proses latihan yang diawasi, mereka dipengaruhi dengan ketara oleh ketersediaan data latihan berlabel, dan kelas yang model dapat mengesan adalah terhad kepada kelas yang dilatih. Memandangkan imej berlabel tidak mencukupi untuk semua kelas semasa latihan, model ini mungkin kurang berguna dalam tetapan dunia sebenar. Dan kami mahu model itu dapat mengenali kelas yang tidak pernah dilihat semasa latihan, kerana hampir mustahil untuk melatih imej semua objek berpotensi. Kami akan belajar daripada beberapa sampel

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Selepas model video AI Sora menjadi popular, syarikat utama seperti Meta dan Google telah mengetepikan untuk melakukan penyelidikan dan mengejar OpenAI. Baru-baru ini, penyelidik dari pasukan Google mencadangkan pengekod video universal - VideoPrism. Ia boleh mengendalikan pelbagai tugas pemahaman video melalui satu model beku. Alamat kertas imej: https://arxiv.org/pdf/2402.13217.pdf Contohnya, VideoPrism boleh mengelaskan dan mengesan orang yang meniup lilin dalam video di bawah. Pengambilan teks video imej, berdasarkan kandungan teks, kandungan yang sepadan dalam video boleh diambil semula. Untuk contoh lain, huraikan video di bawah - seorang gadis kecil sedang bermain dengan blok bangunan. Soalan dan jawapan QA juga tersedia.

Pada Januari 2021, OpenAI mengumumkan dua model baharu: DALL-E dan CLIP. Kedua-dua model ialah model multimodal yang menyambungkan teks dan imej dalam beberapa cara. Nama penuh CLIP ialah Pra-latihan Bahasa-Imej Kontrastif (ContrastiveLanguage-Image-Pre-training), yang merupakan kaedah pra-latihan berdasarkan pasangan imej teks yang berbeza. Mengapa memperkenalkan CLIP? Kerana StableDiffusion yang popular pada masa ini bukanlah satu model, tetapi terdiri daripada berbilang model. Salah satu komponen utama ialah pengekod teks, yang digunakan untuk mengekod input teks pengguna ini ialah pengekod teks CL dalam model CLIP.

Mengurai set data menjadi set latihan membantu kami memahami model, yang penting untuk cara model membuat generalisasi kepada data baharu yang tidak kelihatan. Sesuatu model mungkin tidak digeneralisasikan dengan baik kepada data baru yang tidak kelihatan jika ia terlalu dipasang. Oleh itu ramalan yang baik tidak boleh dibuat. Mempunyai strategi pengesahan yang sesuai ialah langkah pertama untuk berjaya mencipta ramalan yang baik dan menggunakan nilai perniagaan model AI Artikel ini telah menyusun beberapa strategi pemisahan data biasa. Pembahagian kereta api dan ujian mudah membahagikan set data kepada bahagian latihan dan pengesahan, dengan 80% latihan dan 20% pengesahan. Anda boleh melakukan ini menggunakan pensampelan rawak Scikit. Pertama, benih rawak perlu diperbaiki, jika tidak, pemisahan data yang sama tidak boleh dibandingkan dan hasilnya tidak boleh dihasilkan semula semasa penyahpepijatan. Jika set data

Masalah melatih rangkaian neural dalam yang besar (DNN) menggunakan set data yang besar merupakan cabaran utama dalam bidang pembelajaran mendalam. Apabila saiz DNN dan set data meningkat, begitu juga keperluan pengiraan dan memori untuk melatih model ini. Ini menjadikannya sukar atau bahkan mustahil untuk melatih model ini pada satu mesin dengan sumber pengkomputeran yang terhad. Beberapa cabaran utama dalam melatih DNN besar menggunakan set data besar termasuk: Masa latihan yang panjang: Proses latihan boleh mengambil masa beberapa minggu atau bahkan beberapa bulan untuk disiapkan, bergantung pada kerumitan model dan saiz set data. Had memori: DNN yang besar mungkin memerlukan jumlah memori yang besar untuk menyimpan semua parameter model, kecerunan dan pengaktifan perantaraan semasa latihan. Ini boleh menyebabkan kesilapan ingatan dan mengehadkan apa yang boleh dilatih pada satu mesin.

Pembelajaran berbilang tugas (MTL) memberikan banyak cabaran kerana kecerunan antara tugas yang berbeza mungkin bercanggah. Untuk mengeksploitasi korelasi antara tugas, penulis memperkenalkan model Mod-Squad, yang merupakan model modular yang terdiri daripada pelbagai pakar. Model ini boleh mengoptimumkan pemadanan tugas dan pakar secara fleksibel, dan memilih beberapa pakar untuk tugas itu. Model ini membolehkan setiap pakar sepadan dengan hanya sebahagian daripada tugas, dan setiap tugas hanya sepadan dengan sebahagian daripada pakar, dengan itu memaksimumkan penggunaan hubungan positif antara tugas. Mod-Squad menyepadukan lapisan Mixture of Experts (MoE) ke dalam model Vision Transformer dan memperkenalkan fungsi kehilangan baharu yang menggalakkan pergantungan yang jarang tetapi kuat antara pakar dan tugas. juga

Jika anda sedang mencari topik yang menarik, Artificial Intelligence (AI) tidak akan mengecewakan anda. Kecerdasan buatan merangkumi satu set algoritma statistik yang kuat dan membengkokkan minda yang boleh bermain catur, mentafsir tulisan tangan yang ceroboh, memahami pertuturan, mengklasifikasikan imej satelit dan banyak lagi. Ketersediaan set data gergasi untuk melatih model pembelajaran mesin telah menjadi salah satu faktor utama dalam kejayaan kecerdasan buatan. Tetapi semua kerja pengiraan ini tidak percuma. Sesetengah pakar AI semakin bimbang tentang kesan alam sekitar yang dikaitkan dengan membina algoritma baharu, perdebatan yang telah mendorong idea baharu tentang cara membuat mesin belajar dengan lebih cekap untuk mengurangkan jejak karbon AI. Kembali ke Bumi Untuk mendapatkan butirannya, kita perlu terlebih dahulu mempertimbangkan beribu-ribu pusat data (bersebaran di seluruh dunia) yang mengendalikan permintaan pengkomputeran kami 24/7.
