Rumah Peranti teknologi AI Kesan strategi pensampelan set data ke atas prestasi model

Kesan strategi pensampelan set data ke atas prestasi model

Oct 09, 2023 am 08:01 AM
Set data Strategi persampelan Prestasi model

Kesan strategi pensampelan set data ke atas prestasi model

Impak strategi pensampelan set data pada prestasi model memerlukan contoh kod khusus

Dengan perkembangan pesat pembelajaran mesin dan pembelajaran mendalam, The kualiti dan saiz set data menjadi semakin penting untuk prestasi model. Dalam aplikasi praktikal, kami sering menghadapi masalah seperti saiz set data yang berlebihan, kategori sampel tidak seimbang dan bunyi bising. Pada masa ini, pilihan strategi persampelan yang munasabah boleh meningkatkan prestasi dan keupayaan generalisasi model. Artikel ini akan membincangkan kesan strategi pensampelan set data yang berbeza pada prestasi model melalui contoh kod tertentu.

  1. Pensampelan rawak
    Pensampelan rawak ialah salah satu strategi pensampelan set data yang paling biasa. Semasa proses latihan, kami secara rawak memilih bahagian tertentu sampel daripada set data sebagai set latihan. Kaedah ini mudah dan intuitif, tetapi ia boleh menyebabkan pengedaran kategori sampel yang tidak seimbang atau kehilangan sampel penting. Berikut ialah kod sampel:
import numpy as np

def random_sampling(X, y, sample_ratio):
    num_samples = int(sample_ratio * X.shape[0])
    indices = np.random.choice(X.shape[0], num_samples, replace=False)
    X_sampled = X[indices]
    y_sampled = y[indices]
    return X_sampled, y_sampled
Salin selepas log masuk
  1. pensampelan berstrata
    Pensampelan berstrata ialah strategi biasa untuk menyelesaikan masalah ketidakseimbangan kelas sampel. Dalam persampelan berstrata, kami menyusun set data mengikut kategori sampel dan memilih perkadaran sampel daripada setiap kategori. Kaedah ini boleh mengekalkan perkadaran setiap kategori dalam set data, dengan itu meningkatkan keupayaan model untuk mengendalikan kategori minoriti. Berikut ialah kod sampel:
from sklearn.model_selection import train_test_split
from sklearn.utils import resample

def stratified_sampling(X, y, sample_ratio):
    X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=1-sample_ratio)
    X_sampled, y_sampled = resample(X_train, y_train, n_samples=int(sample_ratio * X.shape[0]))
    return X_sampled, y_sampled
Salin selepas log masuk
  1. Pensampelan Tepi
    Pensampelan tepi ialah strategi biasa untuk menyelesaikan masalah bunyi bising. Dalam pensampelan tepi, kami membahagikan sampel kepada sampel yang boleh dipercayai dan sampel bunyi dengan mempelajari model, dan kemudian hanya memilih sampel yang boleh dipercayai untuk latihan. Berikut ialah kod sampel:
from sklearn.svm import OneClassSVM

def margin_sampling(X, y, sample_ratio):
    clf = OneClassSVM(gamma='scale')
    clf.fit(X)
    y_pred = clf.predict(X)
    reliable_samples = X[y_pred == 1]
    num_samples = int(sample_ratio * X.shape[0])
    indices = np.random.choice(reliable_samples.shape[0], num_samples, replace=False)
    X_sampled = reliable_samples[indices]
    y_sampled = y[indices]
    return X_sampled, y_sampled
Salin selepas log masuk

Ringkasnya, strategi pensampelan set data yang berbeza mempunyai kesan yang berbeza pada prestasi model. Persampelan rawak boleh dengan mudah dan cepat mendapatkan set latihan, tetapi ia boleh menyebabkan kategori sampel tidak seimbang boleh mengekalkan keseimbangan kategori sampel dan meningkatkan keupayaan model untuk mengendalikan kategori minoriti boleh menapis sampel yang bising dan meningkatkan keteguhan; daripada jantina model. Dalam aplikasi praktikal, kita perlu memilih strategi pensampelan yang sesuai berdasarkan masalah khusus, dan memilih strategi optimum melalui eksperimen dan penilaian untuk meningkatkan prestasi dan keupayaan generalisasi model.

Atas ialah kandungan terperinci Kesan strategi pensampelan set data ke atas prestasi model. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Klasifikasi imej dengan pembelajaran beberapa tangkapan menggunakan PyTorch Klasifikasi imej dengan pembelajaran beberapa tangkapan menggunakan PyTorch Apr 09, 2023 am 10:51 AM

Dalam beberapa tahun kebelakangan ini, model berasaskan pembelajaran mendalam telah menunjukkan prestasi yang baik dalam tugas seperti pengesanan objek dan pengecaman imej. Mengenai set data klasifikasi imej yang mencabar seperti ImageNet, yang mengandungi 1,000 klasifikasi objek berbeza, sesetengah model kini melebihi tahap manusia. Tetapi model ini bergantung pada proses latihan yang diawasi, mereka dipengaruhi dengan ketara oleh ketersediaan data latihan berlabel, dan kelas yang model dapat mengesan adalah terhad kepada kelas yang dilatih. Memandangkan imej berlabel tidak mencukupi untuk semua kelas semasa latihan, model ini mungkin kurang berguna dalam tetapan dunia sebenar. Dan kami mahu model itu dapat mengenali kelas yang tidak pernah dilihat semasa latihan, kerana hampir mustahil untuk melatih imej semua objek berpotensi. Kami akan belajar daripada beberapa sampel

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Feb 26, 2024 am 09:58 AM

Selepas model video AI Sora menjadi popular, syarikat utama seperti Meta dan Google telah mengetepikan untuk melakukan penyelidikan dan mengejar OpenAI. Baru-baru ini, penyelidik dari pasukan Google mencadangkan pengekod video universal - VideoPrism. Ia boleh mengendalikan pelbagai tugas pemahaman video melalui satu model beku. Alamat kertas imej: https://arxiv.org/pdf/2402.13217.pdf Contohnya, VideoPrism boleh mengelaskan dan mengesan orang yang meniup lilin dalam video di bawah. Pengambilan teks video imej, berdasarkan kandungan teks, kandungan yang sepadan dalam video boleh diambil semula. Untuk contoh lain, huraikan video di bawah - seorang gadis kecil sedang bermain dengan blok bangunan. Soalan dan jawapan QA juga tersedia.

Melaksanakan OpenAI CLIP pada set data tersuai Melaksanakan OpenAI CLIP pada set data tersuai Sep 14, 2023 am 11:57 AM

Pada Januari 2021, OpenAI mengumumkan dua model baharu: DALL-E dan CLIP. Kedua-dua model ialah model multimodal yang menyambungkan teks dan imej dalam beberapa cara. Nama penuh CLIP ialah Pra-latihan Bahasa-Imej Kontrastif (ContrastiveLanguage-Image-Pre-training), yang merupakan kaedah pra-latihan berdasarkan pasangan imej teks yang berbeza. Mengapa memperkenalkan CLIP? Kerana StableDiffusion yang popular pada masa ini bukanlah satu model, tetapi terdiri daripada berbilang model. Salah satu komponen utama ialah pengekod teks, yang digunakan untuk mengekod input teks pengguna ini ialah pengekod teks CL dalam model CLIP.

Bagaimana untuk membahagikan set data dengan betul? Ringkasan tiga kaedah biasa Bagaimana untuk membahagikan set data dengan betul? Ringkasan tiga kaedah biasa Apr 08, 2023 pm 06:51 PM

Mengurai set data menjadi set latihan membantu kami memahami model, yang penting untuk cara model membuat generalisasi kepada data baharu yang tidak kelihatan. Sesuatu model mungkin tidak digeneralisasikan dengan baik kepada data baru yang tidak kelihatan jika ia terlalu dipasang. Oleh itu ramalan yang baik tidak boleh dibuat. Mempunyai strategi pengesahan yang sesuai ialah langkah pertama untuk berjaya mencipta ramalan yang baik dan menggunakan nilai perniagaan model AI Artikel ini telah menyusun beberapa strategi pemisahan data biasa. Pembahagian kereta api dan ujian mudah membahagikan set data kepada bahagian latihan dan pengesahan, dengan 80% latihan dan 20% pengesahan. Anda boleh melakukan ini menggunakan pensampelan rawak Scikit. Pertama, benih rawak perlu diperbaiki, jika tidak, pemisahan data yang sama tidak boleh dibandingkan dan hasilnya tidak boleh dihasilkan semula semasa penyahpepijatan. Jika set data

Latihan selari PyTorch Contoh kod lengkap DistributedDataParallel Latihan selari PyTorch Contoh kod lengkap DistributedDataParallel Apr 10, 2023 pm 08:51 PM

Masalah melatih rangkaian neural dalam yang besar (DNN) menggunakan set data yang besar merupakan cabaran utama dalam bidang pembelajaran mendalam. Apabila saiz DNN dan set data meningkat, begitu juga keperluan pengiraan dan memori untuk melatih model ini. Ini menjadikannya sukar atau bahkan mustahil untuk melatih model ini pada satu mesin dengan sumber pengkomputeran yang terhad. Beberapa cabaran utama dalam melatih DNN besar menggunakan set data besar termasuk: Masa latihan yang panjang: Proses latihan boleh mengambil masa beberapa minggu atau bahkan beberapa bulan untuk disiapkan, bergantung pada kerumitan model dan saiz set data. Had memori: DNN yang besar mungkin memerlukan jumlah memori yang besar untuk menyimpan semua parameter model, kecerunan dan pengaktifan perantaraan semasa latihan. Ini boleh menyebabkan kesilapan ingatan dan mengehadkan apa yang boleh dilatih pada satu mesin.

MoE modular akan menjadi model asas untuk pembelajaran pelbagai tugas visual MoE modular akan menjadi model asas untuk pembelajaran pelbagai tugas visual Apr 13, 2023 pm 12:40 PM

Pembelajaran berbilang tugas (MTL) memberikan banyak cabaran kerana kecerunan antara tugas yang berbeza mungkin bercanggah. Untuk mengeksploitasi korelasi antara tugas, penulis memperkenalkan model Mod-Squad, yang merupakan model modular yang terdiri daripada pelbagai pakar. Model ini boleh mengoptimumkan pemadanan tugas dan pakar secara fleksibel, dan memilih beberapa pakar untuk tugas itu. Model ini membolehkan setiap pakar sepadan dengan hanya sebahagian daripada tugas, dan setiap tugas hanya sepadan dengan sebahagian daripada pakar, dengan itu memaksimumkan penggunaan hubungan positif antara tugas. Mod-Squad menyepadukan lapisan Mixture of Experts (MoE) ke dalam model Vision Transformer dan memperkenalkan fungsi kehilangan baharu yang menggalakkan pergantungan yang jarang tetapi kuat antara pakar dan tugas. juga

Mengira kos karbon bagi kecerdasan buatan Mengira kos karbon bagi kecerdasan buatan Apr 12, 2023 am 08:52 AM

Jika anda sedang mencari topik yang menarik, Artificial Intelligence (AI) tidak akan mengecewakan anda. Kecerdasan buatan merangkumi satu set algoritma statistik yang kuat dan membengkokkan minda yang boleh bermain catur, mentafsir tulisan tangan yang ceroboh, memahami pertuturan, mengklasifikasikan imej satelit dan banyak lagi. Ketersediaan set data gergasi untuk melatih model pembelajaran mesin telah menjadi salah satu faktor utama dalam kejayaan kecerdasan buatan. Tetapi semua kerja pengiraan ini tidak percuma. Sesetengah pakar AI semakin bimbang tentang kesan alam sekitar yang dikaitkan dengan membina algoritma baharu, perdebatan yang telah mendorong idea baharu tentang cara membuat mesin belajar dengan lebih cekap untuk mengurangkan jejak karbon AI. Kembali ke Bumi Untuk mendapatkan butirannya, kita perlu terlebih dahulu mempertimbangkan beribu-ribu pusat data (bersebaran di seluruh dunia) yang mengendalikan permintaan pengkomputeran kami 24/7.

See all articles