Bagaimanakah sklearn melatih set data berskala besar - Limpahan Tindanan
typecho
typecho 2017-06-28 09:22:17
0
3
1148

Soalan 1:

Kini saya mempunyai lebih daripada 400,000 keping data Saya perlu menggunakan beberapa jenis algoritma klasifikasi pembelajaran mesin untuk membina model untuk data ini Masalah yang saya hadapi ialah data terlalu besar dan tidak boleh dibaca sekali gus Saya ingin bertanya tentang ini. Bagaimana untuk memproses data?

Soalan 2:

Saya ada soalan tentang pengesahan silang sklearn: Jika saya mempunyai 10,000 data latihan, 10,000 set data latihan ini boleh dibahagikan kepada n kumpulan latihan menggunakan kaedah KFold berdasarkan prinsip pengesahan silang (data tren menyumbang 0.7) . Saya tidak memahaminya sekarang, iaitu, saya melakukan fit() pada set latihan kumpulan pertama, dan kemudian melakukan pengesahan ramalan pada set ujian untuk mendapatkan ketepatan ramalan ketepatan? Adakah ia akan menjejaskan sesi latihan seterusnya? Juga, adakah model terlatih terakhir akan digunakan dalam fungsi fit() seterusnya?

typecho
typecho

Following the voice in heart.

membalas semua(3)
三叔

Saya telah mengkaji perlombongan data dan analisis data besar baru-baru ini Berkenaan soalan 1, saya mempunyai idea untuk rujukan anda: kerana ia tidak boleh dibaca sekali gus, anda boleh membina model data teragih, membaca data dalam kelompok dan menentukan. alamat datanode ( Ia boleh menjadi nama pembolehubah), buat namenode (jadual yang sepadan dengan nama dan alamat), dan kemudian apabila mendapatkan data, mula-mula mengesahkan alamat dalam namenode (pembolehubah yang sepadan dengan data yang diperlukan), dan kemudian akses alamat untuk mendapatkan Data diproses. Oleh kerana saya seorang pemula, saya hanya memberikan pemikiran peribadi saya. Jawapannya tidak unik dan hanya untuk rujukan Jika anda tidak suka, jangan kritik.

仅有的幸福

400,000 tidak banyak, paling banyak beberapa gigabait...
Jika memori benar-benar sekecil 8G, maka ia masih bergantung pada senario khusus anda Contohnya, hanya mengira tf-idf, satu penjana, hanya tf terakhir Kamus -idf ada dalam ingatan.

Pengesahan silang hanyalah untuk memilih yang mempunyai ralat yang paling kecil Di sebalik pengaruh yang anda nyatakan sebelum ini adalah konsep boosting.

仅有的幸福

Tapak web Soal Jawab jenis ini adalah yang terbaik untuk mempunyai satu soalan dan satu lubang Jika perlu, dua soalan berasingan boleh digunakan untuk menyambungkan pautan untuk mengelakkan soalan berlaras dua

(1) Lihat Bagaimana untuk mengoptimumkan kelajuan, anda akan mendapati terdapat banyak cara untuk mengawal eksperimen, termasuk (a) menggunakan algoritma mudah sebanyak mungkin (b) memprofilkan penggunaan memori dan kelajuan berdasarkan keadaan kehidupan sebenar ( c) Cuba gantikan semua gelung bersarang dengan tatasusunan Numpy (d) Gunakan Cython Wrapper jika perlu untuk menala pustaka fungsi C/C++ yang lebih cekap. Ini hanyalah prinsip dan arahan asas Sebenarnya, ia masih bergantung pada analisis kesesakan masalah yang anda ingin kendalikan, sama ada kelajuan atau ruang Selepas mengoptimumkan kod, anda boleh mempertimbangkan sama ada untuk menggunakan pengkomputeran selari dan kaedah lain

(2) Soalan anda perlu membezakan antara keperluan matematik dan empirikal.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan