Dalam masalah siri masa, terdapat jenis siri masa yang tidak diambil sampel pada frekuensi yang sama, iaitu selang masa antara dua cerapan bersebelahan dalam setiap kumpulan adalah berbeza. Pembelajaran perwakilan siri masa telah banyak dikaji dalam siri masa pensampelan frekuensi sama, tetapi terdapat kurang penyelidikan dalam siri masa pensampelan tidak teratur ini, dan kaedah pemodelan siri masa jenis ini berbeza daripada pensampelan frekuensi sama di sana ialah perbezaan besar dalam kaedah pemodelan
Artikel yang diperkenalkan hari ini meneroka kaedah aplikasi pembelajaran perwakilan dalam masalah siri masa pensampelan tidak teratur, menggunakan pengalaman yang relevan dalam NLP dan mencapai hasil perbandingan dalam tugasan hiliran.
Pictures
gambarSecara amnya kaedah pemodelan siri masa yang tidak teratur ini, struktur biasa Data tiga kali ganda di atas dibenamkan secara berasingan, disambungkan bersama, dan dimasukkan ke dalam model seperti transformer Dengan cara ini, maklumat pada setiap saat dan perwakilan masa pada setiap saat disepadukan dan dimasukkan ke dalam model untuk meramalkan tugasan berikutnya.
GambarDalam tugasan artikel ini, data yang digunakan termasuk bukan sahaja data berlabel, tetapi juga data tidak berlabel untuk pra-latihan tanpa pengawasan.
2. Gambaran Keseluruhan Kaedah
Reka bentuk tugasan pra-latihan: Untuk mengendalikan siri masa yang tidak teratur, sesuai pra-latihan perlu direka Tugas membolehkan model mempelajari perwakilan yang berkesan daripada data yang tidak diselia. Artikel ini terutamanya memperkenalkan dua tugasan pra-latihan berdasarkan ramalan dan berasaskan pembinaan semula
Reka bentuk kaedah peningkatan data: Dalam kajian ini, kaedah peningkatan data untuk pembelajaran tanpa pengawasan telah direka, termasuk menambah bunyi, menambah topeng rawak, dll.
Di samping itu, artikel itu juga memperkenalkan algoritma untuk set data teragih yang berbeza untuk meneroka kaedah pembelajaran tanpa pengawasan yang optimum
3 Reka bentuk tugasan pra-latihan
Dalam pralatihan Ramalan, untuk setiap ciri dalam siri masa, nilainya diramalkan berdasarkan urutan prapesanan tetingkap masa dengan saiz tertentu. Ciri di sini merujuk kepada ciri dalam triplet. Memandangkan setiap ciri mungkin muncul beberapa kali dalam tetingkap masa, atau mungkin tidak muncul sama sekali, nilai kejadian pertama ciri ini digunakan sebagai label untuk pra-latihan. Data input termasuk siri asal dan siri masa yang dipertingkatkan.
Dalam pra-latihan pembinaan semula, pertama, untuk siri masa asal, urutan dipertingkatkan dijana melalui beberapa kaedah peningkatan data, dan kemudian urutan dipertingkat digunakan sebagai input, dan vektor perwakilan dijana oleh pengekod, dan kemudian input kepada penyahkod Pulihkan siri masa asal dalam pemproses. Artikel menggunakan topeng untuk membimbing bahagian urutan yang perlu dipulihkan Jika topeng adalah semua 1, keseluruhan urutan dipulihkan Selepas mendapatkan parameter pra-latihan, ia boleh digunakan secara langsung pada tugas finetune hiliran keseluruhan proses pralatihan-finetune Seperti yang ditunjukkan di bawah.
Gambar
4. Reka bentuk kaedah peningkatan dataDalam artikel ini, kami mencadangkan dua kaedah peningkatan data. Kaedah pertama ialah menambah hingar, dengan memperkenalkan beberapa gangguan rawak dalam data untuk meningkatkan kepelbagaian data. Kaedah kedua ialah pelekat rawak, yang menggalakkan model untuk mempelajari ciri yang lebih mantap dengan memilih secara rawak beberapa bahagian data untuk ditutup. Kaedah peningkatan data ini boleh membantu kami meningkatkan prestasi dan keupayaan generalisasi model
Gambar
Kaedah topeng rawak menggunakan idea daripada NLP, dan membina siri masa yang dipertingkatkan dengan memilih masa, ciri, nilai dan elemen lain secara rawak untuk topeng dan penggantian rawak.
Rajah berikut menunjukkan kesan dua jenis kaedah peningkatan data di atas:
Gambar
Selain itu, artikel tersebut menggunakan gabungan peningkatan data, kaedah pra-latihan, dsb., untuk siri masa yang berbeza data, daripada gabungan ini Cari kaedah pra-latihan yang optimum.
Dalam artikel ini, percubaan telah dijalankan pada berbilang set data untuk membandingkan kesan kaedah pra-latihan yang berbeza pada set data ini. Dapat diperhatikan bahawa kaedah pra-latihan yang dicadangkan dalam artikel telah mencapai peningkatan yang ketara pada kebanyakan set data
Atas ialah kandungan terperinci Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak sama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!