Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Ini nampaknya berlaku: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik.
Siri masa, iaitu siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan kejadian.
Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada kebergantungan berjujukan dalam data siri masa. Andaian ini tidak menghairankan, lagipun, model bahasa kini paling popular dalam bidang pembelajaran mesin.
Jadi, berapa banyak bantuan yang boleh diberikan oleh model bahasa kepada tugasan pemasaan tradisional?
Baru-baru ini, pasukan dari University of Virginia dan University of Washington cuba menjawab soalan ini, dan akhirnya membuat cadangan yang mudah tetapi penting: Untuk tugas ramalan siri masa, prestasi kaedah biasa menggunakan model bahasa hampir atau lebih teruk. daripada kaedah ablasi asas, tetapi yang pertama memerlukan beberapa urutan magnitud lebih banyak pengiraan daripada yang terakhir. . sejumlah besar penyelidikan ablasi, yang mendedahkan "trend membimbangkan" dalam penyelidikan ramalan siri masa semasa.
Tetapi pasukan itu juga berkata: "Matlamat kami bukanlah untuk membayangkan bahawa model bahasa tidak boleh digunakan untuk siri masa Malah, beberapa kajian baru-baru ini telah menunjukkan bahawa terdapat potensi yang baik untuk interaksi antara bahasa dan siri masa untuk mengendalikan masa penaakulan bersiri dan tugasan seperti pemahaman sosial.
Sebaliknya, matlamat mereka adalah untuk menyerlahkan penemuan yang mengejutkan ini: untuk tugasan siri masa sedia ada, kaedah sedia ada menggunakan sedikit keupayaan penaakulan semula jadi model bahasa yang telah dilatih.Persediaan eksperimen
Kaedah Rujukan untuk Model Bahasa dan Siri Masa
Mereka bereksperimen dengan tiga kaedah terbaru untuk ramalan siri masa menggunakan LLM. Lihat Jadual 2. Model asas yang digunakan oleh kaedah ini ialah GPT-2 atau LLaMA, dan strategi penjajaran dan penalaan yang berbeza digunakan.OneFitsAll: Kaedah OneFitsAll (kadangkala juga dipanggil GPT4TS) mula-mula menggunakan teknik normalisasi dan tampalan contoh pada siri masa input dan kemudian menyuapkannya ke lapisan linear untuk mendapatkan perwakilan input bagi model bahasa . Semasa latihan, perhatian berbilang kepala dan lapisan suapan ke hadapan model bahasa dibekukan, manakala benam kedudukan dan normalisasi lapisan dioptimumkan. Peranan lapisan akhir adalah untuk menukar keadaan tersembunyi terakhir model bahasa kepada hasil ramalan.
Masa-LLM: Apabila menggunakan Masa-LLM, siri masa input ditandakan dengan teknik tampalan dan perhatian berbilang kepala menyelaraskannya dengan perwakilan dimensi rendah bagi pembenaman perkataan. Output proses penjajaran ini kemudiannya disalurkan kepada model bahasa pra-latihan beku bersama-sama dengan pembenaman ciri statistik deskriptif. Perwakilan output model bahasa ini kemudiannya diratakan dan melalui lapisan linear, menghasilkan ramalan.
LLaTA: Cara LLaTA membenamkan siri masa input adalah dengan menganggap setiap saluran sebagai token. Separuh daripada seni bina ialah "cawangan teks", yang menggunakan perhatian silang untuk menyelaraskan perwakilan siri masa dengan perwakilan dimensi rendah bagi pembenaman perkataan model bahasa. Perwakilan ini kemudiannya dihantar kepada model bahasa pra-latihan beku, menghasilkan "ramalan tekstual". Pada masa yang sama, cabang seni bina "sementara" mempelajari penyesuai peringkat rendah untuk model bahasa pra-terlatih berdasarkan siri masa input, dengan itu memperoleh "ramalan sementara" untuk inferens. Model ini mengandungi istilah kerugian tambahan yang mengambil kira persamaan antara perwakilan ini.
Kaedah ablasi yang dicadangkan oleh pasukan
Untuk peramal berasaskan LLM, untuk mengasingkan kesan LLM, pasukan mencadangkan tiga kaedah ablasi: mengeluarkan komponen LLM atau menggantikannya dengan modul mudah.
Secara khusus, bagi setiap tiga kaedah di atas, mereka membuat tiga pengubahsuaian berikut:
w/o LLM, lihat Rajah 1b. Alih keluar model bahasa sepenuhnya dan hantar token input terus ke lapisan akhir kaedah rujukan.
LLM2Attn, lihat Rajah 1c. Gantikan model bahasa dengan satu lapisan perhatian berbilang kepala yang dimulakan secara rawak.
LLM2Trsf, lihat Rajah 1d. Gantikan model bahasa dengan satu modul Transformer yang dimulakan secara rawak.
Dalam kajian ablasi di atas, peramal yang lain disimpan tidak berubah (boleh dilatih). Sebagai contoh, seperti yang ditunjukkan dalam Rajah 1b, selepas mengalih keluar LLM, pengekodan input dihantar terus ke peta output. Dan seperti yang ditunjukkan dalam Rajah 1c dan 1d, selepas menggantikan LLM dengan perhatian atau Transformer, mereka dilatih bersama-sama dengan struktur baki kaedah asal.
Set Data dan Metrik Penilaian
Set Data Penanda Aras. Penilaian menggunakan set data dunia sebenar berikut: ETT (yang mengandungi 4 subset: ETTm1, ETTm2, ETTh1, ETTh2), Penyakit, Cuaca, Trafik, Elektrik. Jadual 1 memberikan statistik set data ini. Turut tersedia ialah Kadar Pertukaran, Kematian Covid, Teksi (30 min), NN5 (Setiap Hari) dan FRED-MD.
Penunjuk penilaian. Metrik penilaian yang dilaporkan dalam kajian ini ialah ralat mutlak min (MAE) dan ralat kuasa dua min (MSE) antara nilai siri masa yang diramalkan dan benar.
Keputusan
Secara khusus, pasukan meneroka soalan penyelidikan (RQ) berikut:
(RQ1) Bolehkah model bahasa pra-latihan membantu meningkatkan prestasi ramalan?
(RQ2) Adakah kaedah berasaskan LLM berbaloi dengan kos pengiraan yang mereka gunakan?
(RQ3) Adakah model bahasa pra-latihan membantu prestasi tugasan ramalan?
(RQ4) Bolehkah LLM mencirikan kebergantungan berjujukan dalam siri masa?
(RQ5) Adakah LLM membantu dengan pembelajaran beberapa pukulan?
(RQ6) Dari mana datangnya persembahan?
Adakah model bahasa pra-latihan membantu meningkatkan prestasi ramalan? (RQ1)
Hasil eksperimen menunjukkan bahawa LLM pra-latihan masih belum begitu berguna untuk tugas ramalan siri masa.
Secara keseluruhan, seperti yang ditunjukkan dalam Jadual 3, pada 8 set data dan 2 penunjuk, kaedah ablasi adalah lebih baik daripada kaedah Time-LLM dalam 26/26 kes dan mengatasi kaedah Time-LLM dalam 22/ 26 kes lebih baik daripada LLaTA dan lebih baik daripada OneFitsAll dalam 19/26 kes.
Kesimpulannya, sukar untuk mengatakan bahawa LLM boleh digunakan dengan berkesan untuk ramalan siri masa.
Adakah kaedah berasaskan LLM berbaloi dengan kos pengiraan yang mereka gunakan? (RQ2)
Di sini, keamatan pengiraan kaedah ini dinilai berdasarkan prestasi nominalnya. Model bahasa dalam pendekatan rujukan menggunakan ratusan juta atau malah berbilion parameter untuk melaksanakan ramalan siri masa. Walaupun parameter model bahasa ini dibekukan, ia masih mempunyai overhed pengiraan yang ketara semasa latihan dan inferens.
Sebagai contoh, Time-LLM mempunyai 6642 M parameter dan mengambil masa 3003 minit untuk melengkapkan latihan pada set data Cuaca, manakala kaedah ablasi hanya mempunyai 0.245 M parameter dan purata masa latihan hanya 2.17 minit. Jadual 4 memberikan maklumat tentang latihan kaedah lain pada set data ETTh1 dan Cuaca.
Bagi masa inferens, pendekatan di sini ialah membahagikan dengan saiz kelompok maksimum untuk menganggarkan masa inferens bagi setiap contoh. Secara purata, Time-LLM, OneFitsAl dan LLaTA mengambil masa 28.2, 2.3 dan 1.2 kali lebih inferens berbanding model yang diubah suai.
Rajah 3 memberikan beberapa contoh di mana penanda hijau (kaedah ablasi) secara amnya lebih rendah daripada penanda merah (LLM) dan tertumpu di sebelah kiri, yang menggambarkan bahawa ia lebih murah dari segi pengiraan tetapi mempunyai prestasi ramalan yang lebih baik.
Ringkasnya, dalam tugas ramalan siri masa, keamatan pengiraan LLM tidak boleh membawa peningkatan yang sepadan dalam prestasi.
Adakah pralatihan model bahasa membantu prestasi tugasan ramalan? (RQ3)
Hasil penilaian menunjukkan bahawa untuk tugasan ramalan siri masa, pra-latihan dengan set data yang besar sebenarnya tidak diperlukan. Untuk menguji sama ada pengetahuan yang dipelajari semasa pra-latihan boleh membawa peningkatan yang bermakna kepada prestasi ramalan, pasukan itu mencuba dengan kesan gabungan berbeza pra-latihan dan penalaan halus pada LLaTA pada data siri masa.
Pra-latihan + penalaan halus (Pra+FT): Ini ialah kaedah asal, iaitu untuk memperhalusi model bahasa pra-latihan pada data siri masa. Untuk LLaTA di sini, pendekatannya adalah untuk membekukan model bahasa asas dan mempelajari penyesuai peringkat rendah (LoRA).
Pemulaan rawak + penalaan halus (woPre+FT): Adakah pengetahuan teks yang diperoleh daripada pra-latihan membantu ramalan siri masa? Di sini, pemberat model bahasa dimulakan secara rawak (dengan itu menghapuskan kesan pra-latihan), dan LLM dilatih dari awal pada set data yang diperhalusi.
Pra-latihan + tiada penalaan halus (Pra+woFT): Sejauh manakah penalaan halus pada data siri masa boleh membawa kepada prestasi ramalan? Di sini kami membekukan model bahasa dan berhenti mempelajari LoRA. Ini boleh mencerminkan prestasi model bahasa itu sendiri dalam memproses siri masa.
Pengamatan rawak + tiada penalaan halus (woPre+woFT): Jelas sekali, ini adalah untuk menayangkan siri masa input secara rawak kepada hasil ramalan. Hasilnya digunakan sebagai garis dasar untuk perbandingan dengan kaedah lain.
Keputusan keseluruhan ditunjukkan dalam Jadual 5. Pada 8 set data, menurut penunjuk MAE dan MSE, "pra-latihan + penalaan halus" menunjukkan prestasi terbaik tiga kali, manakala "pemulaan rawak + penalaan halus" memperoleh lapan kali terbaik. Ini menunjukkan bahawa pengetahuan bahasa adalah bantuan terhad kepada ramalan siri masa. Walau bagaimanapun, "pra-latihan + tiada penalaan halus" dan garis dasar "pemulaan rawak + tiada penalaan halus" masing-masing mempunyai 5 dan 0 hasil terbaik, yang menunjukkan bahawa pengetahuan bahasa tidak banyak membantu dalam proses penalaan halus.
Ringkasnya, pengetahuan teks yang diperoleh melalui pra-latihan adalah bantuan terhad kepada ramalan siri masa.
Bolehkah LLM mencirikan kebergantungan berjujukan dalam siri masa? (RQ4)
Kebanyakan kaedah ramalan siri masa yang menggunakan LLM untuk memperhalusi pengekodan kedudukan membantu dalam memahami kedudukan langkah masa dalam jujukan. Pasukan itu meramalkan bahawa untuk model siri masa dengan perwakilan lokasi yang sangat baik, jika lokasi input diacak, prestasi ramalannya akan menurun dengan ketara. Mereka bereksperimen dengan tiga kaedah untuk merombak data siri masa: mengocok keseluruhan jujukan secara rawak (sf-semua), mengocok secara rawak hanya separuh pertama jujukan (sf-separuh), dan menukar separuh pertama dan kedua jujukan (ex- separuh). . Keputusan ditunjukkan dalam Jadual 6.
Impak kocokan input pada kaedah berasaskan LLM adalah serupa dengan kaedah ablasinya. Ini menunjukkan bahawa LLM tidak mempunyai keupayaan cemerlang dalam mencirikan kebergantungan berjujukan dalam siri masa.
Adakah LLM membantu dengan pembelajaran beberapa pukulan? (RQ5)
Hasil penilaian menunjukkan bahawa LLM tidak begitu penting untuk senario pembelajaran beberapa pukulan.
Percubaan penilaian mereka adalah untuk mengambil 10% daripada setiap set data dan melatih semula model dan kaedah ablasinya. Khususnya, LLaMA (Time-LLM) dinilai di sini. Keputusan ditunjukkan dalam Jadual 7.
Dapat dilihat bahawa prestasi dengan dan tanpa LLM adalah serupa - masing-masing mempunyai 8 kes yang berprestasi lebih baik. Pasukan itu juga menjalankan eksperimen serupa menggunakan kaedah berasaskan GPT-2 LLaTA. Keputusan ditunjukkan dalam Jadual 8, di mana kaedah ablasi berprestasi lebih baik daripada LLM dalam senario beberapa sampel.
Dari mana datangnya persembahan? (RQ6)
Bahagian ini menilai teknik pengekodan yang biasa digunakan dalam model siri masa LLM. Ternyata menggabungkan tampalan dan perhatian satu lapisan adalah pilihan yang mudah tetapi berkesan.
Sebelum ini didapati bahawa ablasi mudah kaedah berasaskan LLM tidak mengurangkan prestasinya. Untuk memahami punca fenomena ini, pasukan mengkaji beberapa teknik pengekodan yang biasa digunakan dalam tugasan siri masa LLM, seperti menampal dan penguraian. Modul Transformer asas juga tersedia untuk membantu pengekodan.
Didapati bahawa struktur yang menggabungkan tampalan dan perhatian mengatasi kebanyakan kaedah pengekodan lain pada set data kecil (kurang daripada 1 juta cap masa), malah setanding dengan kaedah LLM.
Struktur terperinci ditunjukkan dalam Rajah 4, yang melibatkan penggunaan "penormalan instance" pada siri masa, diikuti dengan tampalan dan unjuran. Kemudian, lapisan perhatian digunakan antara patch untuk pembelajaran ciri. Untuk set data yang lebih besar seperti Trafik (~15 juta) dan Elektrik (~8 juta), prestasi pengekodan model linear satu lapisan menggunakan Transformer asas adalah lebih baik. Dalam kaedah ini, satu lapisan linear akhirnya digunakan untuk menayangkan pembenaman siri masa untuk mendapatkan hasil ramalan.
Pendek kata, patching sangat penting untuk coding. Di samping itu, perhatian asas dan modul Transformer juga boleh membantu pengekodan dengan berkesan.
Atas ialah kandungan terperinci LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!