


Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM
Ramalan siri masa memainkan peranan penting dalam pelbagai bidang, seperti peruncitan, kewangan, pembuatan, penjagaan kesihatan dan sains semula jadi, dsb. Dalam industri runcit, kos inventori boleh dikurangkan dengan berkesan dan hasil meningkat dengan menambah baik ketepatan ramalan permintaan. Ini bermakna perniagaan boleh memenuhi permintaan pelanggan dengan lebih baik, mengurangkan inventori yang tidak terjual dan kerugian, sambil meningkatkan jualan dan keuntungan. Oleh itu, ramalan siri masa mempunyai nilai yang besar dalam bidang runcit dan boleh membawa bahan kepada perusahaan
Model pembelajaran mendalam (DL) mendominasi tugas "ramalan siri masa boleh pelbagai" dan digunakan dalam pelbagai pertandingan dan prestasi Cemerlang sebenar dalam aplikasi.
Pada masa yang sama, kemajuan ketara telah dicapai dalam model bahasa asas berskala besar dalam tugasan pemprosesan bahasa semula jadi (NLP), dengan berkesan meningkatkan prestasi tugasan seperti terjemahan, penjanaan peningkatan perolehan dan penyiapan kod.
Latihan model NLP bergantung pada data teks besar-besaran, yang datang daripada pelbagai sumber, termasuk perangkak, kod sumber terbuka, dll. Model terlatih boleh mengecam corak dalam bahasa dan mempunyai keupayaan untuk belajar daripada sampel sifar : sebagai contoh, Model besar digunakan dalam tugas mendapatkan semula di mana model boleh menjawab soalan tentang peristiwa semasa dan meringkaskannya.
Walaupun peramal berasaskan pembelajaran mendalam mengatasi kaedah tradisional dalam banyak aspek, termasuk mengurangkan kos latihan dan inferens, masih terdapat beberapa cabaran yang perlu diatasi:
Banyak model pembelajaran mendalam menjalani latihan dan pengesahan yang panjang. diuji pada siri masa baharu. Sebaliknya, model asas untuk ramalan siri masa mempunyai keupayaan "ramalan luar kotak" dan boleh digunakan pada data siri masa yang tidak diketahui tanpa latihan tambahan. Ciri ini membolehkan pengguna menumpukan pada meningkatkan ramalan untuk tugas hiliran praktikal seperti perancangan permintaan runcit.
Para penyelidik di Google Research baru-baru ini mencadangkan model asas untuk ramalan siri masa yang dipanggil TimesFM, yang telah dilatih terlebih dahulu mengenai 100 bilion titik masa dunia sebenar. Berbanding dengan model bahasa besar (LLM) terkini, saiz TimesFM jauh lebih kecil, hanya mengandungi parameter 200M.
Pautan kertas: https://arxiv.org/pdf/2310.10688.pdf
Hasil eksperimen menunjukkan bahawa walaupun skala kecil, TimesFM menunjukkan prestasi yang berbeza merentas pelbagai domain dan skala masa yang tidak dilatih. "prestasi tangkapan sifar" yang mengejutkan yang hampir dengan prestasi kaedah terlatih yang terlatih dan diselia dengan canggih pada set data ini.
Para penyelidik merancang untuk menjadikan model TimesFM tersedia kepada pelanggan luar dalam Google Cloud Vertex AI akhir tahun ini.
Model asas TimesFM
LLM biasanya dilatih dengan cara penyahkod sahaja, termasuk tiga langkah:
1 Teks diuraikan menjadi subkata yang dipanggil token2
token lapisan Transformer bertindan dan menghasilkan output yang sepadan dengan setiap token input Perlu diingat bahawa lapisan ini tidak boleh mengendalikan token tanpa input, iaitu token masa hadapan3 daripada token sebelumnya dan meramalkan token ke-(i+1)
Semasa inferens, LLM menjana output satu token pada satu masa.
Sebagai contoh, apabila memasukkan gesaan "Apakah ibu negara Perancis (Apakah ibu negara Perancis?), model itu mungkin menjana token "The", dan kemudian menjana token "Modal" seterusnya berdasarkan pada gesaan ini. " (captial) dan seterusnya sehingga model menghasilkan jawapan lengkap: "Ibu kota Perancis ialah Paris" (Ibu kota Perancis ialah Paris).
Model asas untuk ramalan siri masa harus disesuaikan dengan konteks pembolehubah (apa yang diperhatikan oleh model) dan julat (perkara yang diramalkan oleh model pertanyaan) sambil cukup berkuasa untuk mengekod semua corak daripada set data pra-terlatih yang besar (corak).
Tetapi TimesFM mempunyai beberapa perbezaan utama daripada model bahasa:
1 Model memerlukan blok perceptron berbilang lapisan dengan sambungan baki untuk menukar tampalan siri masa menjadi token, yang boleh dibandingkan dengan pengekodan kedudukan (. PE) bersama-sama dengan input ke lapisan Transformer. Untuk melakukan ini, kami menggunakan blok sisa yang serupa dengan kerja kami sebelumnya dalam ramalan jangka panjang.
2. Token output daripada Transformer bertindan boleh digunakan untuk meramalkan panjang titik masa berikutnya yang lebih panjang daripada panjang patch input, iaitu panjang patch output boleh lebih besar daripada panjang patch input. Anggapkan bahawa siri masa dengan panjang 512 titik masa digunakan untuk melatih model TimesFM dengan "panjang patch input 32" dan "panjang patch output 128": Semasa latihan, model dilatih di masa yang sama Untuk menggunakan 32 mata masa pertama untuk meramal 128 mata masa seterusnya, gunakan 64 mata masa pertama untuk meramal mata masa 65 hingga 192, gunakan 96 mata masa pertama untuk meramal mata masa 97 hingga 224, dan seterusnya. Dengan mengandaikan bahawa data input ialah siri masa dengan panjang 256, dan tugasnya adalah untuk meramal 256 titik masa seterusnya pada masa hadapan, model mula-mula menjana ramalan masa hadapan untuk titik masa 257 hingga 384, dan kemudian mengambil titik awal Input panjang 256 ditambah Output yang dijana adalah bersyarat untuk menjana mata masa 385 hingga 512. Sebaliknya, jika dalam model, panjang patch output adalah sama dengan panjang patch input 32, maka untuk tugas yang sama, model melalui lapan langkah generasi dan bukannya 2, meningkatkan risiko pengumpulan ralat dan oleh itu dalam keputusan eksperimen Seperti yang dapat dilihat dalam , panjang tampalan keluaran yang lebih panjang akan membawa kepada prestasi ramalan jangka panjang yang lebih baik. Sama seperti LLM boleh menjadi lebih baik dengan lebih banyak token, TimesFM memerlukan sejumlah besar data siri masa yang sah untuk belajar dan menambah baik penyelidik menghabiskan banyak masa mencipta dan menilai set data latihan, mendapati dua yang lebih baik kaedah: Data sintetik membantu dengan asas Anda boleh menggunakan model statistik atau simulasi fizikal untuk menjana data siri masa sintetik yang bermakna, pada asasnya Corak temporal boleh membimbing model untuk mempelajari tatabahasa ramalan siri masa . Data dunia sebenar menambah rasa dunia sebenar Penyelidik menyisir set data siri masa awam yang tersedia dan secara terpilih menggabungkan 100 bilion Korpus besar titik masa disatukan. Dalam set data, terdapat paparan halaman daripada Google Trends dan Wikipedia, yang menjejaki perkara yang pengguna minati, dan mencerminkan dengan baik arah aliran dan corak banyak siri masa dunia sebenar yang lain, membantu TimesFM memahami dengan lebih baik. meningkatkan prestasi generalisasi untuk "konteks khusus domain yang tidak dilihat semasa latihan." Para penyelidik menjalankan penilaian sifar sampel TimesFM pada data yang tidak kelihatan semasa latihan menggunakan penanda aras siri masa yang biasa digunakan, dan diperhatikan bahawa TimesFM mengatasi kebanyakan kaedah statistik seperti ARIMA, ETS, dan boleh memadankan atau mengatasi prestasi model DL yang berkuasa seperti DeepAR, PatchTST, yang telah dilatih secara eksplisit pada siri masa sasaran. Para penyelidik menggunakan Arkib Peramalan Monash untuk menilai prestasi luar biasa TimesFM, set data yang mengandungi puluhan ribu siri masa daripada pelbagai domain seperti trafik, cuaca dan ramalan permintaan, meliputi kekerapan dari minit. kepada data tahunan. Berdasarkan literatur sedia ada, para penyelidik meneliti min ralat mutlak (MAE) yang diskalakan dengan sewajarnya kepada purata ke atas set data. Seperti yang dapat dilihat, Zero-shot (ZS) TimesFM mengatasi kaedah yang paling diselia, termasuk model pembelajaran mendalam terkini. TimesFM dan GPT-3.5 juga dibandingkan untuk ramalan menggunakan teknologi pembayang khusus yang dicadangkan oleh llmtime (ZS), dan hasilnya membuktikan bahawa TimesFM berprestasi lebih baik daripada llmtime (ZS) Pada dataset Monash, TimesFM (ZS ) Nisbah MAE kepada kaedah seliaan dan sifar pukulan yang lain (lebih rendah adalah lebih baik) Kebanyakan set data Monash adalah jangka pendek atau sederhana, bermakna panjang ramalan tidak terlalu panjang; para penyelidik juga menguji TimesFM pada tanda aras yang biasa digunakan untuk ramalan jangka panjang ialah PatchTST garis dasar terkini (dan garis dasar ramalan jangka panjang yang lain). Para penyelidik merancang MAE pada set data ETT untuk tugas meramalkan 96 dan 192 titik masa ke masa hadapan, mengira metrik pada tetingkap ujian terakhir setiap set data. . ) dan sepadan dengan model PatchTST diselia yang dilatih secara eksplisit pada set data yang sepadan. Para penyelidik melatih model penyahkod asas sahaja menggunakan korpus pra-latihan yang besar sebanyak 100 bilion titik masa dunia nyata, yang kebanyakannya adalah data siri masa minat carian daripada Google Trends dan halaman daripada Wikipedia Views. Hasilnya menunjukkan bahawa walaupun model pra-latihan parameter 200 M yang agak kecil, menggunakan seni bina TimesFM, mempamerkan prestasi tangkapan sifar yang agak baik dalam pelbagai penanda aras awam (domain dan butiran yang berbeza). Data pra-latihan
Sifar-sampel keputusan penilaian
Kesimpulan
Atas ialah kandungan terperinci Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
