masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah

Peranti teknologi

AI

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk 'meleret kedudukan'?

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk 'meleret kedudukan'?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 02, 2023 am 08:53 AM

ai model markah larian Berus senarai

Saya percaya rakan-rakan yang meminati bulatan telefon bimbit pasti tidak asing dengan ungkapan "dapat markah jika tidak menerimanya". Sebagai contoh, perisian ujian prestasi teori seperti AnTuTu dan GeekBench telah menarik banyak perhatian daripada pemain kerana ia boleh mencerminkan prestasi telefon mudah alih pada tahap tertentu. Begitu juga, terdapat perisian penanda aras yang sepadan untuk pemproses PC dan kad grafik untuk mengukur prestasi mereka

Memandangkan "semuanya boleh ditanda aras", model AI besar yang paling popular juga telah mula mengambil bahagian dalam pertandingan penanda aras Terutama selepas permulaan "Perang Model Ratus", penemuan dibuat hampir setiap hari, dan setiap syarikat memanggil dirinya sebagai ". No. 1 dalam penandaarasan".一"

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk meleret kedudukan?

Model AI besar domestik hampir tidak pernah ketinggalan dari segi skor prestasi, tetapi mereka tidak boleh mengatasi GPT-4 dari segi pengalaman pengguna. Ini menimbulkan persoalan, iaitu, di pusat jualan utama, setiap pengeluar telefon mudah alih sentiasa boleh mendakwa bahawa produknya adalah "nombor satu dalam jualan". untuk menjadi nombor satu, tetapi dalam bidang model besar AI, keadaannya berbeza. Lagipun, kriteria penilaian mereka pada asasnya bersatu, termasuk MMLU (digunakan untuk mengukur keupayaan pemahaman bahasa berbilang tugas), Big-Bench (digunakan untuk mengukur dan mengekstrapolasi keupayaan LLM), dan AGIEval (digunakan untuk menilai keupayaan menangani masalah peringkat manusia).

Pada masa ini, senarai penilaian model berskala besar yang sering disebut di China termasuk SuperCLUE, CMMLU dan C-Eval. Antaranya, CMMLU dan C-Eval adalah set penilaian peperiksaan komprehensif yang dibina bersama oleh Universiti Tsinghua, Universiti Jiao Tong Shanghai dan Universiti Edinburgh. CMMLU dilancarkan bersama oleh MBZUAI, Shanghai Jiao Tong University dan Microsoft Research Asia. Bagi SuperCLUE, ia ditulis bersama oleh profesional kecerdasan buatan dari universiti utama

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk meleret kedudukan?

Ambil C-Eval sebagai contoh Dalam senarai pada awal September, model besar Yuntian Lifei "Yuntian Shu" menduduki tempat pertama, 360 menduduki tempat kelapan, tetapi GPT-4 hanya boleh menduduki tempat kesepuluh. Memandangkan piawaian boleh diukur, mengapakah terdapat keputusan berlawanan intuitif? Sebab mengapa senarai skor larian model besar menunjukkan adegan "syaitan menari-nari" sebenarnya kerana kaedah semasa menilai prestasi model AI besar mempunyai had Mereka menggunakan kaedah "penyelesaian soalan" untuk mengukur keupayaan model besar .

Seperti yang kita sedia maklum, SoC telefon pintar, CPU komputer dan kad grafik secara automatik akan mengurangkan kekerapan di bawah suhu tinggi untuk melindungi jangka hayatnya, manakala suhu rendah boleh meningkatkan prestasi cip. Oleh itu, sesetengah orang akan meletakkan telefon bimbit mereka di dalam peti sejuk atau melengkapkan komputer mereka dengan sistem penyejukan yang lebih berkuasa untuk menjalankan ujian prestasi, dan mereka biasanya boleh mendapat markah yang lebih tinggi daripada biasa. Di samping itu, pengeluar telefon mudah alih utama juga akan melaksanakan "pengoptimuman eksklusif" untuk pelbagai perisian penanda aras, yang telah menjadi operasi standard mereka

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk meleret kedudukan?

Dalam cara yang sama, pemarkahan model kecerdasan buatan yang besar tertumpu pada pengambilan soalan, jadi secara semula jadi akan ada bank soalan. Ya, inilah sebab mengapa beberapa model domestik besar sentiasa berada dalam senarai. Disebabkan oleh pelbagai sebab, bank soalan senarai model utama kini hampir telus sehala kepada pengeluar, iaitu apa yang dipanggil "kebocoran penanda aras". Sebagai contoh, senarai C-Eval mempunyai 13,948 soalan apabila ia mula-mula dilancarkan, dan disebabkan bank soalan yang terhad, beberapa model besar yang tidak diketahui dibenarkan "lulus" dengan melengkapkan soalan

Anda boleh bayangkan sebelum peperiksaan, jika anda secara tidak sengaja melihat kertas ujian dan jawapan standard, dan kemudian menghafal soalan secara tidak dijangka, markah peperiksaan anda akan bertambah baik. Oleh itu, bank soalan yang dipratetap oleh senarai model besar ditambahkan pada set latihan, supaya model besar menjadi model yang sesuai dengan data penanda aras. Lebih-lebih lagi, LLM semasa itu sendiri terkenal dengan ingatan yang sangat baik, dan membaca jawapan standard hanyalah sekeping kek

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk meleret kedudukan?

Melalui kaedah ini, model bersaiz kecil juga boleh memperoleh hasil yang lebih baik daripada model bersaiz besar dalam skor larian Beberapa markah tinggi yang dicapai oleh model besar dicapai melalui "penalaan halus". Dalam kertas kerja "Jangan Jadikan LLM Anda Penipu Penanda Aras Penilaian", pasukan Renmin University Hillhouse secara terang-terangan menunjukkan fenomena ini, dan pendekatan oportunistik ini berbahaya kepada prestasi model besar.

Penyelidik dari pasukan Hillhouse mendapati bahawa kebocoran penanda aras boleh menyebabkan model besar menjalankan hasil yang berlebihan Contohnya, model 1.3B boleh mengatasi saiz model 10 kali ganda dalam beberapa tugasan, tetapi kesan sampingannya ialah ia direka khas untuk ". pengambilan peperiksaan" Untuk model besar, prestasi pada tugas ujian biasa yang lain akan terjejas dengan teruk. Lagipun, jika anda memikirkannya, anda akan tahu bahawa model AI yang besar sepatutnya menjadi "pembuat soalan", tetapi ia telah menjadi "penghafal soalan". pengetahuan khusus dan gaya keluaran senarai Ia pasti akan mengelirukan model besar.

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk meleret kedudukan?

Bukan persimpangan set latihan, set pengesahan, dan set ujian jelas hanya keadaan yang ideal Lagipun, realitinya sangat kurus, dan masalah kebocoran data hampir tidak dapat dielakkan dari akar. Dengan kemajuan berterusan teknologi berkaitan, keupayaan memori dan penerimaan struktur Transformer, yang merupakan asas model besar semasa, sentiasa bertambah baik pada musim panas ini, strategi AI Umum Microsoft Research telah membolehkan model menerima 100 juta Token tanpa menyebabkan tidak boleh diterima kerana kealpaan. Dengan kata lain, pada masa hadapan, model AI yang besar berkemungkinan mempunyai keupayaan untuk membaca keseluruhan Internet.

Walaupun kemajuan teknologi diketepikan, pencemaran data sebenarnya sukar dielakkan berdasarkan tahap teknikal semasa, kerana data berkualiti tinggi sentiasa terhad dan kapasiti pengeluaran terhad. Satu kertas kerja yang diterbitkan oleh pasukan penyelidik AI Epoch pada awal tahun ini menunjukkan bahawa AI akan menggunakan semua data bahasa manusia berkualiti tinggi dalam masa kurang daripada 5 tahun, dan keputusan ini ialah ia akan meningkatkan kadar pertumbuhan data bahasa manusia, iaitu semua manusia akan menerbitkan dalam 5 tahun akan datang Buku yang ditulis, kertas yang ditulis, dan kod yang ditulis semuanya diambil kira untuk meramalkan hasilnya.

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk meleret kedudukan?

Sekiranya set data sesuai untuk penilaian, maka ia pasti akan menunjukkan prestasi yang lebih baik dalam pra-latihan. Sebagai contoh, GPT-4 OpenAI menggunakan set data penilaian inferens berwibawa GSM8K. Oleh itu, pada masa ini terdapat masalah yang memalukan dalam bidang penilaian model berskala besar Permintaan untuk data daripada model berskala besar nampaknya tidak berkesudahan, yang menyebabkan agensi penilaian perlu bergerak lebih pantas dan lebih jauh daripada pengeluar kecerdasan buatan. model berskala besar. Walau bagaimanapun, agensi penilaian hari ini nampaknya tidak mempunyai keupayaan untuk melakukan ini

Mengapakah sesetengah pengeluar memberi perhatian khusus kepada skor larian model besar dan cuba meningkatkan kedudukan satu demi satu? Malah, logik di sebalik tingkah laku ini adalah sama seperti pembangun Apl menyuntik air ke dalam bilangan pengguna Apl mereka sendiri. Lagipun, skala pengguna Apl adalah faktor utama dalam mengukur nilainya, dan pada peringkat awal model AI berskala besar semasa, keputusan dalam senarai penilaian adalah hampir satu-satunya kriteria yang agak objektif Lagipun, dalam persepsi awam, skor tinggi bermakna Ia menyamai prestasi yang kukuh.

Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk meleret kedudukan?

Apabila menepis kedudukan mungkin membawa kesan publisiti yang kuat dan mungkin meletakkan asas untuk pembiayaan, penambahan kepentingan komersial sudah pasti akan mendorong pengeluar model AI yang besar untuk tergesa-gesa menepis kedudukan.

Atas ialah kandungan terperinci Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk 'meleret kedudukan'?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7530

15

Tutorial CakePHP

1379

52

Apakah format nama akaun stim

82

11

kunci pengaktifan win11 kekal

54

19

Sambungan NYT menunjukkan dan jawapan

21

76

Tunjukkan Lagi

Related knowledge

Senarai kedudukan prestasi kad grafik terkini pada tahun 2023

Senarai kedudukan prestasi kad grafik terkini pada tahun 2023 Jan 05, 2024 pm 11:12 PM

Kedudukan penanda aras kad grafik terkini untuk 2023 telah dikeluarkan Pengguna yang mengikuti carta tangga kad grafik boleh melihat Baru-baru ini, kerana pengeluar kad grafik terus mengeluarkan kad grafik baharu, malah memperkenalkan yang baharu kepada siri lama, senarai baharu. adalah berbeza sama sekali. ~2023 kedudukan penanda aras kad grafik, kedudukan tangga kad grafik, cadangan pembelian kad grafik komputer 2023: 1. Kad grafik rendah: RTX3050, 5600XT dan 2060S semuanya adalah pilihan peringkat permulaan yang baik membeli kad grafik dan mendapatkan CPU, yang boleh digunakan untuk bermain LOL, Cf, Overwatch dan permainan dalam talian 3D ringan yang lain, dengan prestasi kos yang cemerlang 2. Kad grafik kemasukan: 3060, sesuai untuk kebanyakan permainan 3D arus perdana umum, dengan sederhana dan kualiti imej yang rendah. 3. Kad grafik jarak pertengahan: NVIDIA: RTX3060Ti, RTX2

Penanda aras dibuka kunci Kirin 9000S terdedah: Prestasi menakjubkan melebihi jangkaan

Penanda aras dibuka kunci Kirin 9000S terdedah: Prestasi menakjubkan melebihi jangkaan Sep 05, 2023 pm 12:45 PM

Telefon bimbit Mate60Pro terbaru Huawei telah menarik perhatian meluas selepas ia mula dijual di pasaran domestik. Bagaimanapun, baru-baru ini terdapat beberapa kontroversi pada platform penanda aras mengenai prestasi pemproses Kirin 9000S yang dilengkapi pada mesin tersebut. Mengikut keputusan ujian platform, skor larian Kirin 9000S tidak lengkap, dan skor larian GPU hilang, mengakibatkan ketidakupayaan beberapa perisian penanda aras untuk menyesuaikan diri Menurut maklumat yang didedahkan dalam talian, Kirin 9000S telah mencapai keputusan yang menakjubkan ujian skor larian tidak berkunci Jumlah markah ialah 950935 mata. Secara khusus, skor CPU adalah setinggi 279,677 mata, manakala skor GPU yang hilang sebelum ini ialah 251,152 mata. Berbanding dengan jumlah markah 699783 mata dalam ujian rasmi AnTuTu sebelum ini, ini menunjukkan peningkatan prestasi Kirin 9000S.

Permintaan untuk kuasa pengkomputeran telah meletup di bawah gelombang model besar AI 'model besar + kuasa pengkomputeran besar' SenseTime memperkasakan pembangunan pelbagai industri.

Permintaan untuk kuasa pengkomputeran telah meletup di bawah gelombang model besar AI 'model besar + kuasa pengkomputeran besar' SenseTime memperkasakan pembangunan pelbagai industri. Jun 09, 2023 pm 07:35 PM

Baru-baru ini, "Persidangan Pengkomputeran Pintar Kawasan Baharu Lingang" dengan tema "AI menerajui era, kuasa pengkomputeran memacu masa depan" telah diadakan. Pada mesyuarat itu, Perikatan Industri Pengkomputeran Pintar Kawasan Baru telah ditubuhkan secara rasmi SenseTime menjadi ahli perikatan sebagai pembekal kuasa pengkomputeran Pada masa yang sama, SenseTime telah dianugerahkan gelaran perusahaan "Industri Pengkomputeran Pintar Kawasan Baru". Sebagai peserta aktif dalam ekosistem kuasa pengkomputeran Lingang, SenseTime kini telah membina salah satu platform pengkomputeran pintar terbesar di Asia - SenseTime AIDC, yang boleh mengeluarkan jumlah kuasa pengkomputeran sebanyak 5,000 Petaflops dan menyokong 20 model ultra-besar dengan ratusan bilion parameter. Berlatih pada masa yang sama. SenseCore, peranti berskala besar yang dibina dengan AIDC sebagai asas dan berpandangan ke hadapan, komited untuk mencipta infrastruktur dan perkhidmatan AI generasi seterusnya yang cekap tinggi, kos rendah dan berskala besar untuk memperkasakan kecerdasan buatan.

Penyelidik: Inferens model AI menggunakan lebih banyak kuasa, dan penggunaan elektrik industri pada 2027 akan setanding dengan Belanda

Penyelidik: Inferens model AI menggunakan lebih banyak kuasa, dan penggunaan elektrik industri pada 2027 akan setanding dengan Belanda Oct 14, 2023 am 08:25 AM

IT House melaporkan pada 13 Oktober bahawa "Joule", jurnal saudara perempuan "Cell", menerbitkan kertas minggu ini yang dipanggil "The growth footprint of artificial intelligence (The growing energy footprint of artificial intelligence)". Melalui pertanyaan, kami mengetahui bahawa kertas kerja ini diterbitkan oleh Alex DeVries, pengasas institusi penyelidikan saintifik Digiconomist. Beliau mendakwa bahawa prestasi penaakulan kecerdasan buatan pada masa hadapan mungkin menggunakan banyak tenaga elektrik Dianggarkan menjelang 2027, penggunaan elektrik kecerdasan buatan mungkin bersamaan dengan penggunaan elektrik Belanda selama setahun dunia luar sentiasa percaya bahawa melatih model AI adalah "perkara yang paling penting dalam AI".

OPPO Reno11 F muncul di Geekbench: dilengkapi dengan Dimensity 7050

OPPO Reno11 F muncul di Geekbench: dilengkapi dengan Dimensity 7050 Feb 06, 2024 pm 11:10 PM

Menurut laporan media pada 6 Februari, OPPO mengeluarkan siri OPPOReno11 tahun lepas, menawarkan dua versi: versi standard dan versi Pro Kini OPPO juga akan membawakan versi baharu siri Reno11 - Reno11F. Pada masa ini, OPPOReno11F telah muncul dalam pangkalan data Geekbench6 Mesin baharu ini mempunyai skor larian teras tunggal sebanyak 897 mata dan skor larian berbilang teras sebanyak 2329 mata. Mengikut ujian penanda aras, telefon baharu ini dilengkapi dengan MediaTek Dimensity 7050 SoC, dipasangkan dengan GPU Mali-G68MC4 dan 8GB RAM, dan diprapasang dengan sistem ColorOS14 berdasarkan Android 14. Menurut berita itu, OPPOReno11F akan menggunakan A 6.7 inci

China Unicom mengeluarkan model AI imej dan teks besar yang boleh menjana imej dan klip video daripada teks

China Unicom mengeluarkan model AI imej dan teks besar yang boleh menjana imej dan klip video daripada teks Jun 29, 2023 am 09:26 AM

Memandu China News pada 28 Jun 2023, hari ini semasa Kongres Dunia Mudah Alih di Shanghai, China Unicom mengeluarkan model grafik "Honghu Graphic Model 1.0". China Unicom berkata bahawa model grafik Honghu ialah model besar pertama untuk perkhidmatan tambah nilai pengendali. Wartawan China Business News mengetahui bahawa model grafik Honghu pada masa ini mempunyai dua versi 800 juta parameter latihan dan 2 bilion parameter latihan, yang boleh merealisasikan fungsi seperti gambar berasaskan teks, penyuntingan video dan gambar berasaskan gambar. Di samping itu, Pengerusi Unicom China Liu Liehong juga berkata dalam ucaptama hari ini bahawa AI generatif membawa ketunggalan pembangunan, dan 50% pekerjaan akan terjejas teruk oleh kecerdasan buatan dalam tempoh dua tahun akan datang.

OnePlus Ace 3V muncul pada platform Geekbench: tayangan perdana dunia Snapdragon 7+ Gen3

OnePlus Ace 3V muncul pada platform Geekbench: tayangan perdana dunia Snapdragon 7+ Gen3 Mar 12, 2024 pm 10:34 PM

Menurut berita pada 12 Mac, telefon bimbit OnePlus Ace3V telah muncul di platform penanda aras Geekbench, dengan nombor model PJF110. Dalam skor larian Geekbench6, OnePlus Ace3V mencapai skor teras tunggal tertinggi 1848 dan skor berbilang teras 5007, dan dalam Geekbench5 ia mencapai skor teras tunggal 1416 dan skor berbilang teras 4829, yang hampir dengan Dimensity 9200 +. Dilaporkan bahawa OnePlus Ace3V akan menjadi platform mudah alih Snapdragon 7+Gen3 yang pertama di dunia Ia dihasilkan berdasarkan proses 4nm TSMC dan menggunakan konfigurasi teras "1+4+3" frekuensi teras ultra besar Cortex-X4 ialah 2.9 GHz dan menyepadukan GPU Adreno732. Dari segi hayat bateri, pesawat itu dilengkapi dengan 55

Empat kali lebih pantas, enjin inferens latihan berprestasi tinggi sumber terbuka Bytedance teknologi LightSeq didedahkan

Empat kali lebih pantas, enjin inferens latihan berprestasi tinggi sumber terbuka Bytedance teknologi LightSeq didedahkan May 02, 2023 pm 05:52 PM

Model Transformer berasal daripada kertas kerja "Attentionisallyouneed" yang diterbitkan oleh pasukan Google pada 2017. Kertas kerja ini mula-mula mencadangkan konsep penggunaan Attention untuk menggantikan struktur kitaran model Seq2Seq, yang membawa impak yang hebat kepada bidang NLP. Dan dengan kemajuan berterusan penyelidikan dalam beberapa tahun kebelakangan ini, teknologi berkaitan Transformer telah beransur-ansur mengalir daripada pemprosesan bahasa semula jadi ke bidang lain. Sehingga kini, model siri Transformer telah menjadi model arus perdana dalam NLP, CV, ASR dan bidang lain. Oleh itu, cara melatih dan membuat kesimpulan model Transformer dengan lebih pantas telah menjadi hala tuju penyelidikan yang penting dalam industri. Teknik pengkuantitian ketepatan rendah boleh

See all articles