


Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk 'meleret kedudukan'?
Saya percaya rakan-rakan yang meminati bulatan telefon bimbit pasti tidak asing dengan ungkapan "dapat markah jika tidak menerimanya". Sebagai contoh, perisian ujian prestasi teori seperti AnTuTu dan GeekBench telah menarik banyak perhatian daripada pemain kerana ia boleh mencerminkan prestasi telefon mudah alih pada tahap tertentu. Begitu juga, terdapat perisian penanda aras yang sepadan untuk pemproses PC dan kad grafik untuk mengukur prestasi mereka
Memandangkan "semuanya boleh ditanda aras", model AI besar yang paling popular juga telah mula mengambil bahagian dalam pertandingan penanda aras Terutama selepas permulaan "Perang Model Ratus", penemuan dibuat hampir setiap hari, dan setiap syarikat memanggil dirinya sebagai ". No. 1 dalam penandaarasan".一"
Model AI besar domestik hampir tidak pernah ketinggalan dari segi skor prestasi, tetapi mereka tidak boleh mengatasi GPT-4 dari segi pengalaman pengguna. Ini menimbulkan persoalan, iaitu, di pusat jualan utama, setiap pengeluar telefon mudah alih sentiasa boleh mendakwa bahawa produknya adalah "nombor satu dalam jualan". untuk menjadi nombor satu, tetapi dalam bidang model besar AI, keadaannya berbeza. Lagipun, kriteria penilaian mereka pada asasnya bersatu, termasuk MMLU (digunakan untuk mengukur keupayaan pemahaman bahasa berbilang tugas), Big-Bench (digunakan untuk mengukur dan mengekstrapolasi keupayaan LLM), dan AGIEval (digunakan untuk menilai keupayaan menangani masalah peringkat manusia).
Pada masa ini, senarai penilaian model berskala besar yang sering disebut di China termasuk SuperCLUE, CMMLU dan C-Eval. Antaranya, CMMLU dan C-Eval adalah set penilaian peperiksaan komprehensif yang dibina bersama oleh Universiti Tsinghua, Universiti Jiao Tong Shanghai dan Universiti Edinburgh. CMMLU dilancarkan bersama oleh MBZUAI, Shanghai Jiao Tong University dan Microsoft Research Asia. Bagi SuperCLUE, ia ditulis bersama oleh profesional kecerdasan buatan dari universiti utama
Seperti yang kita sedia maklum, SoC telefon pintar, CPU komputer dan kad grafik secara automatik akan mengurangkan kekerapan di bawah suhu tinggi untuk melindungi jangka hayatnya, manakala suhu rendah boleh meningkatkan prestasi cip. Oleh itu, sesetengah orang akan meletakkan telefon bimbit mereka di dalam peti sejuk atau melengkapkan komputer mereka dengan sistem penyejukan yang lebih berkuasa untuk menjalankan ujian prestasi, dan mereka biasanya boleh mendapat markah yang lebih tinggi daripada biasa. Di samping itu, pengeluar telefon mudah alih utama juga akan melaksanakan "pengoptimuman eksklusif" untuk pelbagai perisian penanda aras, yang telah menjadi operasi standard mereka
Anda boleh bayangkan sebelum peperiksaan, jika anda secara tidak sengaja melihat kertas ujian dan jawapan standard, dan kemudian menghafal soalan secara tidak dijangka, markah peperiksaan anda akan bertambah baik. Oleh itu, bank soalan yang dipratetap oleh senarai model besar ditambahkan pada set latihan, supaya model besar menjadi model yang sesuai dengan data penanda aras. Lebih-lebih lagi, LLM semasa itu sendiri terkenal dengan ingatan yang sangat baik, dan membaca jawapan standard hanyalah sekeping kek
Penyelidik dari pasukan Hillhouse mendapati bahawa kebocoran penanda aras boleh menyebabkan model besar menjalankan hasil yang berlebihan Contohnya, model 1.3B boleh mengatasi saiz model 10 kali ganda dalam beberapa tugasan, tetapi kesan sampingannya ialah ia direka khas untuk ". pengambilan peperiksaan" Untuk model besar, prestasi pada tugas ujian biasa yang lain akan terjejas dengan teruk. Lagipun, jika anda memikirkannya, anda akan tahu bahawa model AI yang besar sepatutnya menjadi "pembuat soalan", tetapi ia telah menjadi "penghafal soalan". pengetahuan khusus dan gaya keluaran senarai Ia pasti akan mengelirukan model besar.
Bukan persimpangan set latihan, set pengesahan, dan set ujian jelas hanya keadaan yang ideal Lagipun, realitinya sangat kurus, dan masalah kebocoran data hampir tidak dapat dielakkan dari akar. Dengan kemajuan berterusan teknologi berkaitan, keupayaan memori dan penerimaan struktur Transformer, yang merupakan asas model besar semasa, sentiasa bertambah baik pada musim panas ini, strategi AI Umum Microsoft Research telah membolehkan model menerima 100 juta Token tanpa menyebabkan tidak boleh diterima kerana kealpaan. Dengan kata lain, pada masa hadapan, model AI yang besar berkemungkinan mempunyai keupayaan untuk membaca keseluruhan Internet.
Walaupun kemajuan teknologi diketepikan, pencemaran data sebenarnya sukar dielakkan berdasarkan tahap teknikal semasa, kerana data berkualiti tinggi sentiasa terhad dan kapasiti pengeluaran terhad. Satu kertas kerja yang diterbitkan oleh pasukan penyelidik AI Epoch pada awal tahun ini menunjukkan bahawa AI akan menggunakan semua data bahasa manusia berkualiti tinggi dalam masa kurang daripada 5 tahun, dan keputusan ini ialah ia akan meningkatkan kadar pertumbuhan data bahasa manusia, iaitu semua manusia akan menerbitkan dalam 5 tahun akan datang Buku yang ditulis, kertas yang ditulis, dan kod yang ditulis semuanya diambil kira untuk meramalkan hasilnya.
Sekiranya set data sesuai untuk penilaian, maka ia pasti akan menunjukkan prestasi yang lebih baik dalam pra-latihan. Sebagai contoh, GPT-4 OpenAI menggunakan set data penilaian inferens berwibawa GSM8K. Oleh itu, pada masa ini terdapat masalah yang memalukan dalam bidang penilaian model berskala besar Permintaan untuk data daripada model berskala besar nampaknya tidak berkesudahan, yang menyebabkan agensi penilaian perlu bergerak lebih pantas dan lebih jauh daripada pengeluar kecerdasan buatan. model berskala besar. Walau bagaimanapun, agensi penilaian hari ini nampaknya tidak mempunyai keupayaan untuk melakukan ini
Mengapakah sesetengah pengeluar memberi perhatian khusus kepada skor larian model besar dan cuba meningkatkan kedudukan satu demi satu? Malah, logik di sebalik tingkah laku ini adalah sama seperti pembangun Apl menyuntik air ke dalam bilangan pengguna Apl mereka sendiri. Lagipun, skala pengguna Apl adalah faktor utama dalam mengukur nilainya, dan pada peringkat awal model AI berskala besar semasa, keputusan dalam senarai penilaian adalah hampir satu-satunya kriteria yang agak objektif Lagipun, dalam persepsi awam, skor tinggi bermakna Ia menyamai prestasi yang kukuh.
Apabila menepis kedudukan mungkin membawa kesan publisiti yang kuat dan mungkin meletakkan asas untuk pembiayaan, penambahan kepentingan komersial sudah pasti akan mendorong pengeluar model AI yang besar untuk tergesa-gesa menepis kedudukan.
Atas ialah kandungan terperinci Markah akan diukur apabila terdapat percanggahan pendapat Mengapa model AI domestik yang besar ketagih untuk 'meleret kedudukan'?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kedudukan penanda aras kad grafik terkini untuk 2023 telah dikeluarkan Pengguna yang mengikuti carta tangga kad grafik boleh melihat Baru-baru ini, kerana pengeluar kad grafik terus mengeluarkan kad grafik baharu, malah memperkenalkan yang baharu kepada siri lama, senarai baharu. adalah berbeza sama sekali. ~2023 kedudukan penanda aras kad grafik, kedudukan tangga kad grafik, cadangan pembelian kad grafik komputer 2023: 1. Kad grafik rendah: RTX3050, 5600XT dan 2060S semuanya adalah pilihan peringkat permulaan yang baik membeli kad grafik dan mendapatkan CPU, yang boleh digunakan untuk bermain LOL, Cf, Overwatch dan permainan dalam talian 3D ringan yang lain, dengan prestasi kos yang cemerlang 2. Kad grafik kemasukan: 3060, sesuai untuk kebanyakan permainan 3D arus perdana umum, dengan sederhana dan kualiti imej yang rendah. 3. Kad grafik jarak pertengahan: NVIDIA: RTX3060Ti, RTX2

Telefon bimbit Mate60Pro terbaru Huawei telah menarik perhatian meluas selepas ia mula dijual di pasaran domestik. Bagaimanapun, baru-baru ini terdapat beberapa kontroversi pada platform penanda aras mengenai prestasi pemproses Kirin 9000S yang dilengkapi pada mesin tersebut. Mengikut keputusan ujian platform, skor larian Kirin 9000S tidak lengkap, dan skor larian GPU hilang, mengakibatkan ketidakupayaan beberapa perisian penanda aras untuk menyesuaikan diri Menurut maklumat yang didedahkan dalam talian, Kirin 9000S telah mencapai keputusan yang menakjubkan ujian skor larian tidak berkunci Jumlah markah ialah 950935 mata. Secara khusus, skor CPU adalah setinggi 279,677 mata, manakala skor GPU yang hilang sebelum ini ialah 251,152 mata. Berbanding dengan jumlah markah 699783 mata dalam ujian rasmi AnTuTu sebelum ini, ini menunjukkan peningkatan prestasi Kirin 9000S.

Baru-baru ini, "Persidangan Pengkomputeran Pintar Kawasan Baharu Lingang" dengan tema "AI menerajui era, kuasa pengkomputeran memacu masa depan" telah diadakan. Pada mesyuarat itu, Perikatan Industri Pengkomputeran Pintar Kawasan Baru telah ditubuhkan secara rasmi SenseTime menjadi ahli perikatan sebagai pembekal kuasa pengkomputeran Pada masa yang sama, SenseTime telah dianugerahkan gelaran perusahaan "Industri Pengkomputeran Pintar Kawasan Baru". Sebagai peserta aktif dalam ekosistem kuasa pengkomputeran Lingang, SenseTime kini telah membina salah satu platform pengkomputeran pintar terbesar di Asia - SenseTime AIDC, yang boleh mengeluarkan jumlah kuasa pengkomputeran sebanyak 5,000 Petaflops dan menyokong 20 model ultra-besar dengan ratusan bilion parameter. Berlatih pada masa yang sama. SenseCore, peranti berskala besar yang dibina dengan AIDC sebagai asas dan berpandangan ke hadapan, komited untuk mencipta infrastruktur dan perkhidmatan AI generasi seterusnya yang cekap tinggi, kos rendah dan berskala besar untuk memperkasakan kecerdasan buatan.

IT House melaporkan pada 13 Oktober bahawa "Joule", jurnal saudara perempuan "Cell", menerbitkan kertas minggu ini yang dipanggil "The growth footprint of artificial intelligence (The growing energy footprint of artificial intelligence)". Melalui pertanyaan, kami mengetahui bahawa kertas kerja ini diterbitkan oleh Alex DeVries, pengasas institusi penyelidikan saintifik Digiconomist. Beliau mendakwa bahawa prestasi penaakulan kecerdasan buatan pada masa hadapan mungkin menggunakan banyak tenaga elektrik Dianggarkan menjelang 2027, penggunaan elektrik kecerdasan buatan mungkin bersamaan dengan penggunaan elektrik Belanda selama setahun dunia luar sentiasa percaya bahawa melatih model AI adalah "perkara yang paling penting dalam AI".

Menurut laporan media pada 6 Februari, OPPO mengeluarkan siri OPPOReno11 tahun lepas, menawarkan dua versi: versi standard dan versi Pro Kini OPPO juga akan membawakan versi baharu siri Reno11 - Reno11F. Pada masa ini, OPPOReno11F telah muncul dalam pangkalan data Geekbench6 Mesin baharu ini mempunyai skor larian teras tunggal sebanyak 897 mata dan skor larian berbilang teras sebanyak 2329 mata. Mengikut ujian penanda aras, telefon baharu ini dilengkapi dengan MediaTek Dimensity 7050 SoC, dipasangkan dengan GPU Mali-G68MC4 dan 8GB RAM, dan diprapasang dengan sistem ColorOS14 berdasarkan Android 14. Menurut berita itu, OPPOReno11F akan menggunakan A 6.7 inci

Memandu China News pada 28 Jun 2023, hari ini semasa Kongres Dunia Mudah Alih di Shanghai, China Unicom mengeluarkan model grafik "Honghu Graphic Model 1.0". China Unicom berkata bahawa model grafik Honghu ialah model besar pertama untuk perkhidmatan tambah nilai pengendali. Wartawan China Business News mengetahui bahawa model grafik Honghu pada masa ini mempunyai dua versi 800 juta parameter latihan dan 2 bilion parameter latihan, yang boleh merealisasikan fungsi seperti gambar berasaskan teks, penyuntingan video dan gambar berasaskan gambar. Di samping itu, Pengerusi Unicom China Liu Liehong juga berkata dalam ucaptama hari ini bahawa AI generatif membawa ketunggalan pembangunan, dan 50% pekerjaan akan terjejas teruk oleh kecerdasan buatan dalam tempoh dua tahun akan datang.

Menurut berita pada 12 Mac, telefon bimbit OnePlus Ace3V telah muncul di platform penanda aras Geekbench, dengan nombor model PJF110. Dalam skor larian Geekbench6, OnePlus Ace3V mencapai skor teras tunggal tertinggi 1848 dan skor berbilang teras 5007, dan dalam Geekbench5 ia mencapai skor teras tunggal 1416 dan skor berbilang teras 4829, yang hampir dengan Dimensity 9200 +. Dilaporkan bahawa OnePlus Ace3V akan menjadi platform mudah alih Snapdragon 7+Gen3 yang pertama di dunia Ia dihasilkan berdasarkan proses 4nm TSMC dan menggunakan konfigurasi teras "1+4+3" frekuensi teras ultra besar Cortex-X4 ialah 2.9 GHz dan menyepadukan GPU Adreno732. Dari segi hayat bateri, pesawat itu dilengkapi dengan 55

Model Transformer berasal daripada kertas kerja "Attentionisallyouneed" yang diterbitkan oleh pasukan Google pada 2017. Kertas kerja ini mula-mula mencadangkan konsep penggunaan Attention untuk menggantikan struktur kitaran model Seq2Seq, yang membawa impak yang hebat kepada bidang NLP. Dan dengan kemajuan berterusan penyelidikan dalam beberapa tahun kebelakangan ini, teknologi berkaitan Transformer telah beransur-ansur mengalir daripada pemprosesan bahasa semula jadi ke bidang lain. Sehingga kini, model siri Transformer telah menjadi model arus perdana dalam NLP, CV, ASR dan bidang lain. Oleh itu, cara melatih dan membuat kesimpulan model Transformer dengan lebih pantas telah menjadi hala tuju penyelidikan yang penting dalam industri. Teknik pengkuantitian ketepatan rendah boleh
