Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun-AI-php.cn

Jadual Kandungan

Kaedah pengukuran

Rumah

Peranti teknologi

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun

王林

Jan 14, 2024 pm 12:15 PM

openai gpt-4

GPT-4, yang telah dianggap sebagai salah satu model bahasa yang paling berkuasa di dunia sejak dikeluarkan, malangnya telah mengalami beberapa siri krisis kepercayaan.

Khabar angin baru-baru ini bahawa GPT-4 telah menjadi "malas" lebih menarik jika kita menghubungkan insiden "intermittent intelligence" awal tahun ini dengan reka bentuk semula OpenAI bagi seni bina GPT-4. Seseorang telah menguji dan mendapati bahawa selagi anda memberitahu GPT-4 "ia adalah percutian musim sejuk", ia akan menjadi malas, seolah-olah ia telah memasuki keadaan hibernasi.

Untuk menyelesaikan masalah prestasi sifar sampel model yang lemah pada tugasan baharu, kami boleh mengambil kaedah berikut: 1. Peningkatan data: Meningkatkan keupayaan generalisasi model dengan mengembangkan dan mengubah data sedia ada. Contohnya, data imej boleh diubah dengan putaran, penskalaan, terjemahan, dsb., atau dengan mensintesis sampel data baharu. 2. Memindahkan pembelajaran: Gunakan model yang telah dilatih mengenai tugasan lain untuk memindahkan parameter dan pengetahuan mereka kepada tugasan baharu. Ini boleh memanfaatkan pengetahuan dan pengalaman sedia ada untuk meningkatkan prestasi GPT-4 Baru-baru ini, penyelidik dari University of California, Santa Cruz menerbitkan penemuan baharu dalam kertas kerja yang mungkin dapat menjelaskan kemerosotan prestasi GPT-4 .

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun "Kami mendapati bahawa LLM menunjukkan prestasi yang lebih baik pada set data yang dikeluarkan sebelum tarikh penciptaan data latihan berbanding set data yang dikeluarkan selepasnya." tugasan baru. Ini bermakna LLM hanyalah kaedah meniru kecerdasan berdasarkan perolehan anggaran, terutamanya menghafal sesuatu tanpa sebarang tahap pemahaman.

Secara terus terang, keupayaan generalisasi LLM adalah "tidak sekuat yang dinyatakan" - asasnya tidak kukuh, dan akan sentiasa ada kesilapan dalam pertempuran sebenar.

Sebab utama keputusan ini ialah "pencemaran tugas", yang merupakan salah satu bentuk pencemaran data. Pencemaran data yang kita kenal sebelum ini ialah pencemaran data ujian, iaitu kemasukan contoh dan label data ujian dalam data pra-latihan. "Pencemaran tugas" ialah penambahan contoh latihan tugasan kepada data pra-latihan, menjadikan penilaian dalam kaedah sampel sifar atau beberapa sampel tidak lagi realistik dan berkesan.

Pengkaji menjalankan analisis sistematik terhadap masalah pencemaran data buat kali pertama dalam makalah:

Pautan kertas: https://arxiv.org/pdf/23312.pdf/23312.pdf

Selepas membaca ini Dalam kertas itu, seseorang berkata "secara pesimis":

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun

Inilah nasib semua model pembelajaran mesin (ML) yang tidak mempunyai keupayaan pembelajaran berterusan, iaitu, berat model ML akan dibekukan selepas latihan tetapi pengedaran input akan terus berubah, dan jika model tidak dapat terus menyesuaikan diri dengan perubahan ini, ia akan perlahan-lahan merosot.

Ini bermakna apabila bahasa pengaturcaraan sentiasa dikemas kini, alat pengekodan berasaskan LLM juga akan merosot. Ini adalah salah satu sebab mengapa anda tidak perlu terlalu bergantung pada alat yang rapuh itu.

Melatih semula model ini secara berterusan adalah mahal, dan lambat laun seseorang akan berputus asa dengan kaedah yang tidak cekap ini.

Pada masa ini tiada model ML yang boleh dipercayai dan berterusan menyesuaikan diri dengan perubahan pengagihan input tanpa menyebabkan gangguan teruk atau kehilangan prestasi pada tugas pengekodan sebelumnya.

Dan ini adalah salah satu bidang di mana rangkaian saraf biologi mahir. Disebabkan oleh keupayaan generalisasi rangkaian saraf biologi yang kukuh, pembelajaran tugasan yang berbeza boleh meningkatkan lagi prestasi sistem, kerana pengetahuan yang diperoleh daripada satu tugasan membantu meningkatkan keseluruhan proses pembelajaran itu sendiri, yang dipanggil "pembelajaran meta".

Seberapa serius masalah "pencemaran tugas"? Mari kita lihat kandungan kertas itu.

Model dan Set Data

Terdapat 12 model yang digunakan dalam percubaan (seperti yang ditunjukkan dalam Jadual 1), 5 daripadanya adalah model siri GPT-3 dan 7 adalah model terbuka dengan berat bebas.

Set data terbahagi kepada dua kategori: set data yang dikeluarkan sebelum atau selepas 1 Januari 2021. Penyelidik menggunakan kaedah pembahagian ini untuk menganalisis perbezaan antara set data lama dan set data sampel baharu atau sedikit perbezaan prestasi sampel, dan menggunakan kaedah pembahagian yang sama untuk semua LLM. Jadual 1 menyenaraikan masa penciptaan setiap data latihan model, dan Jadual 2 menyenaraikan tarikh keluaran setiap set data.

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun

Pertimbangan untuk pendekatan di atas ialah penilaian sifar dan beberapa pukulan melibatkan model yang membuat ramalan tentang tugasan yang tidak pernah dilihat atau hanya dilihat beberapa kali semasa latihan tugas khusus yang perlu diselesaikan, dengan itu Memastikan penilaian yang adil terhadap kebolehan pembelajaran mereka. Walau bagaimanapun, model yang tercemar boleh memberikan ilusi kecekapan yang mereka tidak pernah didedahkan atau hanya didedahkan beberapa kali kerana mereka telah dilatih mengenai contoh tugas semasa pra-latihan. Dalam set data kronologi, lebih mudah untuk mengesan ketidakkonsistenan tersebut, kerana sebarang pertindihan atau anomali akan menjadi jelas.

Kaedah pengukuran

Para penyelidik menggunakan empat kaedah untuk mengukur "pencemaran tugas":

Pemeriksaan data latihan: Cari contoh latihan tugasan dalam data latihan.
Pengekstrakan contoh tugas: Ekstrak contoh tugas daripada model sedia ada. Hanya model yang ditala arahan boleh diekstrak Analisis ini juga boleh digunakan untuk data latihan atau pengekstrakan data ujian. Ambil perhatian bahawa untuk mengesan pencemaran tugas, contoh tugas yang diekstrak tidak perlu sepadan dengan contoh data latihan sedia ada. Mana-mana contoh yang menunjukkan tugasan menunjukkan kemungkinan pencemaran pembelajaran sifar pukulan dan pembelajaran beberapa pukulan.
Inferens Ahli: Kaedah ini hanya sesuai untuk tugas penjanaan. Menyemak bahawa kandungan yang dijana model untuk contoh input adalah betul-betul sama dengan set data asal. Jika ia sepadan dengan tepat, kita boleh membuat kesimpulan bahawa ia adalah ahli data latihan LLM. Ini berbeza daripada pengekstrakan contoh tugas kerana output yang dijana disemak untuk padanan yang tepat. Padanan tepat pada tugas penjanaan terbuka sangat menunjukkan bahawa model melihat contoh ini semasa latihan, melainkan model itu "psikik" dan mengetahui perkataan tepat yang digunakan dalam data. (Nota, ini hanya boleh digunakan untuk membina tugasan.)
Analisis masa: Untuk set model yang data latihan dikumpulkan dalam jangka masa yang diketahui, ukur prestasinya pada set data dengan tarikh keluaran yang diketahui dan semak pencemaran menggunakan pemasaan bukti bukti.

Tiga kaedah pertama mempunyai ketepatan yang tinggi, tetapi kadar ingatan yang rendah. Jika anda boleh mencari data dalam data latihan tugasan, anda boleh yakin bahawa model telah melihat contoh. Walau bagaimanapun, disebabkan oleh perubahan dalam format data, perubahan dalam kata kunci yang digunakan untuk mentakrifkan tugas, dan saiz set data, mendapati tiada bukti pencemaran menggunakan tiga kaedah pertama tidak membuktikan ketiadaan pencemaran.

Kaedah keempat, analisis kronologi mempunyai kadar ingatan yang tinggi tetapi ketepatan yang rendah. Jika prestasi tinggi disebabkan oleh pencemaran tugas, maka analisis kronologi mempunyai peluang yang baik untuk mengesannya. Tetapi faktor lain juga mungkin menyebabkan prestasi bertambah baik dari semasa ke semasa dan oleh itu menjadi kurang tepat.

Oleh itu, penyelidik menggunakan keempat-empat kaedah untuk mengesan pencemaran tugas dan menemui bukti kukuh pencemaran tugas dalam kombinasi model dan set data tertentu.

Mereka mula-mula melakukan analisis masa pada semua model dan set data yang diuji kerana kemungkinan besar akan mengesan kemungkinan pencemaran, kemudian menggunakan pemeriksaan data latihan dan pengekstrakan contoh tugas untuk mencari bukti selanjutnya mengenai pencemaran tugasan; -tugas percuma, dan akhirnya analisis tambahan menggunakan serangan inferens keahlian.

Kesimpulan utama adalah seperti berikut:

1. Para penyelidik menganalisis set data yang dibuat sebelum dan selepas data latihan setiap model dirangkak di Internet. Didapati bahawa kemungkinan prestasi melebihi kebanyakan garis dasar adalah lebih tinggi dengan ketara untuk set data yang dibuat sebelum mengumpul data latihan LLM (Rajah 1).

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun

2. Penyelidik menjalankan pemeriksaan data latihan dan pengekstrakan contoh tugasan untuk mencari kemungkinan pencemaran tugas. Telah didapati bahawa untuk tugasan pengelasan di mana pencemaran tugas tidak mungkin, model jarang mencapai peningkatan ketara secara statistik berbanding garis dasar majoriti mudah merentas pelbagai tugas, sama ada sifar atau beberapa pukulan (Rajah 2).

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun

Para penyelidik juga menyemak prestasi purata siri GPT-3 dan membuka LLM dari semasa ke semasa, seperti yang ditunjukkan dalam Rajah 3:

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun

a kajian kes.

penyelidik Serangan inferens ahli terhadap tugas penghuraian semantik juga telah dicuba pada semua model dalam analisis dan korelasi yang kuat (R=.88) didapati antara bilangan contoh yang diekstrak dan ketepatan model dalam tugasan akhir (Rajah 6). ). Ini sangat membuktikan bahawa peningkatan prestasi sifar pukulan dalam tugasan ini adalah disebabkan oleh pencemaran tugas.

Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun

4 Para penyelidik juga mengkaji dengan teliti model siri GPT-3 dan mendapati bahawa contoh latihan boleh diekstrak daripada model GPT-3, dan dalam setiap versi dari davinci kepada GPT-3.5-turbo, bilangan contoh latihan yang boleh yang diekstrak semakin meningkat, yang berkait rapat dengan peningkatan prestasi sifar pukulan model GPT-3 pada tugas ini (Rajah 2). Ini sangat membuktikan bahawa peningkatan prestasi model GPT-3 daripada davinci kepada GPT-3.5-turbo pada tugasan ini adalah disebabkan oleh pencemaran tugas.

Atas ialah kandungan terperinci Tafsiran baharu tahap kecerdasan GPT-4 yang semakin menurun. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7554

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Paradigma pengaturcaraan baharu, apabila Spring Boot bertemu OpenAI Feb 01, 2024 pm 09:18 PM

Pada tahun 2023, teknologi AI telah menjadi topik hangat dan memberi impak besar kepada pelbagai industri, terutamanya dalam bidang pengaturcaraan. Orang ramai semakin menyedari kepentingan teknologi AI, dan komuniti Spring tidak terkecuali. Dengan kemajuan berterusan teknologi GenAI (General Artificial Intelligence), ia menjadi penting dan mendesak untuk memudahkan penciptaan aplikasi dengan fungsi AI. Dengan latar belakang ini, "SpringAI" muncul, bertujuan untuk memudahkan proses membangunkan aplikasi berfungsi AI, menjadikannya mudah dan intuitif serta mengelakkan kerumitan yang tidak perlu. Melalui "SpringAI", pembangun boleh membina aplikasi dengan lebih mudah dengan fungsi AI, menjadikannya lebih mudah untuk digunakan dan dikendalikan.

Memilih model benam yang paling sesuai dengan data anda: Ujian perbandingan OpenAI dan benam berbilang bahasa sumber terbuka Feb 26, 2024 pm 06:10 PM

OpenAI baru-baru ini mengumumkan pelancaran model benam generasi terbaru mereka embeddingv3, yang mereka dakwa sebagai model benam paling berprestasi dengan prestasi berbilang bahasa yang lebih tinggi. Kumpulan model ini dibahagikan kepada dua jenis: pembenaman teks-3-kecil yang lebih kecil dan pembenaman teks-3-besar yang lebih berkuasa dan lebih besar. Sedikit maklumat didedahkan tentang cara model ini direka bentuk dan dilatih, dan model hanya boleh diakses melalui API berbayar. Jadi terdapat banyak model pembenaman sumber terbuka Tetapi bagaimana model sumber terbuka ini dibandingkan dengan model sumber tertutup OpenAI? Artikel ini akan membandingkan secara empirik prestasi model baharu ini dengan model sumber terbuka. Kami merancang untuk membuat data

Ameca generasi kedua ada di sini! Dia boleh berkomunikasi dengan penonton dengan lancar, ekspresi mukanya lebih realistik, dan dia boleh bercakap berpuluh-puluh bahasa. Mar 04, 2024 am 09:10 AM

Robot humanoid Ameca telah dinaik taraf kepada generasi kedua! Baru-baru ini, di Persidangan Komunikasi Mudah Alih Sedunia MWC2024, robot Ameca paling canggih di dunia muncul semula. Di sekitar venue, Ameca menarik sejumlah besar penonton. Dengan restu GPT-4, Ameca boleh bertindak balas terhadap pelbagai masalah dalam masa nyata. "Jom kita menari." Apabila ditanya sama ada dia mempunyai emosi, Ameca menjawab dengan beberapa siri mimik muka yang kelihatan sangat hidup. Hanya beberapa hari yang lalu, EngineeredArts, syarikat robotik British di belakang Ameca, baru sahaja menunjukkan hasil pembangunan terkini pasukan itu. Dalam video tersebut, robot Ameca mempunyai keupayaan visual dan boleh melihat serta menerangkan keseluruhan bilik dan objek tertentu. Perkara yang paling menakjubkan ialah dia juga boleh

750,000 pusingan pertempuran satu lawan satu antara model besar, GPT-4 memenangi kejuaraan, dan Llama 3 menduduki tempat kelima Apr 23, 2024 pm 03:28 PM

Mengenai Llama3, keputusan ujian baharu telah dikeluarkan - komuniti penilaian model besar LMSYS mengeluarkan senarai kedudukan model besar Llama3 menduduki tempat kelima, dan terikat untuk tempat pertama dengan GPT-4 dalam kategori Bahasa Inggeris. Gambar ini berbeza daripada Penanda Aras yang lain Senarai ini berdasarkan pertempuran satu lawan satu antara model, dan penilai dari seluruh rangkaian membuat cadangan dan skor mereka sendiri. Pada akhirnya, Llama3 menduduki tempat kelima dalam senarai, diikuti oleh tiga versi GPT-4 dan Claude3 Super Cup Opus yang berbeza. Dalam senarai tunggal Inggeris, Llama3 mengatasi Claude dan terikat dengan GPT-4. Mengenai keputusan ini, ketua saintis Meta LeCun sangat gembira, tweet semula dan

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Editor Zed berasaskan Rust telah menjadi sumber terbuka, dengan sokongan terbina dalam untuk OpenAI dan GitHub Copilot Feb 01, 2024 pm 02:51 PM

Pengarang丨Disusun oleh TimAnderson丨Dihasilkan oleh Noah|51CTO Technology Stack (WeChat ID: blog51cto) Projek editor Zed masih dalam peringkat pra-keluaran dan telah menjadi sumber terbuka di bawah lesen AGPL, GPL dan Apache. Editor menampilkan prestasi tinggi dan berbilang pilihan dibantu AI, tetapi pada masa ini hanya tersedia pada platform Mac. Nathan Sobo menjelaskan dalam catatan bahawa dalam asas kod projek Zed di GitHub, bahagian editor dilesenkan di bawah GPL, komponen bahagian pelayan dilesenkan di bawah AGPL dan bahagian GPUI (GPU Accelerated User) The interface) mengguna pakai Lesen Apache2.0. GPUI ialah produk yang dibangunkan oleh pasukan Zed

Model paling berkuasa di dunia bertukar tangan semalaman, menandakan berakhirnya era GPT-4! Claude 3 mengetik GPT-5 terlebih dahulu, dan membaca kertas 10,000 perkataan dalam masa 3 saat. Mar 06, 2024 pm 12:58 PM

Kelantangan gila, kelantangannya gila, dan model besar telah berubah lagi. Baru-baru ini, model AI paling berkuasa di dunia bertukar tangan dalam sekelip mata, dan GPT-4 ditarik dari altar. Anthropic mengeluarkan siri model Claude3 terbaharu Satu penilaian ayat: Ia benar-benar menghancurkan GPT-4! Dari segi penunjuk kebolehan berbilang modal dan bahasa, Claude3 menang. Dalam kata-kata Anthropic, model siri Claude3 telah menetapkan penanda aras industri baharu dalam penaakulan, matematik, pengekodan, pemahaman dan penglihatan berbilang bahasa! Anthropic ialah syarikat permulaan yang ditubuhkan oleh pekerja yang "membelot" daripada OpenAI kerana konsep keselamatan yang berbeza Produk mereka telah berulang kali memukul OpenAI. Kali ini, Claude3 juga menjalani pembedahan besar.

See all articles