Rumah Peranti teknologi AI Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data

Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data

Feb 04, 2024 pm 02:42 PM
model bahasa yang besar

Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data

Penyelidik di Makmal Kepintaran Buatan Pengkomputeran Awan Amazon baru-baru ini mendapati terdapat sejumlah besar kandungan yang dijana melalui terjemahan mesin di web, dan kualiti terjemahan ini merentas pelbagai bahasa secara amnya rendah. Pasukan penyelidik menekankan kepentingan kualiti dan asal data apabila melatih model bahasa yang besar. Penemuan ini menyerlahkan keperluan untuk memberi lebih perhatian kepada kualiti data dan pemilihan sumber apabila membina model bahasa berkualiti tinggi.

Kajian itu juga mendapati bahawa kandungan yang dijana mesin adalah lazim dalam terjemahan bahasa sumber rendah dan membentuk sebahagian besar kandungan web.

Tapak ini mendapati bahawa pasukan penyelidik membangunkan sumber besar yang dipanggil MWccMatrix untuk lebih memahami ciri-ciri kandungan terjemahan mesin. Sumber tersebut mengandungi 6.4 bilion ayat unik, meliputi 90 bahasa, dan menyediakan gabungan ayat yang menterjemah antara satu sama lain, yang dikenali sebagai tupel terjemahan.

Kajian ini mendapati bahawa sejumlah besar kandungan web diterjemahkan ke dalam pelbagai bahasa, selalunya melalui terjemahan mesin. Fenomena ini lazim dalam terjemahan daripada bahasa dengan sumber yang lebih sedikit dan menyumbang sebahagian besar kandungan web dalam bahasa ini.

Penyelidik juga melihat kecenderungan pilih kasih dalam kandungan yang diterjemahkan ke dalam pelbagai bahasa untuk tujuan seperti hasil pengiklanan.

Berdasarkan penyelidikan saya, saya membuat kesimpulan berikut: “Teknologi terjemahan mesin telah mencapai kemajuan yang ketara dalam dekad yang lalu, tetapi ia masih tidak dapat mencapai tahap kualiti manusia sejak beberapa tahun lalu, orang telah menggunakan sistem terjemahan mesin yang ada pada masa untuk menterjemah kandungan ditambahkan ke web, jadi kualiti kebanyakan kandungan yang diterjemahkan mesin di web berkemungkinan agak rendah dan gagal memenuhi piawaian moden Ini boleh menyebabkan lebih banyak 'halusinasi' dalam LLM model, dan bias pemilihan menunjukkan walaupun ralat terjemahan mesin tidak diambil kira , kualiti data juga mungkin lebih rendah Untuk latihan LLM, kualiti data adalah penting, dan korpora berkualiti tinggi, seperti buku dan artikel Wikipedia, biasanya memerlukan berbilang. upsampling.”

Atas ialah kandungan terperinci Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Panduan langkah demi langkah untuk menggunakan Groq Llama 3 70B secara tempatan Panduan langkah demi langkah untuk menggunakan Groq Llama 3 70B secara tempatan Jun 10, 2024 am 09:16 AM

Penterjemah |. Tinjauan Bugatti |. Chonglou Artikel ini menerangkan cara menggunakan enjin inferens GroqLPU untuk menjana respons sangat pantas dalam JanAI dan VSCode. Semua orang sedang berusaha membina model bahasa besar (LLM) yang lebih baik, seperti Groq yang memfokuskan pada bahagian infrastruktur AI. Sambutan pantas daripada model besar ini adalah kunci untuk memastikan model besar ini bertindak balas dengan lebih cepat. Tutorial ini akan memperkenalkan enjin parsing GroqLPU dan cara mengaksesnya secara setempat pada komputer riba anda menggunakan API dan JanAI. Artikel ini juga akan menyepadukannya ke dalam VSCode untuk membantu kami menjana kod, kod refactor, memasukkan dokumentasi dan menjana unit ujian. Artikel ini akan mencipta pembantu pengaturcaraan kecerdasan buatan kami sendiri secara percuma. Pengenalan kepada enjin inferens GroqLPU Groq

Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Jun 07, 2024 am 10:06 AM

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Model besar juga sangat berkuasa dalam ramalan siri masa! Pasukan China mengaktifkan keupayaan baharu LLM dan mencapai SOTA melebihi model tradisional Model besar juga sangat berkuasa dalam ramalan siri masa! Pasukan China mengaktifkan keupayaan baharu LLM dan mencapai SOTA melebihi model tradisional Apr 11, 2024 am 09:43 AM

Potensi model bahasa besar dirangsang - ramalan siri masa berketepatan tinggi boleh dicapai tanpa melatih model bahasa besar, mengatasi semua model siri masa tradisional. Monash University, Ant dan IBM Research bersama-sama membangunkan rangka kerja umum yang berjaya mempromosikan keupayaan model bahasa besar untuk memproses data jujukan merentas modaliti. Rangka kerja telah menjadi inovasi teknologi yang penting. Ramalan siri masa bermanfaat untuk membuat keputusan dalam sistem kompleks biasa seperti bandar, tenaga, pengangkutan, penderiaan jauh, dsb. Sejak itu, model besar dijangka merevolusikan perlombongan data siri masa/spatiotemporal. Pasukan penyelidikan rangka kerja pengaturcaraan semula model bahasa besar am mencadangkan rangka kerja umum untuk menggunakan model bahasa besar dengan mudah untuk ramalan siri masa umum tanpa sebarang latihan. Dua teknologi utama dicadangkan terutamanya: pengaturcaraan semula input masa; Masa-

Sebarkan model bahasa besar secara setempat dalam OpenHarmony Sebarkan model bahasa besar secara setempat dalam OpenHarmony Jun 07, 2024 am 10:02 AM

Artikel ini akan membuka sumber hasil "Pengedaran Tempatan Model Bahasa Besar dalam OpenHarmony" yang ditunjukkan pada Persidangan Teknologi OpenHarmony ke-2 alamat sumber terbuka: https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty/. InferLLM/docs/ hap_integrate.md. Idea dan langkah pelaksanaan adalah untuk memindahkan rangka kerja inferens model LLM ringan InferLLM kepada sistem standard OpenHarmony dan menyusun produk binari yang boleh dijalankan pada OpenHarmony. InferLLM ialah L yang mudah dan cekap

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir Apr 11, 2024 pm 03:10 PM

Model bahasa besar (LLM) menunjukkan prestasi yang mengagumkan dalam pemahaman bahasa dan pelbagai tugas penaakulan. Walau bagaimanapun, peranan mereka dalam penaakulan spatial, aspek utama kognisi manusia, masih belum dipelajari. Manusia mempunyai keupayaan untuk mencipta imej mental objek ghaib dan tindakan melalui proses yang dikenali sebagai mata minda, membolehkan untuk membayangkan dunia ghaib. Diilhamkan oleh keupayaan kognitif ini, penyelidik mencadangkan "Visualization of Thought" (VoT). VoT bertujuan untuk membimbing penaakulan spatial LLM dengan menggambarkan tanda penaakulan mereka, dengan itu membimbing langkah penaakulan seterusnya. Penyelidik menggunakan VoT untuk tugas penaakulan spatial berbilang hop, termasuk navigasi bahasa semula jadi, penglihatan

Merumuskan 374 karya berkaitan, pasukan Tao Dacheng, bersama-sama dengan Universiti Hong Kong dan UMD, mengeluarkan ulasan terbaru tentang penyulingan pengetahuan LLM Merumuskan 374 karya berkaitan, pasukan Tao Dacheng, bersama-sama dengan Universiti Hong Kong dan UMD, mengeluarkan ulasan terbaru tentang penyulingan pengetahuan LLM Mar 18, 2024 pm 07:49 PM

Model Bahasa Besar (LLM) telah berkembang pesat dalam dua tahun yang lalu, dan beberapa model dan produk yang fenomenal telah muncul, seperti GPT-4, Gemini, Claude, dll., tetapi kebanyakannya adalah sumber tertutup. Terdapat jurang yang besar antara kebanyakan LLM sumber terbuka yang kini boleh diakses oleh komuniti penyelidikan dan LLM sumber tertutup Oleh itu, meningkatkan keupayaan LLM sumber terbuka dan model kecil lain untuk mengurangkan jurang antara mereka dan model besar sumber tertutup telah menjadi tempat tumpuan penyelidikan. dalam padang ini. Keupayaan berkuasa LLM, terutamanya LLM sumber tertutup, membolehkan penyelidik saintifik dan pengamal industri menggunakan output dan pengetahuan model besar ini apabila melatih model mereka sendiri. Proses ini pada asasnya adalah penyulingan pengetahuan (Knowledge, Dist

OWASP mengeluarkan senarai semak keselamatan dan tadbir urus rangkaian model bahasa besar OWASP mengeluarkan senarai semak keselamatan dan tadbir urus rangkaian model bahasa besar Apr 17, 2024 pm 07:31 PM

Risiko terbesar yang dihadapi oleh teknologi kecerdasan buatan pada masa ini ialah pembangunan dan kelajuan aplikasi model bahasa besar (LLM) dan teknologi kecerdasan buatan generatif telah jauh melebihi kelajuan keselamatan dan tadbir urus. Penggunaan AI generatif dan produk model bahasa besar daripada syarikat seperti OpenAI, Anthropic, Google dan Microsoft berkembang dengan pesat. Pada masa yang sama, penyelesaian model bahasa besar sumber terbuka juga berkembang pesat komuniti kecerdasan buatan sumber terbuka seperti HuggingFace telah menyediakan sejumlah besar model sumber terbuka, set data dan aplikasi AI. Untuk menggalakkan pembangunan kecerdasan buatan, organisasi industri seperti OWASP, OpenSSF dan CISA sedang giat membangun dan menyediakan aset utama untuk keselamatan dan tadbir urus kecerdasan buatan, seperti OWASPAIExchange,

See all articles