


Penyelidikan menunjukkan: Sumber data kekal sebagai hambatan utama untuk AI
Data adalah nadi kepada mesin. Tanpa itu, anda tidak boleh membina apa-apa yang berkaitan dengan AI. Banyak organisasi masih bergelut untuk mendapatkan data yang baik dan bersih untuk mengekalkan AI dan inisiatif pembelajaran mesin mereka, menurut laporan Keadaan AI dan Pembelajaran Mesin Appen yang dikeluarkan minggu ini.
Menurut tinjauan Appen tentang kecerdasan buatan, antara empat peringkat kecerdasan buatan - perolehan data, penyediaan data, latihan dan penggunaan model, dan penilaian model berpandukan manusia, perolehan data menggunakan paling banyak sumber dan kos yang paling banyak. Yang paling lama dan paling mencabar. 504 pemimpin perniagaan dan pakar teknologi.
Secara purata, pemerolehan data menggunakan 34% daripada belanjawan AI organisasi, manakala penyediaan data dan ujian model dan penggunaan setiap menyumbang 24%, dan penilaian model 15%, menurut tinjauan Appen, yang dijalankan oleh Harris Tinjauan telah dijalankan dan termasuk pembuat keputusan IT, pemimpin dan pengurus perniagaan, dan pengamal teknologi dari Amerika Syarikat, United Kingdom, Ireland dan Jerman.
Dari segi masa, perolehan data menggunakan kira-kira 26% masa organisasi, manakala penyediaan data dan ujian model, penggunaan dan penilaian model masing-masing menyumbang 24% dan 23%. Akhir sekali, 42% ahli teknologi menganggap penyumberan data sebagai peringkat paling mencabar dalam kitaran hayat AI, berbanding penilaian model (41%), ujian dan penggunaan model (38%) dan penyediaan data (34%).
Menurut pakar teknologi, penyumberan data adalah cabaran terbesar yang dihadapi oleh kecerdasan buatan. Tetapi pemimpin perniagaan melihat perkara secara berbeza...
Walaupun menghadapi cabaran, organisasi berusaha untuk melakukannya. Menurut Appen, empat perlima (81%) responden berkata mereka yakin mereka mempunyai data yang mencukupi untuk menyokong inisiatif AI mereka. Mungkin kunci kejayaan ini: Sebilangan besar (88%) sedang menambah data mereka dengan menggunakan pembekal data latihan AI luaran seperti Appen.
Walau bagaimanapun, ketepatan data diragui. Appen mendapati hanya 20% responden melaporkan ketepatan data melebihi 80%. Hanya 6% (kira-kira 1 dalam 10) mengatakan data mereka adalah 90% tepat atau lebih baik. Dalam erti kata lain, satu daripada lima data mengandungi ralat untuk lebih daripada 80% organisasi.
Dengan mengambil kira perkara ini, mungkin tidak menghairankan bahawa hampir separuh (46%) responden bersetuju bahawa ketepatan data adalah penting "tetapi kami boleh membetulkannya," menurut tinjauan Appen. Hanya 2% berkata ketepatan data bukanlah keperluan besar, manakala 51% bersetuju ia adalah keperluan kritikal.
Nampaknya pandangan Appen CTO Wilson Pang tentang kepentingan kualiti data sepadan dengan 48% pelanggan yang percaya kualiti data tidak penting.
"Ketepatan data adalah penting untuk kejayaan model AI dan ML, kerana data yang kaya dengan kualiti menghasilkan output model yang lebih baik dan pemprosesan yang konsisten serta membuat keputusan," kata Pang dalam laporan itu. “Untuk mencapai hasil yang baik, set data mestilah tepat, komprehensif dan berskala.”
Lebih 90% responden Appen berkata mereka menggunakan data berlabel pra-label
Pang memberitahu dalam temu bual baru-baru ini bahawa peningkatan pembelajaran mendalam dan AI berpusatkan data telah mengubah motivasi kejayaan AI daripada pemodelan sains data dan pembelajaran mesin yang baik kepada pengumpulan, pengurusan dan penandaan data yang baik. Ini benar terutamanya untuk teknik pembelajaran pemindahan hari ini, di mana pengamal AI melangkah ke atas model bahasa pra-terlatih atau penglihatan komputer yang besar dan melatih semula set lapisan kecil dengan data mereka sendiri.
Data yang lebih baik juga boleh membantu menghalang berat sebelah yang tidak perlu daripada menjalar ke dalam model AI dan selalunya menghalang hasil AI yang tidak diingini. Ini benar terutamanya untuk model bahasa besar, kata Ilia Shifrin, pengarah kanan AI di Appen.
"Syarikat menghadapi satu lagi cabaran dengan peningkatan model bahasa besar (LLM) yang dilatih mengenai data perangkak web berbilang bahasa," kata Shifrin dalam laporan itu. "Model ini sering mempamerkan tingkah laku yang tidak baik disebabkan oleh banyaknya bahasa toksik, serta berat sebelah kaum, jantina dan agama dalam korpus latihan."
Bias dalam data web menimbulkan beberapa isu perit, walaupun terdapat beberapa kaedah penyelesaian (mengubah rejimen latihan, menapis data latihan dan output model, dan belajar daripada maklum balas dan ujian manusia), tetapi lebih banyak penyelidikan diperlukan untuk mewujudkan piawaian yang baik untuk penanda aras LLM dan kaedah penilaian model, kata Shifrin.
Menurut Appen, pengurusan data kekal sebagai halangan terbesar yang dihadapi AI. Tinjauan mendapati bahawa 41% orang dalam kitaran AI percaya pengurusan data adalah kesesakan terbesar. Kekurangan data menduduki tempat keempat, dengan 30% menyebutnya sebagai penghalang terbesar kepada kejayaan AI.
Tetapi ada berita baik: masa yang diluangkan oleh organisasi untuk mengurus dan menyediakan data semakin menurun. Tahun ini, ia hanya melebihi 47%, berbanding 53% dalam laporan tahun lepas, kata Appen.
Tahap ketepatan data mungkin tidak setinggi yang diingini oleh sesetengah organisasi
“Majoriti responden menggunakan pembekal data luaran dan boleh disimpulkan bahawa dengan penyumberan luar penyumberan dan penyediaan data, saintis data menjimatkan wang pengurusan yang betul, masa yang diperlukan untuk membersihkan dan melabel data,” kata syarikat pelabelan data itu.
Walau bagaimanapun, berdasarkan kadar ralat yang agak tinggi dalam data, mungkin organisasi tidak seharusnya mengecilkan proses penyumberan dan penyediaan data mereka (sama ada dalaman atau luaran). Terdapat banyak keperluan yang bersaing dalam membina dan menyelenggara proses AI—mengupah profesional data yang berkelayakan merupakan satu lagi keperluan utama yang dikenal pasti oleh Appen. Walau bagaimanapun, sehingga kemajuan ketara dicapai dalam pengurusan data, organisasi harus terus memberi tekanan kepada pasukan mereka untuk terus memacu kepentingan kualiti data.
Kaji selidik itu juga mendapati bahawa 93% organisasi sangat atau agak bersetuju bahawa AI beretika harus menjadi "asas" projek AI. Ketua Pegawai Eksekutif Appen Mark Brayan berkata ia adalah permulaan yang baik, tetapi masih banyak lagi kerja yang perlu dilakukan. "Masalahnya ialah ramai orang menghadapi cabaran untuk cuba membina AI yang hebat dengan set data yang lemah, yang mewujudkan halangan penting untuk mencapai matlamat mereka," kata Brayan dalam kenyataan akhbar.
Menurut laporan Appen, data dalaman yang dikumpul tersuai kekal sebagai majoriti set data organisasi yang digunakan untuk AI, mencakupi 38% hingga 42% daripada data. Data sintetik menunjukkan prestasi yang sangat mengejutkan, mencakupi 24% hingga 38% daripada data organisasi, manakala data pra-label (biasanya diperoleh daripada penyedia perkhidmatan data) menyumbang 23% hingga 31% daripada data.
Data sintetik khususnya berpotensi untuk mengurangkan kejadian berat sebelah dalam projek AI yang sensitif, dengan 97% responden Appen mengatakan mereka menggunakan data sintetik "semasa membangunkan set data latihan inklusif."
Penemuan menarik lain daripada laporan itu termasuk:
- 77% organisasi melatih semula model mereka setiap bulan atau suku tahunan
- 55% organisasi AS mendakwa Mereka mendahului; pesaing, berbanding 44% di Eropah;
- 42% organisasi melaporkan pelancaran AI yang "berluas", berbanding 51% dalam laporan Kecerdasan Buatan 2021
- 7% organisasi melaporkan belanjawan AI melebihi $5 juta, berbanding 9% tahun lepas.
Atas ialah kandungan terperinci Penyelidikan menunjukkan: Sumber data kekal sebagai hambatan utama untuk AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S
