Menurut berita pada 19 April, Microsoft, Google dan OpenAI telah menggunakan data sembang pengguna di forum Reddit untuk membangunkan sistem kecerdasan buatan baharu. Kini, Reddit merancang untuk mengenakan royalti syarikat-syarikat ini.
Reddit sentiasa menjadi hab untuk perbincangan topik hangat di Internet, dengan kira-kira 57 juta orang melawat tapak setiap hari untuk membincangkan pelbagai topik, termasuk petua solek, permainan video dan cucian kereta automatik.
Dalam beberapa tahun kebelakangan ini, sembang di forum Reddit telah menjadi alat latihan percuma untuk syarikat seperti Google, OpenAI dan Microsoft untuk membangunkan sistem kecerdasan buatan. Kini, ramai dalam industri percaya sistem kecerdasan buatan ini akan menjadi perkara besar seterusnya dalam industri teknologi.
Oleh itu, Reddit berhasrat untuk mengenakan bayaran kepada syarikat yang membangunkan teknologi kecerdasan buatan. Banyak syarikat memuat turun dan memproses sembang forum melalui antara muka pengaturcaraan aplikasi (API). Pada hari Selasa, Reddit berkata ia merancang untuk mula mengecaj syarikat untuk menggunakan APInya.
Pengasas dan Ketua Pegawai Eksekutif Reddit Steve Huffman berkata dalam satu temu bual: "Pangkalan data Reddit sememangnya berharga, dan kami tidak perlu memberikan nilai ini secara percuma kepada syarikat terbesar di dunia. ”
Reddit's move ialah kali pertama rangkaian sosial telah mengecaj OpenAI dan lain-lain secara eksplisit untuk akses terbuka untuk membangunkan sistem kecerdasan buatan seperti ChatGPT. Sistem AI baharu seperti ChatGPT suatu hari nanti mungkin menjadi perniagaan besar, tetapi mereka tidak akan berbuat banyak untuk membantu syarikat seperti Reddit. Sebaliknya, sistem kecerdasan buatan ini juga boleh menjana kandungan sembang secara automatik dan menjadi pesaing Reddit.
Reddit sedang bersedia untuk kemungkinan penyenaraian tahun ini Syarikat itu ditubuhkan pada 2005 dan pada masa ini bergantung terutamanya pada pengiklanan platform dan transaksi e-dagang untuk memperoleh keuntungan. Reddit berkata bahawa ia sedang memuktamadkan butiran pengecasan antara muka API dan akan mengumumkan harga dalam beberapa minggu akan datang.
Kini, model bahasa berskala besar telah menjadi bahagian penting dalam membangunkan teknologi kecerdasan buatan baharu, dan kandungan sembang pengguna di forum Reddit juga telah menjadi komoditi yang berharga.
Salah satu algoritma asas chatbot kecerdasan buatan Google Bard telah dilatih menggunakan data sembang Reddit. Pada masa yang sama, ChatGPT OpenAI juga menggunakan data Reddit sebagai salah satu maklumat untuk melatih model bahasa yang besar.
Selain itu, syarikat lain mula menyedari nilai kandungan sembang dan imej yang disimpan di platform. Perkhidmatan pengehosan imej Shutterstock telah menjual data imej kepada OpenAI, yang membantu membangunkan DALL-E, sistem kecerdasan buatan yang boleh menjana imej berdasarkan gesaan teks mudah.
Pada masa ini, beribu-ribu syarikat dan pembangun, besar dan kecil, menggunakan API untuk menjejaki berjuta-juta sembang di platform Twitter. Bulan lalu, Elon Musk, pemilik platform media sosial peribadi Twitter, berkata dia mengubah cara semasa menggunakan API Twitter, mengenakan bayaran antara puluhan hingga ratusan ribu untuk menggunakan API. Tetapi Musk tidak menyebut model bahasa yang besar sebagai sebab perubahan itu.
Untuk menambah baik model secara berterusan, syarikat kecerdasan buatan memerlukan dua faktor penting: kuasa pengkomputeran yang berkuasa dan sejumlah besar data yang tersedia. Sesetengah syarikat pembangunan kecerdasan buatan yang besar biasanya mempunyai kuasa pengkomputeran yang mencukupi, tetapi masih mencari data yang mereka perlukan untuk memperbaiki algoritma mereka di Internet. Ini termasuk sumber seperti Wikipedia, pelbagai buku digital, artikel akademik dan sembang di forum Reddit.
Syarikat seperti Google, OpenAI dan Microsoft masih belum menjawab rancangan Reddit untuk mengenakan bayaran.
Sejak sekian lama, Reddit mempunyai hubungan yang bergantung bersama dengan enjin carian seperti Google dan Bing. Mereka secara automatik mendapatkan maklumat halaman Reddit, mengindeksnya, dan kemudian memaparkan maklumat yang berkaitan dalam halaman hasil carian. Walaupun kaedah rangkak automatik ini mungkin tidak popular dengan semua tapak web, Reddit boleh mendapat kedudukan tinggi dalam hasil carian.
Model bahasa berskala besar adalah berbeza sama sekali. Mereka perlu mendapatkan data sebanyak mungkin supaya sistem kecerdasan buatan baharu boleh dicipta.
Reddit percaya bahawa data forumnya amat berharga kerana ia sentiasa dikemas kini. Kesegaran dan perkaitan jenis ini adalah apa yang diperlukan oleh algoritma model bahasa besar untuk menghasilkan hasil terbaik, kata Huffman.
"Reddit ialah tempat yang lebih baik untuk bersembang berbanding tempat lain di internet," kata Huffman. "Terdapat banyak perkara di tapak yang anda hanya akan katakan secara peribadi, atau tidak nyatakan langsung."
Hoffman turut menekankan bahawa bagi pembangun yang ingin membangunkan aplikasi yang membantu orang ramai menggunakan Reddit Buat masa ini, API masih percuma. Sebagai contoh, pembangun boleh menggunakan alatan seperti API secara percuma untuk membangunkan robot yang secara automatik menjejaki sama ada ulasan pengguna mematuhi peraturan penerbitan kandungan. Orang yang mempelajari data Reddit untuk penyelidikan akademik atau tujuan bukan komersial juga akan terus mendapat akses percuma kepada data tersebut.
Reddit juga berharap dapat menyepadukan lebih banyak pembelajaran mesin ke dalam operasi forum Contohnya, Reddit boleh menggunakan pembelajaran mesin untuk mengenal pasti penggunaan teks yang dijana kecerdasan buatan pada platform dan menambah label untuk memaklumkan pengguna yang mana komen daripada robot. . Reddit juga berjanji untuk menambah baik alat perisian untuk moderator forum untuk membantu mereka memantau bot pihak ketiga di forum mereka.
Tetapi untuk pembuat AI, Reddit berpendapat sudah tiba masanya untuk membayar.
"Masalah kami sendiri untuk mencipta nilai dengan mengikis data Reddit tanpa membayar balik pengguna kami," kata Huffman. "Sekarang adalah masa yang baik untuk kami mengukuhkan pengurusan." (Chenchen)
Atas ialah kandungan terperinci Reddit untuk membayar syarikat seperti OpenAI untuk mengelakkan penggunaan sembang pengguna yang tidak sesuai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!