Kerja anotasi teks ialah kerja label atau teg yang sepadan dengan kandungan tertentu dalam teks. Tujuan utamanya adalah untuk memberikan maklumat tambahan kepada teks untuk analisis dan pemprosesan yang lebih mendalam, terutamanya dalam bidang kecerdasan buatan.
Anotasi teks adalah penting untuk tugas pembelajaran mesin yang diawasi dalam aplikasi kecerdasan buatan. Ia digunakan untuk melatih model AI untuk membantu memahami maklumat teks bahasa semula jadi dengan lebih tepat dan meningkatkan prestasi tugasan seperti klasifikasi teks, analisis sentimen dan terjemahan bahasa. Melalui anotasi teks, kami boleh mengajar model AI untuk mengenali entiti dalam teks, memahami konteks dan membuat ramalan yang tepat apabila data baharu yang serupa muncul.
Artikel ini terutamanya mengesyorkan beberapa alat anotasi teks sumber terbuka yang lebih baik.
https://github.com/HumanSignal/label-studio
Label Studio ialah alat anotasi data sumber terbuka yang boleh mengendalikan berbilang jenis data dan menyokong pengeksportan ke pelbagai format model . Ia digunakan secara meluas untuk menyediakan data mentah atau menambah baik data latihan sedia ada untuk meningkatkan ketepatan model pembelajaran mesin.
https://github.com/doccano/doccano
Doccano ialah alat anotasi teks sumber terbuka yang menyediakan fungsi untuk pengelasan teks, pelabelan jujukan dan jujukan. Ia menyokong kerjasama pasukan anotasi teks, berbilang bahasa, apl mudah alih, emoji, tema gelap dan API gaya REST. Boleh dipasang menggunakan Docker dan Docker Compose.
https://github.com/UniversalDataTool/universal-data-tool
Alat Data Universal ialah alat untuk mengedit dan menganotasi pelbagai jenis data, (termasuk teks, audio dan dokumen). Ia menyokong pelbagai jenis data dan menyediakan kerjasama masa nyata, GUI yang mudah digunakan, penciptaan kursus latihan untuk pencatat teks dan banyak lagi. Alat ini tersedia di web atau sebagai aplikasi desktop dan menyokong muat turun dan muat naik data dalam format CSV atau JSON.
https://github.com/jiesutd/YEDDA
YEDDA ialah alat anotasi teks, simbol emotik dan pelbagai bahasa yang boleh digunakan dalam pelbagai bahasa Ia menyokong penggunaan pintasan, memerintah model dan mengeksport teks anotasi sebagai teks urutan. Menyokong fungsi seperti pengesyoran pintar dan analisis pentadbir.
YEDDA serasi dengan semua sistem pengendalian utama, termasuk Windows, Linux dan MacOS.
https://github.com/argilla-io/argilla
Argilla ialah platform kerjasama data sumber terbuka untuk jurutera kecerdasan buatan dan pakar domain, menyediakan output data yang berkualiti tinggi dan cekap.
Ia membantu mengawal kualiti data dan meningkatkan kualiti output AI, dan meningkatkan kecekapan dengan membolehkan lelaran data dan model yang pantas. Argilla juga menyediakan pengurusan data dan alat latihan model.
https://github.com/code-kern-ai/refinery
Refinery ialah platform sumber terbuka daripada KernAI yang direka untuk saintis data bahasa semula jadi. Ia menyediakan fungsi seperti anotasi data separa automatik, penilaian kualiti subset data dan pemantauan data berpusat, bertujuan untuk meningkatkan kecekapan pelabelan manual.
Alat ini memanfaatkan teknologi seperti Hugging Face dan spaCy untuk membina model bahasa pra-bina dan disepadukan dengan alatan pelabelan lain untuk pemprosesan data yang fleksibel.
Ciri-ciri:
makanan, digunakan untuk menambah fungsi anotasi teks pada halaman web atau membina program anotasi teks tersuai. Ia boleh dipasang melalui npm atau memuat turun versi terkini.
8. Label Sleuth
Label Sleuth ialah sistem tanpa kod sumber terbuka untuk pelabelan dan pengelasan teks. Ia membolehkan pakar dalam bidang seperti doktor, peguam dan ahli psikologi membina model NLP tersuai tanpa kerjasama pakar NLP.
Biasanya penciptaan model NLP memerlukan kepakaran domain dan pembelajaran mesin. Label Sleuth memintas keperluan untuk kepakaran NLP dengan anotasi teks intuitif dan pembinaan model AI. Semasa pengguna melabelkan data, model pembelajaran mesin dilatih di latar belakang, membuat ramalan dan mencadangkan perkara yang perlu dilabelkan seterusnya.
Sebagai sistem tanpa kod, ia tidak memerlukan pengetahuan pembelajaran mesin dan membenarkan pembangunan model yang pantas, daripada definisi tugas kepada model yang siap dalam beberapa jam sahaja.9.Markup
Markup ialah alat anotasi dalam talian yang boleh digunakan untuk menukar dokumen tidak berstruktur kepada format NLP dan tugasan ML contohnya: pengiktirafan entiti. Pembelajaran serentak sambil anda membuat anotasi untuk meramal dan mengesyorkan anotasi yang lebih kompleks, dan juga menyediakan akses bersepadu kepada ontologi biasa dan tersuai untuk pemetaan konsep.
Ciri:
Anotasi ramalan: Fungsi anotasi ramalan terdorong pembelajaran mesin Markup boleh mengesyorkan anotasi yang lebih kompleks semasa anda bekerja, menjadikan proses anotasi lebih cekap.
Teg akses ontologi bersepadu: Menyediakan akses bersepadu kepada pelbagai ontologi biasa (cth. UMLS, SNOMED-CT, ICD-10), serta keupayaan untuk memuat naik ontologi tersuai untuk pemetaan konsep.
Withs
kecekapan anotasi Lebih memahami keupayaan anotasi, seperti soalan pra dan selepas penapisCiri kawalan kualiti, seperti ujian perhatian, ujian kelayakan dan semakan masa terbina dalam
Atas ialah kandungan terperinci Sepuluh alat anotasi teks percuma sumber terbuka yang disyorkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!