Pengesanan bahasa ialah ciri yang kami perlukan dalam projek yang lalu. Saya menulis artikel pada tahun 2020 mengenai penggunaan kju2 fork perpustakaan java Optimaize Language Detector. Pustaka Optimaize tidak dikemas kini sejak 2015 dan garpu kju2 diletakkan dalam mod baca sahaja pada 16 Apr 2023.
Saya menilai perpustakaan Lingua java. Ia mendakwa sebagai "Pustaka pengesanan bahasa semula jadi yang paling tepat untuk Java dan JVM, sesuai untuk teks panjang dan pendek" dan juga nampaknya dikemas kini secara aktif & disokong. Dalam ujian unit kecil saya, Lingua nampaknya perlahan sedikit dan tidak dapat mengenal pasti teks bahasa Melayu dengan betul.
Masa pengesanan untuk kedua-dua perpustakaan java adalah agak rawak untuk bahasa Inggeris. Kadangkala ia akan mengembalikan respons dalam 295 ms dan pada masa lain ia akan menjadi 48,000+ ms. (Mungkin ia hanya PC pembangun saya.) kju2 nampaknya lebih pantas secara purata.
Saya juga menemui API Detect Language pihak ketiga yang menyokong 165 bahasa dan mendakwa mempunyai "ketepatan tinggi". Ia memerlukan kunci API dan menawarkan kedua-dua pelan percuma & premium.
Jika anda melakukan pengesanan bahasa dengan Java dan/atau ColdFusion/CFML, apakah yang anda gunakan?
Sepatutnya | kju2 lang | kju2 ms | lingua lang | lingua ms | api lang | api ms | Teks Contoh |
---|---|---|---|---|---|---|---|
BAHASA INGGERIS | BAHASA INGGERIS | 2272 | BAHASA INGGERIS | 570 | ms | 537 | Cara terbaik untuk mempelajari perbendaharaan kata bahasa Sepanyol ialah dengan membaca teks, cerita atau artikel yang sepenuhnya dalam bahasa itu. Itulah sebabnya kami telah menulis petikan bacaan pendek sendiri dalam bahasa Sepanyol tentang topik yang berbeza. |
GREEN | GREEN | 6 | GREEN | 12 | el | 105 | Βίβλος γενέσεως Ἰησοῦ Χριστοῦ υἱοῦ Δαυεὶδ υἱοῦ Ἀ>β |
PERANCIS | 61 | PERANCIS | 78 | fr | 70 | Dalam hiver, il fait froid di Perancis. Le soleil se lève tard. Jika anda mengalami masalah ini, anda akan mengalami kesakitan. Parfois, il y a même de la neige. | |
Ibrani | 3 | Ibrani | 11 | iw | 110 | > | ARAB |
2 | ARAB | 19 | ar | 81 | عندما يريد العالم أن يتكلّم ، فهو يتحدّث بلغة يونيكود. تسجّل الآن لحضور المؤتمر الدولي العاشر ليونيكود | CINA | |
2 | CINA | 8 | zh | 74 | 虽然它长得不好看,但是它有一颗无比善良的心。小猴子乐乐的家被大水再。丑就让乐乐住在自己的家,还把自己最喜欢吃的巧克力分给乐乐吃。不仅如此,谁头痛、生病了,没钱乐乐吃。不仅如此,谁头痛、生病了,没钱买药,元街药,定行帮助。 | BAHASA KOREA | |
12 | BAHASA KOREA | 3 | ko | 120 | 안녕하십니까 할리데이비슨 대구점 MC 우제헌입니다. 포티에잇 문의 전달받고 전화 드렸습니다만 연결되지 않아 문자 드립>. | BAHASA Sepanyol | |
0 | BAHASA Sepanyol | 116 | es | 92 | Kebiasaan este término se aplica todas las pistas donde aterrizan aviones, sin embargo el término correcto es aeródromo. | THAI | |
1 | THAI | 14 | ke | 105 | ข้อ 1 มนุษย์ทั้งหลายเกิดมามีอิสีอิสสอิสะอิะะอิสออิสะอิสอระ ภาคกันในเกียรติศักด[เกียรติศักด]ะสด ต่างมีเหตุผลและมโนธรรม และควรปฏุรปฏิัอ ด้วยเจตนารมณ์แห่งภราดรภาพ | VIETNAME | |
2 | VIETNAME | 14 | vi | 98 | Tất cả mọi người sinh ra đều được tự do và bình đẳng về nhân phẩm và quyền lợi. Mọi con người đều được tạo hóa ban cho lý trí và lương tâm và cần phải đối xử với nhau trong tình anh em>🎜. | TURKI | TURKI |
TURKI | 93 | tr | 212 | Yukarda mavi gök, asağıda yağız yer yaratıldıkta; ikisinin arasında insan oğlu yaratılmış. İnsan oğulları üzerine ecdadım Bumın hakan, İstemi hakan tahta oturmuş; oturarak Türk milletinin ülkesini, türesini, idare edivermiş, tanzim edivermis. Dört taraf hep düşman imiş. Penanya sevk edip dört taraftaki kavmi hep (itaati altına) almış hep muti kılmış. Başlılara baş eğdirmiş, dizlilere diz çöktürmüş. | JEPUN | JEPUN | |
JEPUN | 7 | ja | 194 | 幸運こううんにも、息子むすこはこの四月しがつから保育園ほいこくとができ、私わたしはまた働はたらき始はじめた。 | |||
RUSSIAN | RUSSIAN | 2 | RUSSIAN | 1393 | ru | 96 | Все люди рождаются свободными и равными в своем достоинстве и правах. Они наделены разумом и совестью и должны поступать в отношении друг друга в духе братства. |
FINNISH | FINNISH | 6 | FINNISH | 383 | fi | 125 | Jokaisella on oikeus saada opetusta. Opetuksen on oltava ainakin alkeis- ja perusopetuksen osalta maksutonta. Alkeisopetuksen on oltava pakollinen. Teknistä ja ammattiopetusta on oltava yleisesti saatavilla, ja korkeamman opetuksen on oltava avoinna yhtäläisesti kaikille heidän kykyjensä mukaan. |
URDU | URDU | 1 | URDU | 22 | ur | 104 | ایک ملک پر سخت گیر بادشاہ حکومت کرتا تھا۔وہ رعایا پر طرح طرح کے ٹیکس عائد کرتا اور ٹیکس کے پیسے دوسرے ممالک میں جاکر فضولیات میں ضائع کرتا۔ |
THAI | THAI | 1 | THAI | 2 | th | 78 | Hello World สวัสดีชาวโลก |
MALAY | MALAY | 2 | UNKNOWN | 291 | id | 88 | Pesan moral dari Cerita Rakyat Bawang Merah Bawang Putih adalah Jangan terlalu tamak dan serakah. Setiap orang sudah memiliki rezekinya masing-masing. Orang yang terlalu serakah akan mendapatkan balasan yang setimpal dengan perbuatannya. Selalu berbuat baik lah dalam setiap tingkah laku, maka kita akan mendapatkan kebaikan dan kebahagiaan. |
https://gist.github.com/JamoCA/b883fbddf0303df8f4b0d597cfc2ae25
Atas ialah kandungan terperinci Membandingkan Pustaka Pengesanan Bahasa (& API) Menggunakan Java/ColdFusion/CFML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!