Menentukan Panjang Sebenar Rentetan Dikodkan UTF-8 dalam C
UTF-8 ialah skema pengekodan aksara lebar berubah-ubah, yang bermaksud bahawa panjang rentetan dalam bait tidak semestinya sepadan dengan bilangan aksara yang terkandung di dalamnya. Ini boleh menjadi isu apabila bekerja dengan rentetan UTF-8 dalam C , kerana kaedah str.length() mengembalikan bilangan bait dalam rentetan, bukan bilangan aksara.
Untuk menentukan dengan tepat panjang rentetan yang dikodkan UTF-8 dalam C , anda boleh menggunakan pendekatan berikut:
Kira bilangan bait pertama dalam rentetan. Bait pertama ialah bait yang tidak sepadan dengan 10xxxxxx, kerana bait ini menunjukkan permulaan jujukan aksara berbilang bait.
Berikut ialah contoh pelaksanaan:
<code class="cpp">int len = 0; while (*s) len += (*s++ & 0xc0) != 0x80;</code>
Dalam kod ini, penuding s berulang melalui rentetan, dan operasi & 0xc0 menutup dua bit pertama setiap bait. Jika dua bit pertama ialah 0b10 (menunjukkan bait kesinambungan), kiraan tidak ditambah. Jika tidak, ia dinaikkan, dan penuding dimajukan ke bait seterusnya. Proses ini berterusan sehingga penghujung rentetan dicapai, di mana len akan mengandungi panjang aksara sebenar rentetan itu.
Atas ialah kandungan terperinci Bagaimana untuk Menentukan Panjang Sebenar Rentetan Dikodkan UTF-8 dalam C?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!