Rumah > pembangunan bahagian belakang > C++ > Bagaimana untuk Mengira Panjang Sebenar Rentetan UTF-8 dalam C?

Bagaimana untuk Mengira Panjang Sebenar Rentetan UTF-8 dalam C?

Mary-Kate Olsen
Lepaskan: 2024-10-26 01:26:28
asal
755 orang telah melayarinya

How to Calculate the Actual Length of a UTF-8 String in C  ?

Mengira Panjang Sebenar Rentetan UTF-8

Semasa bekerja dengan objek std::string yang dikodkan UTF-8, pembangun sering menghadapi percanggahan antara nilai yang dikembalikan oleh str.length() dan bilangan sebenar aksara dalam rentetan. Ini kerana str.length() hanya mengira bilangan bait dalam rentetan, tanpa mengambil kira pengekodan berbilangbait yang digunakan untuk mewakili aksara UTF-8.

Pengekodan UTF-8 mentakrifkan satu set jujukan bait digunakan untuk mewakili aksara Unicode. Setiap aksara boleh diwakili oleh satu hingga empat bait, bergantung pada titik kod Unicodenya. Urutan bait ini distrukturkan seperti berikut:

  • Jujukan 1-bait (0x00-0x7F): Mewakili aksara ASCII secara langsung.
  • 2-bait jujukan (0x80-0xBF): Mewakili aksara dengan titik kod dari 0x0080 hingga 0x07FF.
  • Jujukan 3-bait (0xC0-0xDF): Mewakili aksara dengan titik kod dari 0x0800 0xFFFF.
  • Jujukan 4-bait (0xE0-0xFF): Mewakili aksara dengan titik kod daripada 0x10000 hingga 0x10FFFF.

Mengira Actual

Panjang sebenar rentetan yang dikodkan UTF-8 boleh ditentukan dengan mengira bilangan bait pertama dalam rentetan, iaitu bait yang tidak sepadan dengan corak 10xxxxxx. Corak ini mewakili bait kesinambungan, yang digunakan untuk mewakili jujukan berbilang bait.

Coretan Kod

<code class="cpp">int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;</code>
Salin selepas log masuk

Dalam kod ini, gelung while berulang pada rentetan , menambah kiraan panjang len sebanyak 1 untuk setiap bait pertama yang ditemuinya.

Atas ialah kandungan terperinci Bagaimana untuk Mengira Panjang Sebenar Rentetan UTF-8 dalam C?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan