Bestimmen der tatsächlichen Länge von UTF-8-codierten Zeichenfolgen in C
UTF-8 ist ein Zeichencodierungsschema mit variabler Breite, das heißt dass die Länge einer Zeichenfolge in Bytes nicht unbedingt der Anzahl der darin enthaltenen Zeichen entspricht. Dies kann beim Arbeiten mit UTF-8-Strings in C ein Problem sein, da die Methode str.length() die Anzahl der Bytes im String und nicht die Anzahl der Zeichen zurückgibt.
Um die Länge von genau zu bestimmen Um eine UTF-8-codierte Zeichenfolge in C zu erstellen, können Sie den folgenden Ansatz verwenden:
Zählen Sie die Anzahl der ersten Bytes in der Zeichenfolge. Erste Bytes sind Bytes, die nicht mit 10xxxxxx übereinstimmen, da diese Bytes den Beginn von Mehrbyte-Zeichenfolgen angeben.
Hier ist eine Beispielimplementierung:
<code class="cpp">int len = 0; while (*s) len += (*s++ & 0xc0) != 0x80;</code>
In diesem Code wird die Der Zeiger von s durchläuft die Zeichenfolge und die Operation & 0xc0 maskiert die ersten beiden Bits jedes Bytes. Wenn die ersten beiden Bits 0b10 sind (was ein Fortsetzungsbyte anzeigt), wird der Zähler nicht erhöht. Andernfalls wird es inkrementiert und der Zeiger auf das nächste Byte vorgerückt. Dieser Vorgang wird fortgesetzt, bis das Ende der Zeichenfolge erreicht ist. An diesem Punkt enthält len die tatsächliche Zeichenlänge der Zeichenfolge.
Das obige ist der detaillierte Inhalt vonWie ermittelt man die tatsächliche Länge von UTF-8-codierten Zeichenfolgen in C?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!