Bestimmen der wahren Länge eines UTF-8-codierten std::string
In C ist ein std::string ein Array von Zeichen, die jeweils ein Byte Speicher belegen. Bei der UTF-8-Codierung kann ein einzelnes Zeichen jedoch durch eine Folge mehrerer Bytes dargestellt werden. Dies führt zu einer Diskrepanz zwischen der von str.length() gemeldeten Länge der Zeichenfolge und ihrer tatsächlichen Länge in Zeichen.
Gemäß dem UTF-8-Zeichenkodierungsstandard werden Bytes in Sequenzen gruppiert, wobei die erstes Byte, das die Länge der Sequenz angibt:
Um die tatsächliche Länge eines UTF-8-codierten std::string zu bestimmen, können Sie den folgenden Ansatz verwenden:
Wenn das erste Byte nicht mit dem Fortsetzungsmuster übereinstimmt, erhöhen Sie den Längenzähler. Dies zeigt den Beginn einer neuen Zeichenfolge an.
Hier ist eine Beispielimplementierung:
<code class="c++">int len = 0; while (*s) len += (*s++ & 0xc0) != 0x80;</code>
Mit diesem Ansatz können Sie die wahre Länge eines UTF-8-codierten Standardwerts genau bestimmen: :string, der für verschiedene Vorgänge wie Zeichenzählung, String-Manipulation und Datenanalyse unerlässlich ist.
Das obige ist der detaillierte Inhalt vonWie ermittelt man die wahre Länge eines UTF-8-codierten std::string in C?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!