C 中的 wchar_t 是一种数据类型,旨在表示宽字符,涵盖不同区域设置中使用的所有字符。但是,它的定义并不能确保它可以同时表示所有受支持语言环境中的所有字符。
围绕 wchar_t 的主要误解是它用作通用文本表示形式,允许简单的文本处理算法。然而,Unicode 打破了字符和代码点之间一对一映射的假设,使得 wchar_t 不适合此目的。
此外,wchar_t 的编码可能因语言环境而异,使得语言环境间转换不可靠,尤其是在Windows 也参与其中。 Windows 对 wchar_t 使用 UTF-16,但它没有定义 __STDC_ISO_10646__,这是 wchar_t 值在所有区域设置中以相同方式表示 Unicode 代码点所必需的。
UTF-8 编码的 C 字符串: 推荐用于平台无关的代码,即使在本身不支持 UTF-8 的平台上也是如此。它提供一致的文本表示、语言支持、标准库支持,并允许简单的文本处理,尽管不像 ASCII 那样简单。
跨平台表示(例如 UTF-16 数组) : 由某些软件使用,它涉及创建与平台无关的表示形式,例如 UTF-16 数组,并为操作和提供库支持
C 11 的 char16_t 和 `char32_t:** 在 C 11 中引入,这些改进的宽字符类型可以分别表示 UTF-16 和 UTF-32,并且具有增强功能UTF-8 支持,使它们成为国际化代码的可行选择。
TCHAR: 一种用于迁移旧版 Windows 程序的类型,它不可移植且缺乏特异性,因此不适合跨平台使用,而且由于不鼓励迁移到 wchar_t,因此没有必要。
以上是C 的'wchar_t”和'wstrings”有哪些陷阱,以及存在哪些更好的替代方案?的详细内容。更多信息请关注PHP中文网其他相关文章!