Java中关于char和String对于代码点和代码单元的提问

Question

Java中采用的是Unicode,并且使用UTF-16进行编码.首先,Unicode中有17个代码层次,除了第一个代码层次意外其余16个代码层次全部需要2个代码单元组成.那么问题就来了:1.String类的length()方法,在官方API中写明了是返...

高洛峰 · Answer

Unicode字符编码有两种方案：16位编码与32位编码，对应的字符集分别称为USC-2和USC-4。Java语言采用USC-2字符集，即16位Unicode字符编码，其前128个字符与ASCII字符集完全一致，之后是其他语言文字，如拉丁语、希腊语、汉字等。

char 在java中是2个字节。java采用unicode，2个字节（16位）来表示一个字符。

天蓬老师 · Answer

不是所有的中国文字的编码都占用两个代码单元，国家二字对应的unicode编码分别为u56fd u5bb6，一个字只占用一个单元。而有些汉字是需要用两个代码单元编码的比如 CJK统一汉字扩充A中包含的文字例：“