python - Comment régulariser tous les caractères chinois dans une chaîne

Question

{Code...} La chaîne est comme ci-dessus, le type est 'str' et les caractères chinois doivent être obtenus par régularité. Lorsque j'utilisais [u4e00-u9fa5] auparavant, j'avais toujours une liste de symboles et de chiffres en anglais. S'il vous plaît, apprenez-moi la bonne posture. Dites-moi aussi où j'ai fait une erreur... {code...} C'est ce que j'ai écrit... mais il n'y a aucun caractère chinois dans le résultat renvoyé...

習慣沉默 · Answer

Je suppose ici que le texte que vous devez faire correspondre est s :

pattern = re.compile(ur"[\u4e00-\u9fa5]")
print pattern.findall(s.decode('utf8'))

Le decode('utf8')是怕s的值为类似x66x77x88这样的Unicode散列。另外，需要注意compile()中ur修饰符，u ici est le modificateur Unicode.

PS : je me suis inspiré de cet article.

Mise à jour

Je viens de lire ce qui a été dit en bas. Il est vrai qu'avec Python 3, la sortie est un hachage Unicode. Ce qui suit est extrait d'ici

.

Chaîne Unicode

Dans Python2, les chaînes ordinaires sont stockées sous forme de codes ASCII 8 bits, tandis que les chaînes Unicode sont stockées sous forme de chaînes Unicode 16 bits, qui peuvent représenter davantage de jeux de caractères. La syntaxe utilisée consiste à préfixer la chaîne avec u.

En Python3, toutes les chaînes sont des chaînes Unicode.

女神的闺蜜爱上我 · Answer

Vous utilisez python2, uxxxx是unicode字符，匹配后得到的是字节String, ce qui est imprimé est la valeur de chaque octet.

Changez pour python3 et ce problème disparaîtra