python - Bagaimana untuk mengatur semua aksara Cina dalam rentetan

Question

{Kod...} Rentetan adalah seperti di atas, jenisnya ialah 'str', dan aksara Cina mesti diperolehi mengikut keteraturan. Apabila saya menggunakan [u4e00-u9fa5] sebelum ini, saya masih mendapat senarai simbol dan nombor dalam bahasa Inggeris. Tolong ajar saya postur yang betul. Juga, beritahu saya di mana saya membuat kesilapan... {kod...} Ini yang saya tulis... tetapi tiada aksara Cina dalam hasil yang dikembalikan...

習慣沉默 · Answer

Saya menganggap di sini bahawa teks yang anda perlu padankan ialah s:

pattern = re.compile(ur"[\u4e00-\u9fa5]")
print pattern.findall(s.decode('utf8'))

decode('utf8')是怕s的值为类似x66x77x88这样的Unicode散列。另外，需要注意compile()中ur修饰符，u di sini ialah pengubah suai Unikod.

PS: Saya terinspirasi oleh artikel ini.

Kemas kini

Saya baru sahaja membaca apa yang dikatakan di tingkat bawah Memang benar bahawa dengan Python 3, outputnya ialah cincangan Unicode yang berikut dipetik dari sini

Rentetan Unicode

Dalam Python2, rentetan biasa disimpan sebagai kod ASCII 8-bit, manakala rentetan Unicode disimpan sebagai rentetan unicode 16-bit, yang boleh mewakili lebih banyak set aksara. Sintaks yang digunakan adalah untuk mengawal rentetan dengan u.

Dalam Python3, semua rentetan adalah rentetan Unicode.

女神的闺蜜爱上我 · Answer

Anda menggunakan python2, uxxxx是unicode字符，匹配后得到的是字节String, apa yang dicetak ialah setiap nilai bait.

Tukar kepada python3 dan masalah ini akan hilang