s = u'ud83dudc8b'co = re.compile( u'ud83dudc8b')co.sub(u'',s)print(u'ud83d')
输出如下UnicodeEncodeError: 'utf-8' codec can't encode character 'ud83d' in position 0: surrogates not allowed
s中大概是一个微博表情,搞了一下午怎么都显示不出来,想着替换掉算了然后怎么都没法匹配到,为什么呢
欢迎选择我的课程,让我们一起见证您的进步~~
首先,是2个问题1.为什么显示不出来2.想替换掉但是为什么匹配不到
回答1.特殊编码在终端上是无法显示的,如果是在UI上显示,那么需要把UI的encoding设置好。2.试试下面的代码
import re s = u'hello \ud83d\udc8b world' co = re.compile( u'\ud83d\udc8b') ss = co.sub(u'',s) print(ss)
运行结果:hello world
我都是抄的
首先,是2个问题
1.为什么显示不出来
2.想替换掉但是为什么匹配不到
回答
1.特殊编码在终端上是无法显示的,如果是在UI上显示,那么需要把UI的encoding设置好。
2.试试下面的代码
运行结果:
hello world
我都是抄的