今天在抓取网页的时候遇到一个坑,一部分中文显示中国这种,百度之后发现这是HTML|XML|SGML类语言的转义序列(escape sequence)他们不是「编码」

于是乎,撸起袖子写了一个将这种转义序列转化成汉字的函数,如下:

import re
def FuckUnicode(s):
    return re.sub(';','',re.sub('&#x',r'\u',s)).encode('utf-8').decode('unicode_escape')

标签: none

添加新评论