创新互联Python教程：pythonxml解析中文乱码怎么办

用python解析XML文件，出现异常信息如下：

创新互联是一家集网站建设,福贡企业网站建设,福贡品牌网站建设,网站定制,福贡网站建设报价,网络营销,网络优化,福贡网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

xml.parsers.expat.ExpatError: not well-formed (invalid token): line 13, column 31

相关推荐：《Python入门教程》

解决方式：

将文件重新编码成utf-8格式就可以了。

在linux下一种取巧的解决方式：

对于中文，这里选了一种取巧的方法。即先通过iconv命令将xml文件变成utf-8格式，然后将xml中指定编码格式的内容去掉即可。

可参考如下代码：

cmd = "iconv " + filename + " -t \"utf-8\" >utf.tmp"
os.system(cmd)
utf_filename = "utf.tmp"
f = open(utf_filename)
data = f.read()
f.close()
os.system("rm -f utf.tmp")
#----delete the encode type in  xml file-----
#result = re.sub(regex, newstring, subject)
data = data.replace('encoding="GB2312"', '')
data = data.replace('encoding="gb2312"', '')
#self.dom.unlink
self.dom = xml.dom.minidom.parseString( data )

网页名称：创新互联Python教程：pythonxml解析中文乱码怎么办
URL地址：http://www.gawzjz.com/qtweb/news7/193357.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容