用python解析XML文件,出现异常信息如下:
创新互联是一家集网站建设,福贡企业网站建设,福贡品牌网站建设,网站定制,福贡网站建设报价,网络营销,网络优化,福贡网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 13, column 31
相关推荐:《Python入门教程》
解决方式:
将文件重新编码成utf-8格式就可以了。
在linux下一种取巧的解决方式:
对于中文,这里选了一种取巧的方法。即先通过iconv命令将xml文件变成utf-8格式,然后将xml中指定编码格式的内容去掉即可。
可参考如下代码:
cmd = "iconv " + filename + " -t \"utf-8\" >utf.tmp" os.system(cmd) utf_filename = "utf.tmp" f = open(utf_filename) data = f.read() f.close() os.system("rm -f utf.tmp") #----delete the encode type in xml file----- #result = re.sub(regex, newstring, subject) data = data.replace('encoding="GB2312"', '') data = data.replace('encoding="gb2312"', '') #self.dom.unlink self.dom = xml.dom.minidom.parseString( data )
网页名称:创新互联Python教程:pythonxml解析中文乱码怎么办
URL地址:http://www.gawzjz.com/qtweb/news7/193357.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联