python处理中文

发布于
2016-05-16

最近在学习python爬虫，用的scrapy，基本流程都通顺了，但是发现解析页面中文的时候比较头大。

比如抽取到的内容可能含有《【等字符，这个时候怎么处理?

另外，xpath搜索的时候也有可能需要通过中文匹配，怎么破？

python 网页爬虫

阅读 4.9k

4 个回答

发布于
2016-05-16

✓ 已被采纳

可以考虑采用正则匹配。
参考这篇文章：http://blog.csdn.net/gatieme/article/details/43235791

发布于
2016-05-16

全部用utf8呀

回首已十年

发布于
2016-05-16

新手上路，请多包涵

python3在这方面做得比python2好多了，如果可以建议用python3

发布于
2016-05-17

对爬取到的字符串加encode("utf-8")

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题