scrapy导出文件中文乱码问题

本文主要介绍"scrapy导出文件中文乱码问题",希望能够解决您遇到有关问题,下面我们一起来看这篇 "scrapy导出文件中文乱码问题" 文章。

背景:

使用scrapy crawl spidername -o filename.json命令执行爬虫,并将item写入文件,发现中文乱码,比如这样子:
scrapy导出文件中文乱码问题

解决方法

第一种方法:

使用scrapy命令导出时指定编码格式

scrapy crawl baidu -o baidu_med.json -s FEED_EXPORT_ENCODING=utf-8
第二种方法:

借助Pipeline将item写入到文件
1.修改pipelines.py,添加:

import json
import codecs

class YiyaoPipeline(object):  def __init__(self):      self.file = codecs.open('item.json', 'wb', encoding='utf-8') def process_item(self, item, spider):      line = json.dumps(dict(item), ensure_ascii=False) + '\n'      self.file.write(line)      return item

2.修改settings.py,激活pipeline:

ITEM_PIPELINES = { 'yiyao.pipelines.YiyaoPipeline': 300,
}

注意:settings.py默认有ITEM_PIPELINES配置,只是注销掉了。
3.使用scrapy命令导出时,直接执行:

scrapy crawl baidu 

关于 "scrapy导出文件中文乱码问题" 就介绍到这。希望大家多多支持编程宝库

本文主要介绍"记录抓取某直聘网站",希望能够解决您遇到有关问题,下面我们一起来看这篇 "记录抓取某直聘网站" 文章。近期有朋友让我帮抓一下某个直聘网站的招聘岗位,闲来无事就试了一下。考虑到这种网站肯定是有反爬机制,于是使 ...