Scrapy Feed exports
Feed导出是一种存储从站点获取的数据的方法,即生成 “导出文件” 。
序列化格式
使用多个序列化格式和存储后端,Feed Export使用Item导出器并生成一个包含scraped项目的feed。
下表显示了支持的格式:
序号 | 格式和说明 |
---|---|
1 | JSON FEED_FORMAT是 _json_ 使用的导出器是 _类scrapy.exporters.JsonItemExporter_ |
2 | JSON lines FEED_FROMAT是 _jsonlines_ 使用的导出器是 _类scrapy.exporters.JsonLinesItemExporter_ |
3 | CSV FEED_FORMAT是 _CSV_ 使用的导出器是 _类scrapy.exporters.CsvItemExporter_ |
4 | XML FEED_FORMAT是 _xml_ 使用的导出器是 _类scrapy.exporters.XmlItemExporter_ |
使用 FEED_EXPORTERS 设置,支持的格式也可以扩展 -
序号 | 格式和说明 |
---|---|
1 | Pickle FEED_FORMAT是pickel 使用的出口商是 _类scrapy.exporters.PickleItemExporter_ |
2 | Marshal FEED_FORMAT是Marshal 使用的出口商是 _类scrapy.exporters.MarshalItemExporter_ |
存储后端
存储后端定义了使用URI存储Feed的位置。
下表显示了支持的存储后端:
序号 | 存储后端和说明 |
---|---|
1 | Local filesystem URI方案是 _文件_ ,它用于存储提要。 |
2 | FTP URI方案是 _ftp_ ,它用于存储提要。 |
3 | S3 URI方案是 _S3_ ,并且订阅源存储在Amazon S3上。外部库[botocore](https://github.com/boto/botocore)或[博托](https://github.com/boto/boto)是必需的。 |
4 | 标准输出 URI方案是 _stdout_ ,并且提要被存储到标准输出。 |
存储URI参数
以下是存储URL的参数,在创建Feed时会被替换:
- %(时间)s:该参数被时间戳替换。
- %(name)s:该参数被spider名称取代。
设置
下表显示了可以配置Feed输出的设置:
序号 | 设置和说明 |
---|---|
1 | FEED_URI 它是用于启用饲料出口的出口饲料的URI。 |
2 | FEED_FORMAT 它是用于馈送的序列化格式。 |
3 | FEED_EXPORT_FIELDS 它用于定义需要导出的字段。 |
4 | FEED_STORE_EMPTY 它定义是否导出没有项目的提要。 |
5 | FEED_STORAGES 这是一个包含额外的Feed存储后端的词典。 |
6 | FEED_STORAGES_BASE 这是一个带有内置后端存储后台的字典。 |
7 | FEED_EXPORTERS 这是一本有额外饲料出口商的字典。 |
8 | FEED_EXPORTERS_BASE 这是一本内置饲料出口商的字典。 |
Scrapy请求和响应:Scrapy可以使用 Request 和 Response 对象来抓取网站。请求对象通过系统,使用蜘蛛执行请求,并在返回响应对象时返回请求。 请求对象请求对象是一个生成响应的HTTP请求。它有以下班级:cl ...