编程宝库 - 技术改变世界

编程宝库

Scrapy爬虫

Scrapy Feed exports

Feed导出是一种存储从站点获取的数据的方法，即生成 “导出文件” 。

使用多个序列化格式和存储后端，Feed Export使用Item导出器并生成一个包含scraped项目的feed。

下表显示了支持的格式：

序号	格式和说明
1	JSON FEED_FORMAT是 _json_ 使用的导出器是 _类scrapy.exporters.JsonItemExporter_
2	JSON lines FEED_FROMAT是 _jsonlines_ 使用的导出器是 _类scrapy.exporters.JsonLinesItemExporter_
3	CSV FEED_FORMAT是 _CSV_ 使用的导出器是 _类scrapy.exporters.CsvItemExporter_
4	XML FEED_FORMAT是 _xml_ 使用的导出器是 _类scrapy.exporters.XmlItemExporter_

使用 FEED_EXPORTERS 设置，支持的格式也可以扩展 -

序号	格式和说明
1	Pickle FEED_FORMAT是pickel 使用的出口商是 _类scrapy.exporters.PickleItemExporter_
2	Marshal FEED_FORMAT是Marshal 使用的出口商是 _类scrapy.exporters.MarshalItemExporter_

存储后端定义了使用URI存储Feed的位置。

下表显示了支持的存储后端：

序号	存储后端和说明
1	Local filesystem URI方案是 _文件_ ，它用于存储提要。
2	FTP URI方案是 _ftp_ ，它用于存储提要。
3	S3 URI方案是 _S3_ ，并且订阅源存储在Amazon S3上。外部库[botocore](https://github.com/boto/botocore)或[博托](https://github.com/boto/boto)是必需的。
4	标准输出 URI方案是 _stdout_ ，并且提要被存储到标准输出。

以下是存储URL的参数，在创建Feed时会被替换：

下表显示了可以配置Feed输出的设置：

序号	设置和说明
1	FEED_URI 它是用于启用饲料出口的出口饲料的URI。
2	FEED_FORMAT 它是用于馈送的序列化格式。
3	FEED_EXPORT_FIELDS 它用于定义需要导出的字段。
4	FEED_STORE_EMPTY 它定义是否导出没有项目的提要。
5	FEED_STORAGES 这是一个包含额外的Feed存储后端的词典。
6	FEED_STORAGES_BASE 这是一个带有内置后端存储后台的字典。
7	FEED_EXPORTERS 这是一本有额外饲料出口商的字典。
8	FEED_EXPORTERS_BASE 这是一本内置饲料出口商的字典。

Scrapy请求和响应：Scrapy可以使用 Request 和 Response 对象来抓取网站。请求对象通过系统，使用蜘蛛执行请求，并在返回响应对象时返回请求。请求对象请求对象是一个生成响应的HTTP请求。它有以下班级：cl ...