编程宝库 - 技术改变世界

编程宝库

Scrapy爬虫

Scrapy 保存数据

存储数据的最佳方法是使用Feed输出，这可确保使用多个序列化格式正确存储数据。JSON，JSON行，CSV，XML是序列化格式中支持的格式。数据可以通过以下命令存储：

scrapy crawl dmoz -o data.json

该命令将创建一个 data.json 文件，其中包含JSON中的抓取数据。这项技术适用于少量的数据。如果需要处理大量数据，那么我们可以使用Item Pipeline。就像data.json文件一样，当在 tutorial / pipelines.py中 创建项目时，会创建一个保留文件。

下一节：Scrapy 记录

Scrapy 教程

Scrapy记录：记录意味着跟踪事件，它使用内置的日志记录系统并定义实现应用程序和库的函数和类。记录是一种随时可用的材料，可用于记录设置中列出的Scrapy设置。Scrapy会设置一些默认设置，并在运行命令时通过scrapy.utils. ...

Scrapy 跟踪链接

Scrapy 记录