编程宝库 - 技术改变世界

编程宝库

Search

Scrapy爬虫

Scrapy Item Loaders

Scrapy Item Pipeline

Scrapy shell

Scrapy shell的主要目的是测试提取的代码，XPath或CSS表达式。

它还有助于指定从中抓取数据的网页。

配置Shell

可以通过安装IPython: https://ipython.org/（用于交互式计算）控制台来配置该 shell，该控制台是一个功能强大的交互式Shell，可以实现自动完成，彩色输出等。

如果你在Unix平台上工作，那么最好安装IPython。如果IPython无法访问，您也可以使用bpython : https://www.bpython-interpreter.org/。

您可以通过设置名为SCRAPY_PYTHON_SHELL的环境变量或通过如下定义scrapy.cfg文件来配置shell：

[settings]
shell = bpython

启动Shell

Scrapy shell可以使用以下命令启动：

scrapy shell <url>

该 url 指定了需要对其进行数据挖掘的URL。

使用Shell

shell提供了一些额外的快捷方式和Scrapy对象，如下表所述：

可用的快捷方式

Shell在项目中提供以下可用快捷键：

序号	快捷方式和说明
1	shelp() 它提供了可用的对象和快捷方式以及帮助选项。
2	fetch(request_or_url) 它收集来自请求或URL的响应，并且关联对象将得到正确更新。
3	view(response) 您可以在本地浏览器中查看给定请求的响应，以便观察并正确显示外部链接，它会将基本标记附加到响应主体。

可用的Scrapy对象

Shell在项目中提供了以下可用的Scrapy对象：

Sr.No	对象和描述
1	crawler 它指定当前的搜寻器对象。
2	spider 如果目前的URL没有蜘蛛，那么它将通过定义新的蜘蛛来处理URL或蜘蛛对象。
3	request 它为最后收集的页面指定请求对象。
4	response 它指定最后收集的页面的响应对象。
5	settings 它提供了当前的Scrapy设置。

Shell会话示例

让我们尝试scrapy.org网站，然后开始按照描述从reddit.com中提取数据。

在继续之前，首先我们将启动shell，如下面的命令所示：

scrapy shell 'http://scrapy.org' --nolog

Scrapy会在使用上述URL时显示可用对象：

[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
[s]   item       {}
[s]   request    <GET http://scrapy.org >
[s]   response   <200 http://scrapy.org >
[s]   settings   <scrapy.settings.Settings object at 0x2bfd650>
[s]   spider     <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s]   shelp()           Provides available objects and shortcuts with help option
[s]   fetch(req_or_url) Collects the response from the request or URL and associated
objects will get update
[s]   view(response)    View the response for the given request

接下来，从对象的工作开始，如下所示：

>> response.xpath('//title/text()').extract_first()
u'Scrapy | A Fast and Powerful Scraping and Web Crawling Framework'  
>> fetch("http://reddit.com")
[s] Available Scrapy objects:
[s]   crawler     
[s]   item       {}
[s]   request     
[s]   response   <200 https://www.reddit.com/>
[s]   settings    
[s]   spider      
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser  
>> response.xpath('//title/text()').extract()
[u'reddit: the front page of the internet']  
>> request = request.replace(method="POST")  
>> fetch(request)
[s] Available Scrapy objects:
[s]   crawler     
...

从蜘蛛调用Shell来检查响应

只有在您期望获得该响应时，您才能检查从蜘蛛处理的响应。

例如：

import scrapy

class SpiderDemo(scrapy.Spider):
   name = "spiderdemo"
   start_urls = [
      "http://mysite.com",
      "http://mysite1.org",
      "http://mysite2.net",
   ]  

   def parse(self, response):
      # You can inspect one specific response
      if ".net" in response.url:
         from scrapy.shell import inspect_response
         inspect_response(response, self)

如上面的代码所示，您可以使用以下函数从蜘蛛中调用shell来检查响应：

scrapy.shell.inspect_response

现在运行蜘蛛，你会得到以下屏幕：

2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None)
[s] Available Scrapy objects:
[s]   crawler     
...  
>> response.url
'http://mysite2.org'

您可以使用以下代码检查提取的代码是否正在工作：

>> response.xpath('//div[@class = "val"]')

它将输出显示为

[]

上面的行只显示一个空白输出。现在您可以调用shell来检查响应，如下所示：

>> view(response)

它显示响应为

True

下一节：Scrapy Item Pipeline

Scrapy 教程

Item Pipeline 是处理报废物料的一种方法。当一个项目被发送到Item Pipeline时，它会被一个蜘蛛抓取并使用多个组件进行处理，这些组件会按顺序执行。无论何时收到物品，都会决定采取以 ...

Scrapy Item Loaders

Scrapy Item Pipeline