Scrapy Shell 调试终端
Scrapy Shell 是一个交互式的 Python 终端,提供在未启动 Spider 的情况下调试爬虫代码,主要用来测试 XPath 或 CSS 表达式,查看它们的工作方式以及从网页中提取的数据。
在编写 Spider 时,Scrapy Shell 提供了交互式测试代码的功能,免去了每次修改后运行 Spider 的麻烦。一旦熟悉了 Scrapy 终端后,您会发现它在开发和调试 Spider 时发挥的巨大作用。
1. 启动 Scrapy Shell
您可以使用 scrapy shell 命令来启动 Scrapy 终端:
scrapy shell <url>
其中 <url> 是您要爬取的网页的地址。
2. 使用 Scrapy Shell
Scrapy Shell 其实是一个普通的 Python 终端,在里面可以调试任何 Python 代码,但它提供了一些额外的快捷命令和预置对象。
1)可用的快捷命令
- shelp() - 打印可用对象及快捷命令的帮助列表。
- fetch(request_or_url) - 根据给定的请求(request)或URL获取一个新的response,并更新相关的对象。
- view(response) - 在本机的浏览器打开给定的response。它会在response的body中添加一个 <base> tag ,使得外部链接(例如图片及css)能正确显示。注意,该操作会在本地创建一个临时文件,且该文件不会被自动删除。
2)可用的 Scrapy 对象
Scrapy Shell 会根据下载的页面会自动创建一些方便使用的对象,例如:Response 对象及 Selector 对象。
Scrapy Shell 自动创建的对象包括:
- crawler - 当前 Crawler 对象。
- spiderm - 处理 URL 的 spider。对当前URL没有处理的Spider时则为一个 Spider 对象。
- request - 最近获取到的页面的 Request 对象。可以使用 replace() 修改该request。或者使用 fetch 快捷方式来获取新的 request。
- response - 包含最近获取到的页面的 Response 对象。
- sel - 根据最近获取到的response构建的 Selector 对象。
- settings - 当前的 Scrapy settings。
3. 终端会话(shell session)样例
下面给出一个典型的终端会话的例子。在该例子中,我们首先爬取了 http://scarpy.org 的页面,而后接着爬取 http://slashdot.org 的页面。最后,我们修改了(Slashdot)的请求,将请求设置为 POST 方法,并重新获取得到 HTTP 405(不允许的方法)错误。最后,通过 Ctrl-D(Unix) 或 Ctrl-Z(Windows) 关闭会话。
需要注意的是,由于爬取的页面不是静态页,内容会随着时间而修改,因此例子中提取到的数据可能与您尝试的结果不同。该例子的唯一目的是让您熟悉 Scrapy 终端。
首先,我们启动 Scrapy Shell:
scrapy shell 'http://scrapy.org' --nolog
Scrapy Shell 会获取 URL 内容,并打印可用的对象及快捷命令:
[s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50> [s] item {} [s] request <GET http://scrapy.org> [s] response <200 http://scrapy.org> [s] sel <Selector xpath=None data=u'<html>\n <head>\n <meta charset="utf-8'> [s] settings <scrapy.settings.Settings object at 0x2bfd650> [s] spider <Spider 'default' at 0x20c6f50> [s] Useful shortcuts: [s] shelp() Shell help (print this help) [s] fetch(req_or_url) Fetch request (or URL) and update local objects [s] view(response) View response in a browser >>>
我们就可以操作这些对象了:
>>> sel.xpath("//h2/text()").extract()[0] u'Welcome to Scrapy' >>> fetch("http://slashdot.org") [s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1a13b50> [s] item {} [s] request <GET http://slashdot.org> [s] response <200 http://slashdot.org> [s] sel <Selector xpath=None data=u'<html lang="en">\n<head>\n\n\n\n\n<script id="'> [s] settings <scrapy.settings.Settings object at 0x2bfd650> [s] spider <Spider 'default' at 0x20c6f50> [s] Useful shortcuts: [s] shelp() Shell help (print this help) [s] fetch(req_or_url) Fetch request (or URL) and update local objects [s] view(response) View response in a browser >>> sel.xpath('//title/text()').extract() [u'Slashdot: News for nerds, stuff that matters'] >>> request = request.replace(method="POST") >>> fetch(request) [s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50> ... >>>
4. 在 Spider 中启动 shell 来查看 response
有时您想在 Spider 的某个位置中查看被处理的 response,以确认您期望的 response 到达特定位置。
这可以通过 scrapy.shell.inspect_response 函数来实现。
以下是如何在 Spider 中调用该函数的例子:
import scrapy class MySpider(scrapy.Spider): name = "myspider" start_urls = [ "http://example.com", "http://example.org", "http://example.net", ] def parse(self, response): # We want to inspect one specific response. if ".org" in response.url: from scrapy.shell import inspect_response inspect_response(response, self) # Rest of parsing code.
当运行 Spider 时,您将得到类似下列的输出:
2014-01-23 17:48:31-0400 [scrapy] DEBUG: Crawled (200) <GET http://example.com> (referer: None) 2014-01-23 17:48:31-0400 [scrapy] DEBUG: Crawled (200) <GET http://example.org> (referer: None) [s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50> ... >>> response.url 'http://example.org'
接着测试提取代码:
>>> sel.xpath('//h1[@class="fn"]') []
结果是没有。您可以在浏览器里查看 response 的结果,判断是否是您期望的结果:
>>> view(response) True
最后,您可以通过 Ctrl-D (Windows下Ctrl-Z) 来退出终端,恢复爬取:
>>> ^D 2014-01-23 17:50:03-0400 [scrapy] DEBUG: Crawled (200) <GET http://example.net> (referer: None) ...
注意: 由于该终端屏蔽了 Scrapy 引擎,您在这个终端中不能使用 fetch 快捷命令(shortcut)。当您离开终端时,Spider 会从其停下的地方恢复爬取,正如上面显示的那样。
Scrapy 使用 CSS 和 XPath 提取数据:我们可以使用 Scrapy CSS 或者 XPath 表达式,对抓取的网页内容进行分析,提取所需的数据项。CSS 或者 XPath 表达式具有相同的作用,但有着各自不同的语法,其中 XPath 选择器功能更强大,使用也更为广泛。