Scrapy Telnet控制台
Telnet控制台是一个运行在Scrapy过程中的Python shell,用于检查和控制Scrapy运行过程。
访问Telnet控制台
可以使用以下命令访问telnet控制台:
telnet localhost 6023
基本上,telnet控制台列在TCP端口中,在 TELNETCONSOLE_PORT 设置中进行了描述。
变量
下表中给出的一些默认变量用作快捷方式:
Sr.No | 快捷方式和说明 |
---|---|
1 | crawler 这指的是Scrapy Crawler(scrapy.crawler.Crawler)对象。 |
2 | engine 这指的是Crawler.engine属性。 |
3 | spider 这是指活跃的蜘蛛。 |
4 | slot 这是指发动机插槽。 |
5 | extensions 这是指扩展管理器(Crawler.extensions)属性。 |
6 | stats 这是指Stats Collector(Crawler.stats)属性。 |
7 | setting 这是指Scrapy设置对象(Crawler.settings)属性。 |
8 | est 这指的是打印发动机状态的报告。 |
9 | prefs 这是指用于调试的内存。 |
10 | p 这是指[pprint.pprint](https://docs.python.org/3/library/pprint.html#pprint.pprint)函数的快捷方式。 |
11 | hpy 这是指内存调试。 |
例子
以下是使用Telnet控制台说明的一些示例。
暂停,恢复并停止Scrapy引擎
要暂停Scrapy引擎,请使用以下命令:
telnet localhost 6023 >>> engine.pause() >>>
要恢复Scrapy引擎,请使用以下命令:
telnet localhost 6023 >>> engine.unpause() >>>
要停止Scrapy引擎,请使用以下命令:
telnet localhost 6023 >>> engine.stop() Connection closed by foreign host.
查看引擎状态
Telnet控制台使用 est() 方法检查Scrapy引擎的状态,如以下代码所示:
telnet localhost 6023 >>> est() Execution engine status time()-engine.start_time : 8.62972998619 engine.has_capacity() : False len(engine.downloader.active) : 16 engine.scraper.is_idle() : False engine.spider.name : followall engine.spider_is_idle(engine.spider) : False engine.slot.closing : False len(engine.slot.inprogress) : 16 len(engine.slot.scheduler.dqs or []) : 0 len(engine.slot.scheduler.mqs) : 92 len(engine.scraper.slot.queue) : 0 len(engine.scraper.slot.active) : 0 engine.scraper.slot.active_size : 0 engine.scraper.slot.itemproc_size : 0 engine.scraper.slot.needs_backout() : False
Telnet控制台信号
您可以使用telnet控制台信号添加,更新或删除telnet本地命名空间中的变量。要执行此操作,您需要在处理程序中添加telnet_vars字典。
scrapy.extensions.telnet.update_telnet_vars(telnet_vars)
参数:
telnet_vars (dict)
其中,dict是一个包含telnet变量的字典。
Telnet设置
下表显示了控制Telnet Console的行为的设置:
Sr.No | 设置和说明 | 默认值 |
---|---|---|
1 | TELNETCONSOLE_PORT 这是指telnet控制台的端口范围。如果它设置为none,那么端口将被动态分配。 | [6023,6073] |
2 | TELNETCONSOLE_HOST 这是指telnet控制台应该侦听的接口。 | '127.0.0.1' |
运行的Scrapy网络爬虫可以通过 JSON-RPC 进行控制。它由JSONRPC_ENABLED设置启用。该服务通过 JSON-RPC 2.0 协议提供对主要爬虫对象的访问。访问爬虫对象的端点是:http://l ...