编程宝库 - 技术改变世界

编程宝库

Scrapy爬虫

Scrapy response 属性和 Selector 对象

Scrapy 项目中，抓取的数据生成了 response 对象。我们主要针对 response 对象进行分析，提取特定的数据项。在数据分析过程中，需要频繁使用 xpath、css 表达式操作 Selector 对象。

    response.text = response.body.decode(response.encoding)

encoding：HTTP 响应正文的编码。
reqeust：产生该 HTTP 响应的 Reqeust 对象。
meta：即 response.request.meta，在构造 Request 对象时，可将要传递给响应处理函数的信息通过 meta 参数传入，响应处理函数处理响应时，通过 response.meta 将信息提取出来。
selector：Selector 对象用于在 Response 中提取数据，主要是 xpath、css 取值之后的处理。
xpath(query)：下面详细讲解。
css(query) ：下面详细讲解。
urljoin(url) ：用于构造绝对 url，当传入的 url 参数是一个相对地址时，根据 response.url 计算出相应的绝对 url。

Selector 对象和 SelectorList 对象都有以下几种方法。

爬虫 Spider 是一个定义如何抓取某个网站的类，包括如何执行抓取以及如何从其网页中提取结构化数据。换句话说，Spider是您定义用于为特定网站抓取和解析网页的自定义行为的位置。