Scrapy 蜘蛛

Spider是一个负责定义如何遵循链接通过网站并从网页中提取信息的类。

Scrapy的默认蜘蛛如下：

scrapy.Spider

它是蜘蛛必须从其中继承的蜘蛛。它有以下类：

class scrapy.spiders.Spider

下表显示了scrapy.Spider类的字段：

序号	字段和说明
1	name 这是你的蜘蛛的名字。
2	allowed_domains 这是蜘蛛爬行的域名列表。
3	start_urls 它是一个URL列表，它将成为以后抓取的根源，蜘蛛将从这里开始抓取。
4	custom_settings 这些是运行蜘蛛时的设置，将从项目范围的配置中被覆盖。
5	crawler 它是链接到蜘蛛实例绑定到的Crawler对象的属性。
6	settings 这些是运行蜘蛛的设置。
7	logger 它是一个用于发送日志消息的Python记录器。
8	from_crawler(crawler,args,kwargs) 这是一种创建蜘蛛的类方法。参数是 - crawler \- 蜘蛛实例将被绑定到的爬虫。 * args（list） \- 这些参数传递给方法 __init__() 。 * kwargs（dict） \- 将这些关键字参数传递给 __init__() 方法。
9	start_requests() 如果没有指定特定的URL，并且为捕捉而打开蜘蛛，则Scrapy会调用 _start_requests（）_ 方法。
10	make_requests_from_url（URL）这是一种用于将网址转换为请求的方法。
11	parse(response) 此方法处理响应并在更多URL后返回报废的数据。
12	log(message[,level,component]) 这是一种通过蜘蛛记录器发送日志消息的方法。
13	closed(reason) 这个方法在蜘蛛关闭时被调用。

蜘蛛参数

Spider参数用于指定起始URL，并使用带 -a 选项的抓取命令传递，如下所示：

scrapy crawl first_scrapy -a group = accessories

以下代码演示了蜘蛛如何接收参数：

import scrapy

class FirstSpider(scrapy.Spider):
   name = "first"

   def __init__(self, group = None, *args, **kwargs):
      super(FirstSpider, self).__init__(*args, **kwargs)
      self.start_urls = ["http://www.example.com/group/%s" % group]

通用蜘蛛

您可以使用通用的蜘蛛来从您的蜘蛛派生子类。

他们的目标是根据一定的规则来跟踪网站上的所有链接，从所有页面提取数据。

对于以下蜘蛛中使用的示例，我们假设我们有一个包含以下字段的项目：

import scrapy
from scrapy.item import Item, Field

class First_scrapyItem(scrapy.Item):
   product_title = Field()
   product_link = Field()
   product_description = Field()

CrawlSpider

CrawlSpider定义了一组规则来跟随链接并废弃多个页面。它有以下类：

class scrapy.spiders.CrawlSpider

以下是CrawlSpider类的属性：

规则

它是规则对象的列表，定义了爬行程序如何遵循链接。

下表显示了CrawlSpider类的规则：

序号	规则和说明
1	LinkExtractor 它指定蜘蛛如何遵循链接并提取数据。
2	callback 这是每个页面被刮后被调用。
3	follow 它指定是否继续跟踪链接。

parse_start_url（响应）

它通过允许解析初始响应来返回项目或请求对象。

注 - 确保在编写规则时重命名解析函数而不是解析，因为CrawlSpider使用解析函数来实现其逻辑。

让我们来看看下面的例子，蜘蛛开始抓取demoexample.com的主页，使用 _parseitems 方法收集所有页面，链接和分析：

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class DemoSpider(CrawlSpider):
   name = "demo"
   allowed_domains = ["www.demoexample.com"]
   start_urls = ["http://www.demoexample.com"]

   rules = (
      Rule(LinkExtractor(allow =(), restrict_xpaths = ("//div[@class = 'next']",)),
         callback = "parse_item", follow = True),
   )

   def parse_item(self, response):
   item = DemoItem()
   item["product_title"] = response.xpath("a/text()").extract()
   item["product_link"] = response.xpath("a/@href").extract()
   item["product_description"] = response.xpath("div[@class = 'desc']/text()").extract()
   return items

XMLFeedSpider

它是蜘蛛的基类，可以从XML Feed中抓取并在节点上迭代。它有以下类：

class scrapy.spiders.XMLFeedSpider

下表显示了用于设置迭代器和标记名称的类属性：

序号	属性和描述
1	iterator 它定义了要使用的迭代器。它可以是 _iternodes，html_ 或 _xml_ 。默认是 _iternodes_ 。
2	itertag 它是一个包含节点名称的字符串，用于迭代。
3	namespaces 它由（prefix，uri）元组列表定义，它们使用 _register_namespace（）_ 方法自动注册名称空间。
4	adapt_response(response) 它在蜘蛛开始分析它之前，一收到响应并在响应体从蜘蛛中间件到达时立即修改它。
五	parse_node(response,selector) 当每个节点与提供的标签名称匹配时，它会收到响应和选择器。注 \- 如果您不覆盖此方法，您的蜘蛛将无法工作。
6	process_results(response,results) 它返回由蜘蛛返回的结果和响应列表。

CSVFeedSpider

它遍历每行，接收CSV文件作为响应，并调用 _parse_row（）_ 方法。它有以下类：

class scrapy.spiders.CSVFeedSpider

下表显示了可以针对CSV文件设置的选项：

序号	选项和说明
1	delimiter 它是一个包含每个字段的逗号（'，'）分隔符的字符串。
2	quotechar 它是一个包含每个字段的引号（'“'）的字符串。
3	headers 它是可以从中提取字段的语句列表。
4	parse_row(response,row) 它收到一个响应，每一行以及一个标题键。

CSVFeedSpider示例

from scrapy.spiders import CSVFeedSpider
from demoproject.items import DemoItem  

class DemoSpider(CSVFeedSpider):
   name = "demo"
   allowed_domains = ["www.demoexample.com"]
   start_urls = ["http://www.demoexample.com/feed.csv"]
   delimiter = ";"
   quotechar = "'"
   headers = ["product_title", "product_link", "product_description"]  

   def parse_row(self, response, row):
      self.logger.info("This is row: %r", row)  
      item = DemoItem()
      item["product_title"] = row["product_title"]
      item["product_link"] = row["product_link"]
      item["product_description"] = row["product_description"]
      return item

SitemapSpider

SitemapSpider在 Sitemaps 的帮助下通过查找robots.txt中的网址来抓取网站。它有以下类：

class scrapy.spiders.SitemapSpider

下表显示SitemapSpider的字段 -

序号	字段和说明
1	sitemap_urls 您要抓取指向站点地图的网址列表。
2	sitemap_rules 它是一个元组列表（regex，callback），其中regex是一个正则表达式，回调用于处理匹配正则表达式的URL。
3	sitemap_follow 这是一个网站地图的正则表达式列表。
4	sitemap_alternate_links 指定要为单个网址执行的备用链接。

SitemapSpider示例

以下SitemapSpider处理所有网址：

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider):
   urls = ["http://www.demoexample.com/sitemap.xml"]  

   def parse(self, response):
      # You can scrap items here

以下SitemapSpider处理一些带回调的网址：

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider):
   urls = ["http://www.demoexample.com/sitemap.xml"]

   rules = [
      ("/item/", "parse_item"),
      ("/group/", "parse_group"),
   ]  

   def parse_item(self, response):
      # you can scrap item here  

   def parse_group(self, response):
      # you can scrap group here

以下代码显示robots.txt中其网址具有 / sitemap_company的 站点地图：

from scrapy.spiders import SitemapSpider

class DemoSpider(SitemapSpider):
   urls = ["http://www.demoexample.com/robots.txt"]
   rules = [
      ("/company/", "parse_company"),
   ]
   sitemap_follow = ["/sitemap_company"]  

   def parse_company(self, response):
      # you can scrap company here

您甚至可以将SitemapSpider与其他网址结合使用，如以下命令所示：

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider):
   urls = ["http://www.demoexample.com/robots.txt"]
   rules = [
      ("/company/", "parse_company"),
   ]  

   other_urls = ["http://www.demoexample.com/contact-us"]
   def start_requests(self):
      requests = list(super(DemoSpider, self).start_requests())
      requests += [scrapy.Request(x, self.parse_other) for x in self.other_urls]
      return requests

   def parse_company(self, response):
      # you can scrap company here...

   def parse_other(self, response):
      # you can scrap other here...

Scrapy 爬虫