当前位置: > python爬虫 >

scrapy爬取目标网页
栏目分类:python爬虫   发布日期:2019年03月24日 21:11:39   浏览次数:

大家好,我是爱吃苹果的宇文拓。今天我给大家介绍的是使用scrapy爬取目标网页

    我们在前面的文章有写到如何使用scrapy创建一个项目。今天我们就来研究怎么使用scrapy完成对目标网站的抓取。

1.编辑spider1.py文件



如图所示:
name:这是我们在创建spider时定义的,可以用它来区分不同的spider。
allowed_domains:这个定义允许爬取的域名,如果初始或者后续的链接不属于这个域名下,则该请求链接会被过滤掉。
start_urls:它包含了,spider 在启动时爬取的url,初始的请求就是由它来定义,这是一个列表型的数据结构。
parse:对于这个函数,我们可以称之为为spider的入口函数,因为在请求下载完成后,返回的响应将作为唯一的参数传递给这个函数。并且该方法会解析返回的响应,用于提取数据或者进一步生成要处理的请求。
对于spider文件,只要完成上述的变量与函数,基本就可以完成一个简单的抓取流程。抓取到了数据我们肯定要把数据存储下来吧。scrapy框架也有提供,框架使用pipeline组件来完成存储。但是我们从组件spider到pipeline之间的信息传递由什么来传递呢?这里使用item。


2.编辑item.py文件
   item是保存数据的容器,可以这样理解它,它是一个类似于python中字典数据结构。创建item我们必须继承scrapy.Item并且使用scrapy.Field字典来定义。



如图我们打开项目文件下的item.py文件,然后定义我们所需要抓取的字段。

3.开始解析网页
  我们打开spider文件,然后在parse函数中开始解析网页,并保存到我们定义好的item数据结构中。我们这里抓取目标网站中的正在热映模块的电影名称与分数。





解析网页代码如下:






完成spider编辑后,我们开始运行项目。

4.运行项目

   切换到.cfg文件同级目录下,运行命令:scrapy crawl spider1即可



总结:今天我们演示了使用scrapy爬取目标网站信息,并解释了spider文件中重要的字段与方法的作用。还编写了item.py文件,我们最后将想要抓取的数据存入了item的数据结构中。完成了一次使用scrapy爬取目标网站的任务。


相关热词:

相关内容
热门关键词
python字符串
     
python教程 python爬虫 python人工智能 Python+大数据 python问答