当前位置: > python爬虫 >

Python-Scrapy抓取中国空气质量全站数据-ChinaArea案例
栏目分类:python爬虫   发布日期:2019年03月23日 16:56:38   浏览次数:

目标抓取每个城市空气质量指数日历史数据,知识点主要是Scrapy对接selenium
 
1、分析网页数据结构
 
1.1 一级域名页面

一级域名页面

 
1.2 爬虫起始页面(抓取起始页面)
 
爬虫起始页面
 
1.3 从上图随便点个城市链接进去,找到月份链接
 
月份链接
 
ps:白城的空气质量不太好哟(灬°ω°灬) 
 
1.4  这是我们需要抓取的数据字段 加上城市的字段一共有十个了(找到我们需要爬取的数据字段)
 
抓取的数据字段
 
2、分析网页数据格式
2.1 第一个页面为静态
分析网页数据格式静态

分析网页数据格式静态
 
2.2 第二个页面为动态页面
分析网页数据格式动态

分析网页数据格式动态
 
2.3 第三个页面为动态页面
 
第三个页面为动态页面

第三个页面为动态页面
 
除了第一个页面为静态其它页面均问动态
思路:第一个页面为静态我们采用平常方式发送请求,之后页面我们采用selenium+Chrome抓取
 
OK~上代码啦!
items.py
items.py文件
spider.py
spider.py文件
 
middlewares.py
middlewares.py文件
pipelines.py
pipelines.py文件
 
settings.py
 
settings.py文件
 
抓取过程
抓取过程
 
抓取结果
抓取结果
 
小阔爱们可以尝试来学着玩哟٩(๑>◡<๑)۶ 
人生苦短,我用Python~
小阔爱们努力学习哈٩(๑❛ᴗ❛๑)۶ 文章摘自:潭州python

相关热词:

热门关键词
python字符串
     
python教程 python爬虫 python人工智能 Python+大数据 python问答