当前位置: > python爬虫 >

python爬虫框架的分类有哪些
栏目分类:python爬虫   发布日期:2019年02月27日 17:34:59   浏览次数:

 python爬虫

Python爬虫虽然入门简单,但是到真正投入工作的时候才发现,并不是像学习阶段的时候那样一个例子就搞定了,需要根据不同的情况来选择不同的方法。本文就为大家介绍几种在不同情况下的Python爬虫框架的使用。
1.  BeautifulSoup库的select()方法
BeautifulSoup库可以在HTML中提取数据的Python库,它通过对HTML文档进行解析,能够按照我们对数据的偏好获取想要的数据。而select方法正是BeautifulSoup库中一个重要的方法,select方法对BeautifulSoup解析后的HTML文档进行处理,通过对不同标签的不同属性进行选择,从而得到我们想要的数据。详情参考下面的例子,我们对新浪新闻的新闻标题信息进行获取。

 

解析


可以看出,想要获取的新闻标题在标签a中,并且标签a在标签h2中,但我们可以发现h2标签中没有可以标识它的属性,而最外层div中含有可以标识它的属性class,所以我们通过select方法对class标签进行选择,代码如下:
 

代码

 
这样我们得到了div中全部的HTML文档了,在将获取的list通过[0]解开,对解开的list进行取文本操作,就可以得到数据了,但我们想要的是标题信息,而标题在h2中,因此还需将news通过select方法获取h2标签,代码如下:

 

源码

 
此时我们就成功的打印出新闻的标题信息啦。
2. 用lxml库xpath爬取知网相关内容:
首先我们需要引入的模块是requests,lxml

 

源码


requests.get(url)获得该网页的数据信息,通过使用 html 模块解析它,并将结果保存到 tree 中tree 现在包含了整个HTML文件到一个树结构中,我们可以使用XPath去获取到我们想要的数据。已知网为例子我们获取该网页业的标题和摘要部分。
 

解析网站

 
代码:

 

源码

 
输出结果:

 

源码

 
上面两个例子介绍了在不同是需求下Python爬虫的两个不同框架的使用,第一个例子使用了BeautifulSoup库,而第二个则使用了lxml库。大家在Python爬虫获取信息的时候一定要先分析,看自己用哪个框架能更好的实现实际需求。

相关热词:

热门关键词
python字符串
     
python教程 python爬虫 python人工智能 Python+大数据 python问答