当前位置: > python问答 >

常见的python的问题,你有经历过吗
栏目分类:python问答   发布日期:2019年02月19日 14:28:44   浏览次数:

       相信很多小伙伴在学习Python的过程中都或多或少的遇到过一些问题,今天给大家整理了一些常见的Python的问题,看看其中有你经历过的吗?

python问题
 
一. 爬虫出现Forbidden by robots.txt

解决方法:setting.py ROBOTSTXT_OBEY = True 改成False
原因:scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会从服务器根目录请求一个txt文件
这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让百度爬取你的页面,就可以让robot来限制它),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,而我们现在访问这个url得到
1 User-agent: * 2 Disallow: /
在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取
对于使用robot协议的站点,只要我们的爬虫不遵守该协议就行了,但是对于防止爬虫爬取,站点还有检查请求头、检查ip等等手段,还需要其他的相应处理。

二. 如何进一步获取数据并同时保存

解决方法:参考文章——scrapy爬取新浪网导航页所有大类、小类、小类里的子链接,以及子链接页面的新闻内容

三. ajax请求

解决方法:post请求
可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求
注意!!!
formdata的参数值必须是unicode , str 或者bytes object,不能是整数。

四. 自动创建create_time

解决方法:将create_time字段设置为timestamp 并设置默认值CURRENT_TIMESTAMP

五. mysql 让清空表且自增的id重新从1开始

解决方法:truncate table table_name

以上这几种Python学习中常见的问题,你有经历过吗?
 

相关热词:

热门关键词
     
python教程 python爬虫 python人工智能 Python+大数据 python问答