当前位置: > python爬虫 >

python破解大众点评svg
栏目分类:python爬虫   发布日期:2019年03月27日 23:08:22   浏览次数:

大家好,我是爱吃苹果的宇文拓。今天我们来破解大众点评商家信息

      我们在爬取大众点评商家 信息的时候,发现抓取的信息不全,有些文字被替换成标签了。这样会使我们拿到的信息不全。






我研究发现,这个文字是被标签所替换掉了,替换原理是:该标签所对应的css的class属性有中有一对坐标值。然后这对坐标值,与相应的.svg文件有联系。我们选中一个标签。查看如下信息。



我们打开svg文件。https://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/e42fa6822f2773ee2c8d10597de16d06.svg 并查看源码



如图发下其实是一个xml的文件,这里面保存的是数字信息。这些就是我们要将标签替换为真实的数字的信息。



分析上图,我们只要找出一个被替换成的标签的真实的数字的坐标就能定位我们想要的真实的文字信息了。研究发现被替换的数字所在行数与标签中的class属性属性中第二值有关系。如下图,请仔细阅读下图的含义。




经过一番研究我发下,行数 = ? 所在行   if b<?      注意:? 等于对应svg文件中的text标签中的y值。省略-负号(-)
                                    列数 = a/c   注意:列数从0开始计算。省略-负号(-)






验证猜想:
我们当前选取的标签对应的值为5,即行数=149<172 ,即172所在行为最后一行。列数=330/14=23 即为23列,下标从0开始。有下图可知我们的计算结果为数字5。猜想正确。





总结:今天我们破解了大众点评的商家店铺信息。就如做数学题一样。爬虫也是,要用于猜想与尝试。说不定猜想就是正确的答案。

相关热词:

相关内容
热门关键词
python字符串
     
python教程 python爬虫 python人工智能 Python+大数据 python问答