爬虫没有数据(爬虫运行成功但没数据)

爬虫结束后打开文件里面没有数据?

爬虫没有数据(爬虫运行成功但没数据)

df.to_csv(…)前打印输出df有多少条数据,比如print(df.shape),有可能是爬虫模块没有爬取到数据

爬虫爬取数据打开记事本没有数据

有可能是爬虫模块没有爬取到数据。

每当我们写爬虫的时候,短暂的代码运行与抓取如果期间出现异常情况,我们可以及时的发现。

实际的爬虫开发项目往往运行需要耗时,对于增量式爬虫有时也是需要放到服务器上面跑的。

python 爬虫,爬不到数据

那数据是动态的,是通过js动态添加上去的,所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的,然后再解密,最后张渲染到页面上。

请大神帮我看看为什么我这个简单的小爬虫得不到数据?急急急急急!!!

关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。

我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:

这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让百度爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限

我们在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取了

scrapy异步爬虫运行正常为什么没有将数据存储到mysql中去

Scrapy依赖于twisted,所以如果Scrapy能用,twisted肯定是已经安装好了。

抓取到的数据,可以直接丢到MySQL,也可以用Django的ORM模型丢到MySQL,方便Django调用。方法也很简单,按数据库的语句来写就行了,在spiders目录里定义自己的爬虫时也可以写进去。

当然使用pipelines.py是更通用的方法,以后修改也更加方便。你的情况,应该是没有在Settings.py里定义pipelines,所以Scrapy不会去执行,就不会生成pyc文件了。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。