爬虫没有数据(爬虫运行成功但没数据)

央行授权，银联认证，正规乐刷pos机
免费申请POS机，费率低至0.38%秒到账
服务热线：18127011016，微信客服：1292496908

爬虫没有数据(爬虫运行成功但没数据)

爬虫结束后打开文件里面没有数据？

df.to_csv(…)前打印输出df有多少条数据，比如print(df.shape)，有可能是爬虫模块没有爬取到数据

有可能是爬虫模块没有爬取到数据。

每当我们写爬虫的时候，短暂的代码运行与抓取如果期间出现异常情况，我们可以及时的发现。

实际的爬虫开发项目往往运行需要耗时，对于增量式爬虫有时也是需要放到服务器上面跑的。

那数据是动态的，是通过js动态添加上去的，所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的，然后再解密，最后张渲染到页面上。

关闭scrapy自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可解决。

我们观察scrapy抓包时的输出就能发现，在请求我们设定的url之前，它会先向服务器根目录请求一个txt文件：

这个文件中规定了本站点允许的爬虫机器爬取的范围（比如你不想让百度爬取你的页面，就可以通过robot来限制），因为默认scrapy遵守robot协议，所以会先请求这个文件查看自己的权限

我们在setting改变ROBOTSTXT_OBEY为False，让scrapy不要遵守robot协议，之后就能正常爬取了

Scrapy依赖于twisted，所以如果Scrapy能用，twisted肯定是已经安装好了。

抓取到的数据，可以直接丢到MySQL，也可以用Django的ORM模型丢到MySQL，方便Django调用。方法也很简单，按数据库的语句来写就行了，在spiders目录里定义自己的爬虫时也可以写进去。

当然使用pipelines.py是更通用的方法，以后修改也更加方便。你的情况，应该是没有在Settings.py里定义pipelines，所以Scrapy不会去执行，就不会生成pyc文件了。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。