爬虫没有数据(爬虫运行成功但没数据)
爬虫结束后打开文件里面没有数据?

df.to_csv(…)前打印输出df有多少条数据,比如print(df.shape),有可能是爬虫模块没有爬取到数据
爬虫爬取数据打开记事本没有数据
有可能是爬虫模块没有爬取到数据。
每当我们写爬虫的时候,短暂的代码运行与抓取如果期间出现异常情况,我们可以及时的发现。
实际的爬虫开发项目往往运行需要耗时,对于增量式爬虫有时也是需要放到服务器上面跑的。
python 爬虫,爬不到数据
那数据是动态的,是通过js动态添加上去的,所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的,然后再解密,最后张渲染到页面上。
请大神帮我看看为什么我这个简单的小爬虫得不到数据?急急急急急!!!
关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让百度爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限
我们在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取了
scrapy异步爬虫运行正常为什么没有将数据存储到mysql中去
Scrapy依赖于twisted,所以如果Scrapy能用,twisted肯定是已经安装好了。
抓取到的数据,可以直接丢到MySQL,也可以用Django的ORM模型丢到MySQL,方便Django调用。方法也很简单,按数据库的语句来写就行了,在spiders目录里定义自己的爬虫时也可以写进去。
当然使用pipelines.py是更通用的方法,以后修改也更加方便。你的情况,应该是没有在Settings.py里定义pipelines,所以Scrapy不会去执行,就不会生成pyc文件了。