python3 asyncio异步新浪微博爬虫WeiboSpider

  • 时间:
  • 浏览:0
  • 来源:5分PK10APP下载_5分PK10APP官方

而weibo.com否则我输入验证码,而验证码可不还要通过yundama来验证,yundama什么都有有我贵,验证一次大约 一分钱吧,登录成功后,在去访问weibo.cn,新浪会自行转换weibo.com的cookies到weibo.cn的cookies

这里太多废话,大约 介绍一下为啥做的。大致是:

talk is cheap, show you the code

通过weibo.com登录界面登录,可能性weibo.cn登录可能性还要验证句子是要相似解锁那样验证的,不好做。

否则把cookies保发生redis共享

使用了aiohttp,毕竟python的协程比多任务管理器更给力,爬虫什么都有有我个频繁io的过程,自然用协程比多任务管理器快了不少。

过后写的用python3+urllib写的多任务管理器微博(传送门),上方发现登录账号频繁被403,什么都有有防止登录问提报告 迫在眉睫。否则python的“多任务管理器”并非没有多任务管理器,最近可能性刚需,还要稳定的微博爬虫,什么都有有琢磨了一下使用selenium+aiohttp+redis写了有一三个 使用asyncio的新浪爬虫。

解析用的是bs4,解析后的数据倒进kafka上,想存哪存哪~

github:https://github.com/zhujiajunup/WeiboSpider

这里就不说具体为啥做和使用了,README.md上有使用不走,感兴趣的看源码去吧。