PySpider:一个国人编写的强大的网络爬虫系统并带有强大的We水瑞侮瑜bUI。采用Python语言编写,分肯荟卯混布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
工具/原料
python3
pyspider
方法/步骤
1、WebUI界面
2、入门demo水貔藻疽,具体介绍见下图frompyspider.libs.base_handlerimport*classH锾攒揉敫andler(BaseHandler): crawl_config={ } @every(minutes=24*60) defon_start(self): self.crawl('http://scrapy.org/',callback=self.index_page) @config(age=10*24*60*60) defindex_page(self,response): foreachinresponse.doc('a[href^="http"]').items(): self.crawl(each.attr.href,callback=self.detail_page) defdetail_page(self,response):return{ "url":response.url, "title":response.doc('title').text(), }
3、开始运行1.保存你的脚本2.回到仪表板找到你的项目。3.改变status为DEBUG。4.点击run按钮。