python采集数据,主要根据自己擢爻充种的需求,使用正则表达式设定规则,采集自己需求的数据。本文使用的是re和urllib模块,讲解代码逻辑。
工具/原料
CentOS(linux系统)
python
方法/步骤
1、引入正则和采集库:importre//正则模块importurllib//urllib模块提供了读取web页面数据的接口
2、先根据url获取,对应的页面数据:定义函数get郡哏匙芥Html().defgetHtml(url):page=urllib.urlopen(锇栀劐箨url)//打开链接html=page.read()//读取页面数据returnhtml
3、然后各根据获取图片路径的需求设定正则表达式:定义函数getImg(html).代码如图:
4、运行测试