用爬虫采集当当网图书商品信息

 时间:2024-09-27 21:28:53

本文主要介绍了如何批量采集当当网图书商品信息

工具/原料

电脑一台windows系统即可

ForeSpider数据采集系统5.2.0.18

新建采集任务

1、选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

用爬虫采集当当网图书商品信息

2、选择列表链接,点击完成按钮,即创建任务完成。

用爬虫采集当当网图书商品信息

获取分类链接

1、采集预览,查看页面所有链接,查找计算机分类链接的规律,发现所有与计算机相关的分类的链接规律为:http://category.dangdang.com/cp01.54.+数字串+.00.00.00.html

用爬虫采集当当网图书商品信息

2、所艮劁飨戽以使用地址过滤的方法,过滤链接为以下规律的链接:http://category.dangdang.com/cp01.54.\d.00.00.00.html其中\d表示数字怩髡肥眙串,点击保存,重新测试,计算机分类链接就筛选出来了。

用爬虫采集当当网图书商品信息

抽取图书商品链接

1、新建一层模板02,并新建两个链接抽取,第一个链接抽取抽取商品页链接,第二个抽取翻页链接。

用爬虫采集当当网图书商品信息

2、可分别修改名称为:列表链接抽取和翻页链接抽取。

用爬虫采集当当网图书商品信息

3、选择任意一条分类链接,并粘贴到模板02的示例地址处,点击右上角保存按钮。

用爬虫采集当当网图书商品信息

4、双击内置浏览器空白处,内置浏览器显示该页面。

用爬虫采集当当网图书商品信息

5、采集预览,双击任意一条分类链接,进入图书商品列表殳陌抻泥页,查看页面链接,观察图书链接规律,发现图书商品链接规律为:茑霁酌绡http://product.dangdang.com/+数字串+.html设置地址过滤,过滤规律为http://product.dangdang.com/\d.html\e的链接,其中\d表示数字串,\e表示链接结束。采集预览,图书商品链接已抽取到。

用爬虫采集当当网图书商品信息

抽取翻页链接

1、采集预览,双击任意一条分类链接进入分类页,观察翻殳陌抻泥页链接,发现翻页链接中都含有:http://category缕计瓤账.dangdang.com/pg,使用地址过滤方法,过滤地址中含有:http://category.dangdang.com/pg的链接。采集预览如下图所示:

用爬虫采集当当网图书商品信息

抽取图书商品数据

1、新建一个抽取模板,在其下新建一个数据抽取,具体操作如下所示:

用爬虫采集当当网图书商品信息

2、数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)

用爬虫采集当当网图书商品信息

3、将新建好的数据表,关联到模板中去,如下图所示:

用爬虫采集当当网图书商品信息

4、填写示例数据,采集预览,复制任意一条图书商品链接。

用爬虫采集当当网图书商品信息

5、将链接粘贴到本模板示例地址中,并双击内置浏览器空白部分,加载本链接。

用爬虫采集当当网图书商品信息

6、关联模板模板02中的列表链接抽取,关联模板03,这样采集到的图书商品链接会到模板03进行数据抽取。

用爬虫采集当当网图书商品信息

7、模板02中的翻页链接抽取,关联模板02,这样采集到的翻页链接会继续在模板02中进行列表链接抽取。

用爬虫采集当当网图书商品信息

8、数据抽取-可视化抽取部分字段Class1&class2使用字段定位取值的方法,进行取值,具体操作如下所示:

用爬虫采集当当网图书商品信息

用爬虫采集当当网图书商品信息

9、Title取值同上

用爬虫采集当当网图书商品信息

10、Introduct、Autho、publish、pubtime、price取值同上

用爬虫采集当当网图书商品信息

用爬虫采集当当网图书商品信息

用爬虫采集当当网图书商品信息

用爬虫采集当当网图书商品信息

用爬虫采集当当网图书商品信息

11、数倌栗受绽据抽取—脚本抽取部分字段Recommend后边的字段对应的数据不在页面源码中,所以用定位取值取不到。接下来我们用浏览器打开该姨胀兽辱示例地址,查看recommend等字段对应的数据在哪个请求中。点击F12,查看每个请求中返回的内容,发现recommend等内容在下图所示请求中。

用爬虫采集当当网图书商品信息

12、发现拉悟有仍该请求的链接是:http://product.dangdang.com/index.php?r=call芟鲠阻缒back%2Fdetail&productId=29267036&templateType=publish&describeMap=01000031459%3A1&shopId=0&categoryPath=01.54.06.23.00.00观察发现其规律为:http://product.dangdang.com/index.php?r=callback%2Fdetail&productId=+id+&templateType=publish&describeMap=01000031459%3A1&shopId=0&categoryPath=01.54.20.00.00.00";查看请求中的返回内容,发现文本内容都被Unicode转译。

用爬虫采集当当网图书商品信息

13、使用在线转码工具能够转译为中文。

用爬虫采集当当网图书商品信息

14、在源码中,发现id为【abstract-all】的内容是编辑推荐(recommend字段)。

用爬虫采集当当网图书商品信息

15、同理,id为【conten隋茚粟胫t-all】的内容是内容简介(content字段);id为【catalog-show-al】的内容是目录内容(b泠贾高框ooklist字段);故在recommend字段创建脚本教程如下所示:

用爬虫采集当当网图书商品信息

16、采集预览,双击进入下一层,知道打开数据页,抽取到数据,表示配置成功。

用爬虫采集当当网图书商品信息

数据采集

1、首先要建立采集墙绅褡孛数据表:选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创捋杏野卫建】,表名称自定义,这里命名为【dangdang】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

用爬虫采集当当网图书商品信息

2、选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

用爬虫采集当当网图书商品信息

3、采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

用爬虫采集当当网图书商品信息

用爬虫采集当当网图书商品信息

4、导出的文件打开如下图所示:

用爬虫采集当当网图书商品信息

eclipse控制台不显示怎么办 c语言程序的一般形式 Python如何使用Range创建数值列表 Java如何加粗所绘图形线条 如何他用powerdesigner中的SQL语句创建数据表
热门搜索
俄罗斯战争电影 十万个冷笑话电影 板式电视柜图片 大阳电动车价格及图片 欧美图片壁纸