分类信息在网络中的使用率仅次于文章,通常为列表格式数据,所以采集分类信息的流程很简单,可以直接将列表页当做内容页来采集,如果需要从列表页中分析出内容页,那么采集流程就类似于文章采集,本教程重点讲解采集列表形式的数据
前面说了可以直接将列表页当做内容页来采集,那么起始页设置成什么呢?一般可以设为分类链接列表或者关键词搜索链接列表(该教程绕过这步)
以http://shili.skycaiji.com/info.html为例,基本上所有数据都在该列表中,所以无需进入内容页采集,直接将起始页设置为内容页网址
保存后点击测试抓取内容页网址,然后点“分析”进入分析网页界面
列表数据都有一定的格式规律,我们先匹配出每一条数据的包裹层,点击图片元素,然后使用底部控制台中的父元素来调出包裹层
得出第一条数据包裹层xpath://*[@id="list"]/li[1]
同类型包裹层xpath://*[@id="list"]/li
在“获取内容”中添加字段,获取方式选“xpath匹配”,规则输入同类型的xpath,勾选“允许匹配多个元素”并选中“循环入库”
保存测试下看
成功抓取到包裹层列表,接下来从每个包裹层中匹配出字段数据
以第一条数据为例,第一条包裹层html源码:
先添加一个图片字段,获取方式选“字段提取内容”,选中“包裹层”字段,提取内容选“xpath匹配”
由于是从包裹层中提取图片,所以图片xpath只需要相对于包裹层就可以了(不用根据整个页面写xpath)
填写图片xpath://img[@class='img'],属性选“src”
保存测试看看
成功从每个包裹层中匹配出了相应的图片链接
接下来再添加几个字段,操作类似于图片:
标题xpath://div[@class='title']
地址xpath://div[@class='address']
户型xpath://div[@class='huxing']
标签xpath://div[@class='tags']
均价xpath://div[@class='price']
注意以上字段xpath匹配的属性选择“text”可直接过滤掉html代码
测试结果:
采集列表数据的教程就是这些了,流程很简单,就是编写字段xpath比较繁琐,还有一种不使用包裹层而是直接将每个字段都设置为循环入库(xpath匹配使用同类型元素的xpath)
两种方式都已上传云平台
包裹层:http://www.skycaiji.com/Collect/rule/detail/id/100156
同类型:http://www.skycaiji.com/Collect/rule/detail/id/100111
如有细节方面问题请在本帖内回复!
- 1蓝天采集器在数据安装的界面输入完成信息之后 无法安装
- 2教育学校/培训机构网站建设方案
- 3163K网站系统微信支付配置教程(S版)
- 4蓝天采集器关于判断
- 5蓝天采集器想爬去的页面 需要点击开始后才能出结果 怎么爬取
- 6蓝天采集器采集今日头条
- 7Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 8192 bytes)
- 8163K网站系统七牛云加速域名开启https教程
- 9PbootCMS配置面包屑导航
- 10蓝天采集器采集入库有问题!!!!!!!!!!!!!!!!
- 11蓝天采集器可以在任务列表做一个复制的功能吗?
- 12PbootCMS获取结果页面的搜索keyword值和tag值
- 13蓝天采集器求教高手,安装完成后,进后台出错!
- 14蓝天采集器保存到本地文档excel后面后缀会变成几位随机字母
- 15蓝天采集器批量采集百度下拉框关键词视频+图文教程
- 16Xpath不固定元素列表规则写法
- 17FastAdmin问答社区系统火车头采集入库使用教程
- 18PbootCMS蓝天采集器采集使用教程一采集设置
- 19蓝天采集器请教数据采集覆盖或修改之前入库信息的设置
- 20自带采集PHP小说网站源码:功能强大KYXSCMS狂雨小说cms网站源码
-
蓝天采集器刚下载了2.2版本的,不知···
请问有各位用过的朋友,这款软件是怎么安装的, 使用手册里写着要上传服务器,是什么意思? 上传至服务器将下载的软件上传至您的服务器,如果根目录有站点建议放在子目录里,解压后打开浏览器输入您的服务器域名或ip地址(存放在子目录则加上子目录···
-
163K网站系统升级S版后注意事项(···
升级到S5版本后,由于后台是全新改版,请您完全清理浏览器缓存再用admin账号登录管理,可避免点击后台菜单出现访问前台首页的情况,同时在后台-系统-后台用户 需重新设置一次其他管理员账号的权限。X版成功升级到S版后,您需要做以下设置再访问网···
-
蓝天采集器图片本地化的一个bug
本帖最后由 zizdog 于 2019-6-24 14:38 编辑 今天遇到了一个问题: 采集器开启图片本地化,下载图片是在采集入库之前完成的。 我在写入数据库之前需要做判断,有些不满足条件内容是不需要采集的。但这时所有图片都被下载···
-
迅睿cms火车头采集器免登录发布模块···
分类列表名称<h1>[分类名称]<=>[分类ID]</h1>错误标识码接口配置文件不存在权限验证失败栏目ID为空标题为空标题重复未知失败成功标识码成功
-
163K网站系统商城物流跟踪-快递鸟···
此教程是网站后台-商城-基本配置-基本配置-快递鸟接口配置的配置教程,其作用是在未送达的订单中显示该订单快递单号的物流跟踪状态。1、注册登陆http://www.kdniao.com/api-track,在用户信息界面 可以获取到 用户ID···