有些文章内容太长会采用分页模式来显示,以文章“http://shili.skycaiji.com/article/news/pg/id/20.html”为例
首先我们在“采集器设置》获取内容》内容分页”中开启分页
文章一般都是正文有分页,我们将“正文”字段添加为“分页内容字段”
文章页面图片:
图中我们可以看到有4种分页形式:完整分页、上下分页、完整分页JS模式和上下分页JS模式
分页连接的格式为:article/news/pg/id/数字.html?page=数字
通过“测试》分析网页”功能获取到各个分页区域的xpath:
完整分页://*[@id="page_list"]/li[1]
上下分页://*[@id="page_list"]/li[3]
完整分页JS模式://*[@id="page_list"]/li[2]
上下分页JS模式://*[@id="page_list"]/li[4]
以上xpath值可以在“内容分页》获取分页区域”中设置以获取固定区域的分页链接,否则将获取整个页面的分页链接
分页链接规则:
完整分页和上下分页直接通过a标签获取链接即可:
JS模式分页通过查看源码发现链接格式为:
使用规则匹配出分页链接:
因为JS模式不能自动补全网址,所以要在“拼接成最终分页链接”中填写:
为了防止匹配到非分页链接,在“内容分页》分页网址过滤》必须包含”中填写“page=”,精准一些则用“article/news/pg/id/d+.html?page=d+”
我们测试下“完整分页JS模式”的链接抓取
“测试》抓取分页”效果
注意:很多网站由于程序问题会出现2种格式的文章首页链接,比如示例中的文章首页链接为:http://shili.skycaiji.com/article/news/pg/id/20.html和http://shili.skycaiji.com/article/news/pg/id/20.html?page=1(从第二页开始文章首页为该链接),这2个链接内容是一样的会导致文章首页重复抓取
解决方法:在“内容分页》分页网址过滤》不能包含”中填写“page=1$”即排除掉第一页链接
常见问题:
上下页模式每次只能抓取一个分页链接能采集完整吗?可以的,程序会根据下一页自动抓取到最后一页,可以用“测试》抓取字段”看看数据是否抓取完整
如果分页链接顺序打乱了,文章分页内容会乱吗?不会的,程序自动根据分页编号排序,会按照正常分页顺序采集内容
最大分页数是怎么回事?是为了防止出现死循环,当实际分页数不超过最大分页数时使用实际分页数,超过最大分页数时使用最大分页数
- 1小碗熊cms5.0火车头采集器免登陆发布模块api
- 2蓝天采集器站长采集规则不能直接写正则表达式吗
- 3蓝天采集器js分页怎么解决
- 4蓝天采集器资讯列表页链接采集规则教程分享
- 5蓝天采集器wrodpress本地调试出错怎么办
- 6pbootcms火车头采集器免登录发布使用教程
- 7蓝天采集器求Xiuno BBS发布接口
- 8新手站长快速操作PbootCMS安装百度统计代码教程
- 9蓝天采集器发布文章时候提示 未获取到“作者账号”:
- 10蓝天采集器2.0版本后不能自动采集了
- 11蓝天采集器安装问题求助!安装后index.php丢失index问题,附解决方法
- 12易优cms(eyoucms)蓝天采集器发布插件
- 13蓝天采集器问下管理,数据处理 有没有拼音
- 14蓝天采集器关于DZ帖子发布的修改参考,技术有限仅供参考。
- 15蓝天采集器单个json如何采集
- 16PbootCMS性能优化研究之网页响应速度
- 17蓝天采集器咨询开发Unicode编码解码
- 18蓝天采集器采集保存API问题
- 19蓝天采集器采集URL地址中包含“&”的BUG
- 20PbootCMS如何限制后台图片上传大小
-
dedecms转pbootcms常见···
dedecms写法:[field:global runphp='yes' name=autoindex] $a="<li style='margin-right:0···
-
蓝天采集器Zblog怎么自动发布?
采集内容已经写好,但是怎么发布到我的Zblog里面?要把采集程序和Zblog放到同一个网站里吗? 嗯,需要放在一个服务器里,然后发布选cms,检测不到就手动绑定cms路径
-
蓝天采集器怎么样采集商品首图
比如说我采集淘宝或者京东商品,我想标题内容我都采集到了,就是没有商品图片 添加一个字段类型选“字段提取内容”,绑定有图的字段,提取内容选“第一张图片” 你说的应该是内容里面的第一张图,我说的是商品图片,你理解错误,我现在按照你说的采···
-
蓝天采集器希望支持杰奇cms
希望支持杰奇cms 好的,会陆续支持
-
MetInfo企业网站管理系统(米拓···
主要是有上图所示的字段。所属栏目只需要把分类的ID数字填写在规则里面即可。获取ID的方法---点击添加内容---鼠标放在栏目上面F12如下图,4和5就对应了栏目公司动态和行业动态,只需要把这个数字填写进去即可。<option valu···