我们在使用蓝天采集器采集内容的时候会遇到一些加载在别的页面上的信息;但是呢有一些内容呢又需要在内容里面关联获取到这个时候呢我们就需要加上关联页。
何为关联页呢:比如从内容页面获取到ID;但是没有相关的url链接,这个时候呢我们就需要把采集到的ID和相关联的链接进行组合为一个内容链接,这个就是关联页。
我们采集这个新浪体育的评论;
https://sports.sina.com.cn/basketball/nba/2020-09-26/doc-iivhuipp6514843.shtml
我们的内容直接在页面上可以采集到,但是评论确不在页面上,这种情况就需要我们用关联页来进行采集。
操作教程如下:直接F12查看源代码;查找我们需要采集的的内容;如上图所示是我们的内容所在区域,通过这里的开头和结尾标签就可以直接把内容采集到。接下来我们就需要找评论链接了。
源代码里面是没有我们的评论链接的直接点击页面查看所有评论;
以上的链接就是我们评论的链接,但是我们查看源代码的时候发现页面上没有需要的内容说明它是ajx传输的,直接F12刷新。
我们刷新看到内容已经出来了;链接为:
http://comment5.news.sina.com.cn/page/info?format=json&channel=ty&newsid=comos-ivhuipp6514843
到这里的我们的评论就已经找到了接下来就是在采集器里面添加规则了;
comos-ivhuipp6514843 复制这个ID在内容页面搜索即可找到;
添加好了记得保存点击测试一下;
关联页测试成功说明我们的规则是对了的,接下来就是写内容字段了。
相关知识点:- 1蓝天采集器循环入库的数据不到数据库
- 2蓝天采集器怎么才能循环采集某个页面的相同值
- 3访问宝塔控制面板出现无法访问此网站拒绝了我们的连接请求!处理方法
- 4蓝天采集器反馈个BUG
- 5蓝天采集器无法安装怎么回事???
- 6163K网站系统升级S版后注意事项(含S5)
- 7PbootCMS模板安装与授权方法
- 8蓝天采集器这种页面不能采集吗
- 9163K网站系统腾讯云验证码配置说明
- 10蓝天采集器请问一下,多个任务是否可以单独控制采集数量
- 11蓝天采集器请教主怎么样把内容采集页的源地址写入数据库
- 12新手站长快速操作PbootCMS安装百度统计代码教程
- 13蓝天采集器还没开始安装呢就404了……
- 14蓝天采集器1.1版,无法MYSQL入库
- 15蓝天采集器抓取不了相对地址
- 16蓝天采集器这是什么问题
- 17蓝天采集器XPath规则插件-火狐firebug和firepath插件安装方法(最新)
- 18蓝天采集器WordPress子比主题Zibll 版本:5.7.1入库插件使用说明
- 19蓝天采集器关于判断
- 20蓝天采集器在服务器上部署,最后一步数据发布没反应??
-
蓝天采集器wrodpress本地调试···
wrodpress本地调试发布时显示 cURL error 28: Operation timed out after 922 milliseconds with 246537 out of 575991 bytes received 怎么···
-
SEO月推广运维服务参考
一个好的SEO学习人员应该给自己制定一个SEO计划表B2B商铺第一个:<一呼百应>商铺 http://www.youboy.com/第二个:<95供求网>商铺&n···
-
FastAdmin系统-Bty分销系···
Bty分销系统v5数据库表:“admin_id” 管理员ID-在管理员页面看对应的数字“sort_id” 栏目ID-登录后台----文章管理---分类管理---ID···
-
迅睿cms火车头采集器免登录发布模块···
分类列表名称<h1>[分类名称]<=>[分类ID]</h1>错误标识码接口配置文件不存在权限验证失败栏目ID为空标题为空标题重复未知失败成功标识码成功
-
PbootCMS蓝天采集器采集使用教···
采集器设置:规则名称就是你要采集内容对应的名称,比如你要采集新闻这里就可以写新闻,你自己去规划,都填写完成记得保存。起始页网址:这里呢我们可以设置栏目页也可以设置列表页。内容页网址获取-选择正则(这种比较方便简单)操作完成记得保存,测试一下···