我们在使用蓝天采集器采集内容的时候会遇到一些加载在别的页面上的信息;但是呢有一些内容呢又需要在内容里面关联获取到这个时候呢我们就需要加上关联页。
何为关联页呢:比如从内容页面获取到ID;但是没有相关的url链接,这个时候呢我们就需要把采集到的ID和相关联的链接进行组合为一个内容链接,这个就是关联页。
我们采集这个新浪体育的评论;
https://sports.sina.com.cn/basketball/nba/2020-09-26/doc-iivhuipp6514843.shtml
我们的内容直接在页面上可以采集到,但是评论确不在页面上,这种情况就需要我们用关联页来进行采集。
操作教程如下:直接F12查看源代码;查找我们需要采集的的内容;如上图所示是我们的内容所在区域,通过这里的开头和结尾标签就可以直接把内容采集到。接下来我们就需要找评论链接了。
源代码里面是没有我们的评论链接的直接点击页面查看所有评论;
以上的链接就是我们评论的链接,但是我们查看源代码的时候发现页面上没有需要的内容说明它是ajx传输的,直接F12刷新。
我们刷新看到内容已经出来了;链接为:
http://comment5.news.sina.com.cn/page/info?format=json&channel=ty&newsid=comos-ivhuipp6514843
到这里的我们的评论就已经找到了接下来就是在采集器里面添加规则了;
comos-ivhuipp6514843 复制这个ID在内容页面搜索即可找到;
添加好了记得保存点击测试一下;
关联页测试成功说明我们的规则是对了的,接下来就是写内容字段了。
相关知识点:- 1火车头采集国外英文网站教程分享
- 2蓝天采集器三级网页采集方式?
- 3蓝天采集器数据库 发布失败 发布以一条后停止
- 4极致cms公共配置
- 5蓝天采集器如何倒序采集
- 6蓝天采集器发布时绑定cms插件的时候提示搜索不到程序解决办法
- 7蓝天采集器求助-内容页网址获取- 测试时和实际采集时结果不同
- 8蓝天采集器采集报错500 Internal Server Error
- 9蓝天采集器采集入库有问题!!!!!!!!!!!!!!!!
- 10蓝天采集器图片本地化的一个bug
- 11宝塔控制面板如何开启php_fileinfo扩展参数
- 12蓝天采集器希望能出官方教学视频教程
- 13163k地方门户系统升级时遇到的一些报错解决办法
- 14163K网站系统登录滑动验证-阿里人机验证配置教程
- 15手把手教你做PbootCMS自动替换图片地址为七牛云cdn镜像链接操作教程
- 16蓝天采集器多级网址获取的内容全部相同
- 17蓝天采集器安装出问题 显示版本问题
- 18蓝天采集器hadsky采集
- 19PbootCMS如何限制后台图片上传大小
- 20蓝天采集器dede5.7发布不发标题
-
蓝天采集器请问时间转换为时间戳这个工···
提示已经说得很明白了,默认传递当前字段的值就是默认会将你的发布时间字段转时间戳,直接点确定就可以 你的时间 2017年02月08日 有中文 要处理下才能转 加个处理》内容替换 年|月|日替换成 / 放在函数前面
-
蓝天采集器管理员账号密码限制有些短
本帖最后由 达雅 于 2018-4-24 15:39 编辑 请输入6-12位字母和数字组合的密码! 这个密码设置有点短了,能否下个版本只设置个最低6位,不要设置上线,要不安全性不是太好保障 另外采集云平台里采集规则 中规则来源希望能够···
-
蓝天采集器发布到mysql出错
在后台已经清除了缓存 再试的结果还是如下,数据库测试成功 但保存成功后,再测试又提示数据连不上了,再试测试采集 还是连不上了 数据库编码 utf8和 utf-8都试了 结果还是一样。 是不是php7?蓝天采集···
-
蓝天采集器又有新的问题!版主来哈。关···
突然发现网易新闻采集页面编码是UTF-8而内容页面却是gb2312这个怎么解决啊。前面开启自动检测编码,页面无法检测出来,内容貌似也是一样,设置成UTF-8后 页面出连接了,而内容却乱码了 这个怎么解决啊。我吧采集规则传到云平台了,希望大家···
-
蓝天采集器版主吧群公布出来吧。
电脑没有qq,用手机打开论坛点qq群不跳转 473754145