我们平时在采集一些论坛或者贴吧,问答平台等都会有多段内容,在写采集规则的时候我们就要换一种操作方法,利用我们的循环入库。
我们就以http://bbs.skycaiji.com/forum.php?mod=viewthread&tid=849为例;
来获取获取它的主题内容和回复内容。
查看源代码,分析得到:
主题内容开始字符串为id="postmessage_2055"> 因为不同的帖子,ID不同,
所以我们把2055这个数字设置为(*)通配符.
即开头字符串为id="postmessage_(*)">
结尾字符串为</td></tr></table>
然后勾选下图中的循环匹配,即可实现主题和回复的内容采集。
出现效果图入下:(当然越可以选择拼接为文本)
到这里我们的蓝天采集器循环入库就完成了。拼接文本是入库到一个字段里面,根据自己的需要来设置。
相关知识点: 蓝天采集器 循环入库- 1蓝天采集器关于自动采集 多个任务
- 2餐饮及酒店行业网站建设方案
- 3蓝天采集器为啥我的不能自动采集,有没有和我遇到同样问题的?
- 4163k地方门户系统X10_V2(20190214)版本如何升级到最新的版本
- 5网站SEO优化100条解答经验分享1-30
- 6蓝天采集器为什么我一采集入库就报表只可读保存失败
- 7蓝天采集器开启自动采集总是莫名其妙自己停止了
- 8pbootcms类型站点怎么查看图片、网页元素的路径和大小和颜色
- 9蓝天采集器怎么取到图片的名字啊
- 10蓝天采集器采集器取消了自动补全网址,还是会自动补全
- 11蓝天采集器关于设置和触发自动采集时系统会卡死状态!
- 12蓝天采集器希望能出官方教学视频教程
- 13蓝天采集器下载图片本地化操作设置
- 14宝塔控制面板如何开启php_fileinfo扩展参数
- 15蓝天采集器关于列表页当作内容页采集的疑问
- 16蓝天采集器2.0版本不能自动采集的问题
- 17如何添加阿里云服务器安全组规则
- 18蓝天采集器内容页网址获取的时候,出错
- 19蓝天采集器发布数据库
- 20网站ICP备案需知
-
蓝天采集器发布时绑定cms插件的时候···
当我们的采集规则写好了以后,最重要的一步就是绑定发布插件入库到我们数据库里面;蓝天采集器默认插件并不是很多,不是每一个发布插件都能识别出来,这时候呢就需要我们手动去选择数据绑定如下图所示。这里的路径是我们蓝天采集器发布插件的路径;记得后缀一···
-
火车头采集国外英文网站教程分享
此文只是作为分析测试,如有侵犯权限联系我们删除。源站:www.unionrepair.com 由于源站服务器在国外所以打开速度比较慢,源站是一个shop商城,我们今天就测试采集产品价格,标题以及内容。第一步:添加任务(名称随意)采···
-
蓝天采集器帮忙设置下采集规则
采集政府信箱的信息 http://www.cq.gov.cn/publicmail/citizen/ReleaseMailListDistrict.aspx 能采集到所有信息,但是怎么才能采集指定的 发布单位 的信息 里面可以查询指定单位的···
-
蓝天采集器又有新的问题!版主来哈。关···
突然发现网易新闻采集页面编码是UTF-8而内容页面却是gb2312这个怎么解决啊。前面开启自动检测编码,页面无法检测出来,内容貌似也是一样,设置成UTF-8后 页面出连接了,而内容却乱码了 这个怎么解决啊。我吧采集规则传到云平台了,希望大家···
-
多语言建站看这里:PbootCMS多···
一、如何搭建多语言站?多语言/区域建站用于使用同一个后台建立多语言网站。1、使用步骤1)在后台"系统管理>数据区域"添加相应的区域,具体参考默认区域;2)将多语言的模板放入模板目录,不同语言的模板均放在templa···