采集文章流程:列表页 → 获取内容页网址 → 内容页字段分析
起始页网址
以http://shili.skycaiji.com/article.html为例,所有文章都在该列表中,即起始页为该网址
可添加多个起始页(例如列表分页)
内容页网址
点击“保存”后我们在“内容页网址”中测试抓取内容页网址
默认抓取所有网址(包括样式和js文件)
有些网址不包含域名(因为程序是直接抓取html源码的),可以在“采集器设置”中选中“自动补全网址”
我们只需要采集文章页面,通过分析文章网址的格式大致为“article/news/show/id/数字.html”
直接在“结果网址过滤>>必须包含”中输入“article/news/show/id/”,保存测试看看
如需精准还可以输入正则“article/news/show/id/d+.html”(d+是匹配数字)
想过滤某些网址在“不能包含”中输入,例如过滤掉25、27、29的文章,输入:“25|27|29”即可
如果列表页布局比较复杂有很多个文章列表区域,而我们仅需要获取某个区域的文章,使用“从选定区域中提取网址”,新手推荐“xpath”获取形式,可在“获取内容>>测试>>测试抓取数据>>分析网页”中输入列表页网址,点击页面元素即可获取相应的xpath值
如果内容页链接不能直接获取(通过js生成)或者需要拼接成新网址,可以在“匹配内容网址”中设置
获取内容
分析出内容页网址后,我们需要抓取文章的标题、正文等信息则要添加字段来匹配出数据
新手推荐使用“xpath”匹配,在“测试>>分析网页”中输入一个文章链接
分析页面中点击获取到标题xpath:“//*[@id="title"]/h1[1]”,正文xpath:“//*[@id="content"]”
分别添加字段:标题、正文,获取方式选择“xpath匹配”,将获取到的xpath值填入即可
保存后点击测试抓取数据,效果:
正文中包含很多html标签,如需过滤可使用“数据处理>>html标签过滤”功能
如需采集分页内容,请参考文章分页教程
- 1阿里云windows服务器买了单独的云盘如何挂载数据盘在服务器上面教程
- 2蓝天采集器通过 Tor 代理 如何绕过机器人检测
- 3蓝天采集器怎样判断获取的图片地址是否404?
- 4蓝天采集器关于自动采集 多个任务
- 5163K网站系统升级S版后注意事项(含S5)
- 6蓝天采集器请问一下,多个任务是否可以单独控制采集数量
- 7蓝天采集器请教主怎么样把内容采集页的源地址写入数据库
- 8pbootcms详情页判断有无轮播图调用缩略图或者内容第一张图教程
- 9蓝天采集器官方的云平台cms发布插件要怎么使用
- 10Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 8192 bytes)
- 11影视站建设教程-零基础搭建影视站
- 12蓝天采集器1条已采集起始网址被过滤
- 13蓝天采集器数据处理内容替换 支持正则吗
- 14宝塔控制面板如何开启php_fileinfo扩展参数
- 15蓝天采集器请教一下,如何采集js里的数据?
- 16蓝天采集器入数据库日期如何操作?
- 17蓝天采集器内容页上一级是分页
- 18网站SEO优化100条解答经验分享31-55
- 19蓝天采集器站长采集规则不能直接写正则表达式吗
- 20蓝天采集器问下管理,数据处理 有没有拼音
-
蓝天采集器2.0版本不能自动采集的问···
设置了自动采集,保存触发和后台自动采集都是一直都不会出发自动任务;手动点击实时采集是有效的采集,自动不行; 麻烦作者看下是哪里的问题,还是我的打开方式不对~谢谢 提供下服务器信息(后台首页有显示) 第一个: 当前版本 SkyCai···
-
163K网站系统微信支付、支付宝支付···
《微信支付、支付宝支付》实时原路退款配置教程 实时原路退款:当网站管理员确认退款后,用户的支付款项将实时退回到他原先的支付账户,大大提高站长的工作效率! 《163K网站系统》最新版目前已经全面实现《微信支付、支付宝支付》实时原路退款···
-
蓝天采集器数据库发布时遇到组合的怎么···
我的数据库有一个字段内容格式是 "/news/id"前面的 /news/ 是固定的后面的ID是自增主键ID 这样的有好的解决方法吗,/news/auto_id@table_id 行不通 没有这个功能,像这种个性化需求都···
-
FastAdmin系统-Bty分销系···
Bty分销系统v5数据库表:“admin_id” 管理员ID-在管理员页面看对应的数字“sort_id” 栏目ID-登录后台----文章管理---分类管理---ID···
-
蓝天采集器安装出问题 显示版本问题
请技术连我QQ1064269168 在线等 截个图看看, php必须大于5.3