小说采集流程:小说列表页→单本小说章节列表页→小说章节页
小说比文章多了一级网址,可以将单本小说章节列表页视为文章列表页,小说章节页视为文章内容页,多出来的是小说列表页即小说名称列表
那么小说列表页就是起始页,当然你也可以将单本小说章节列表作为起始页(类似于文章采集),本教程重点讲解多本小说采集
以http://shili.skycaiji.com/novel.html为例,将其设置为起始页网址
分析出单本小说章节列表网址规则为:
注意不能直接将规则填入到“内容页网址获取”中,因为“内容页网址获取”表示的是最后一级页面即小说的章节内容页
此处匹配出的网址是章节列表页,应该添加为“多级网址”再匹配出内容页网址
保存后测试抓取内容页网址
如图所示从起始页中抓取到了2本小说,每本小说抓取到了32条网址(此时抓取到的是全部链接,包含样式和js文件链接,需要过滤出章节网址)
进入http://shili.skycaiji.com/novel/index/show/id/1.html分析出章节网址规则:
这时就可以将规则填入“内容页网址获取》结果网址过滤》必须包含”中,保存后再测试:
成功抓取到所有章节链接
接下来就是抓取章节的标题、正文了,点击上图的分析,即可直接在页面中点击元素获取xpath值
获取到的标题xpath://*[@id="title"]/h1
正文xpath://*[@id="content"]
分别添加字段:标题、正文,获取方式选择“xpath匹配”,将获取到的xpath值填入即可
保存后测试抓取数据:
如果章节有分页,可以参考文章分页教程
- 1蓝天采集器安装程序连接数据库时出错提示
- 2Bty分销系统v5忘记密码找回的2个操作方法
- 3PbootCMS缩略图上传图片变模糊为什么?
- 4PbootCMS蓝天采集器采集使用教程二采集规则发布设置
- 5蓝天采集器如何导入发布插件操作教程
- 6json采集功能点说明
- 7蓝天采集器在测试爬取字段的时候,一直在转圈
- 8163K网站系统支付宝支付配置说明(待更新)
- 9163K网站系统网站客服的QQ在线状态设置说明
- 10蓝天采集器奇葩了模拟匹配可以获取内容 正事采集获取不到
- 11蓝天采集器各位大佬,怎样把采集的内容发布到discuz门户文章
- 12蓝天采集器怎么获取图片组?
- 13PbootCMS内容轮播多图增加标题和描述
- 14蓝天采集器本地保存excel 出现错误如下
- 15蓝天采集器在数据安装的界面输入完成信息之后 无法安装
- 16蓝天采集器希望支持杰奇cms
- 17蓝天采集器三级网页采集方式?
- 18蓝天采集器支持苹果cms吗
- 19蓝天采集器发布到数据库失败
- 20搜索引擎SEO优化需要了解它的运算逻辑和工作流程
-
蓝天采集器各位大佬,怎样把采集的内容···
各位大佬,怎样把采集的内容发布到discuz门户文章,学艺不精啊 下载一个discuz发帖插件 http://www.skycaiji.com/release/cms/detail/id/2 研究下文档 http://www.skycai···
-
蓝天采集器采集两个就停下不动了
手动采集两个就不动了,自动采集也没反应,测试规则和发布都是成功的,查看日志没有当天错误记录,不知道啥情况操作系统 Linux 2.6.32-696.23.1.el6.x86_64运行环境 nginx/1.12.2数据库 m···
-
蓝天采集器部分采集发布成功,部分提示···
本帖最后由 Tomato 于 2018-7-19 16:25 编辑 采集15条网址,但是只能发布第一条,采集到第二条的时候就提示错误,卡在那了。 看图片。。。 cms发布吗?哪个cms应用? admin 发表于 2018···
-
蓝天采集器2.0版本不能自动采集的问···
设置了自动采集,保存触发和后台自动采集都是一直都不会出发自动任务;手动点击实时采集是有效的采集,自动不行; 麻烦作者看下是哪里的问题,还是我的打开方式不对~谢谢 提供下服务器信息(后台首页有显示) 第一个: 当前版本 SkyCai···
-
如何添加阿里云服务器安全组规则
下面是开通阿里云安全组的7070端口教程(此端口用在门户程序自动升级):1、 登录阿里云控制台https://ecs.console.aliyun.com2、 如下图点击进入:3、 如下图,找到对应服务器实例,点击进入:4、如下图,在更多里···