本帖最后由 伍六柒 于 2018-8-24 18:21 编辑
一、
图片本地化;某些站点失败几率很大,一篇文章有10个图片,只能成功10%左右,其它的依然是源图地址,设置了本地化间隔3秒依然没能解决。猜测应该就是对方限制了访问频率。
关键有一个BUG:如果设置了图片本地化间隔大于2秒(2秒以上比如3秒),采集任务就只能采集一条就会中断,其它的不会继续采集!
二、
在数据处理中,内容替换里能否加个替换说明? 因为,比如看图
在数据处理的地方,正则使用太多了后,管理很不方便,点开以后要慢慢看正则理解,才知道当时自己做了什么操作? 如果有一个简单的说明(自己填10字以内),然后就非常漂亮了!
三、
目前去重我看到蓝天有两个地方管控,一是采集字段那里去重;二是通过已采集网址区分,已存在则跳过。
我个人的建议是有一个设定,如果发现已采集网址中已经存在的,允许设定是更新操作,还是跳过操作,因为有很多场景下是需要更新同一样源地址!
图片下载失败可能是下载速度的问题,采集设置》图片本地化》下载超时
其他会改进
- 1蓝天采集器chrome提取的xpath规则可以通过调试却抓不到数
- 2多语言建站看这里:PbootCMS多语言建站常见问题(如何搭建中英文站)
- 3dedecms自定义标签导入pbootcms出现Error while executing SQL query on database cannot commit - no transaction is active解决办法
- 4蓝天采集器入库SQLSTATE23000: Integrity constraint violation: 1048 Column 'post_author' cannot be null
- 5蓝天采集器无法抓取内容页网址为相对地址的列表
- 6PbootCMS配置面包屑导航
- 7蓝天采集器hadsky采集
- 8163K网站系统阿里短信状态全部是发送中的解决办法
- 9蓝天采集器抓取不了相对地址
- 10企业网站关键词搜索引擎优化seo操作教程
- 11蓝天采集器怎样判断获取的图片地址是否404?
- 12蓝天采集器内容允许匹配多个元素循环入库教程
- 13蓝天采集器起始网址无法通过POST方式批量获取列表页
- 14蓝天采集器如何采集disucz站的回帖评论信息
- 15163K网站系统网站客服的QQ在线状态设置说明
- 16蓝天采集器反应三个问题
- 17pbootcms在打开首页的时候No input file specified.解决办法
- 18蓝天采集器无法加载数据库驱动有问题,是咋回事??
- 19蓝天采集器请问一下,能采集JS渲染的内容吗?
- 20蓝天采集器问下管理,数据处理 有没有拼音
-
蓝天采集器Zblog怎么自动发布?
采集内容已经写好,但是怎么发布到我的Zblog里面?要把采集程序和Zblog放到同一个网站里吗? 嗯,需要放在一个服务器里,然后发布选cms,检测不到就手动绑定cms路径
-
蓝天采集器可以在任务列表做一个复制的···
谢谢反馈,后期会完善
-
蓝天采集器请问一下字段里面的某部分可···
组合数据,只想划线的地方设置为变量,每次提交的链接都要改变,其它的不需要改变,请问是否可以设置,应该怎么样设置。 下划线的文字 是 从网页中匹配出来的吗? 把下划线文字 用一个字段匹配出来 再添加个字段 用字段组合
-
蓝天采集器求Xiuno BBS发布接···
cms程序名:Xiuno BBS官方网址:https://bbs.xiuno.com/ 最好是能把附件也POST,因为这个系统的附件信息是有专门数据表存放的 求大神出招 不好意思,对这个程序还没研究,可以发布需求 http://www···
-
极致cms公共配置
系统配置统一使用规则:{$webconf[配置参数]} 或者 通过方法获取{fun webConf(配置参数)} 扩展配置统一使用规则:标签名{$customconf[配置参数]["title"]} 【v1.3取消】标签···