蓝天采集器反应三个问题

2018-08-24 219 19 编辑:伍六柒 来源:蓝天采集社区

本帖最后由 伍六柒 于 2018-8-24 18:21 编辑

一、
图片本地化;某些站点失败几率很大,一篇文章有10个图片,只能成功10%左右,其它的依然是源图地址,设置了本地化间隔3秒依然没能解决。猜测应该就是对方限制了访问频率。
关键有一个BUG:如果设置了图片本地化间隔大于2秒(2秒以上比如3秒),采集任务就只能采集一条就会中断,其它的不会继续采集!

二、
在数据处理中,内容替换里能否加个替换说明? 因为,比如看图
蓝天采集器反应三个问题蓝天采集器反应三个问题
在数据处理的地方,正则使用太多了后,管理很不方便,点开以后要慢慢看正则理解,才知道当时自己做了什么操作? 如果有一个简单的说明(自己填10字以内),然后就非常漂亮了!

三、

目前去重我看到蓝天有两个地方管控,一是采集字段那里去重;二是通过已采集网址区分,已存在则跳过。

我个人的建议是有一个设定,如果发现已采集网址中已经存在的,允许设定是更新操作,还是跳过操作,因为有很多场景下是需要更新同一样源地址!





图片下载失败可能是下载速度的问题,采集设置》图片本地化》下载超时
其他会改进

相关知识点: 它的 图片 正则
本站文章均为蜀戎网络摘自权威资料,书籍,或网络原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,未经允许禁止复制转载!感谢...

在线
客服

在线客服服务时间:9:00-21:00

客服
热线

13227777380
7*24小时客服服务热线

客服
微信

扫一扫微信咨询
顶部