蓝天采集器采集器取消了自动补全网址,还是会自动补全

2018-08-30 172 19 编辑:简单就好 来源:蓝天采集社区

之前设置了补全网址,然后改了不补全网址了,但是还是自动补全了,用内容替换页去不掉网址,有人知道怎么回事吗?
嗯,这是个bug
暂时解决》内容替换:

  1. <a href="([^"]+)"
复制代码
  1. <a href="填写域名$1"
复制代码
我也遇到了,弄得我死去活来,各种检查也没搞定。原来真是bug啊
admin 发表于 2018-8-31 21:33
嗯,这是个bug
暂时解决》内容替换:

我为了这个弄了两个小时,死去活来啊,不懂正则表达式,所以内容替换弄不好。
我采集到的是a标签内容磁力链接,补全网址之后就不能用了,应该怎么替换呢? 链接不在a标签中就不会自动补齐
你直接提取链接即可,比如规则写
  1. <a href="[内容1]">
复制代码
admin 发表于 2018-9-9 21:38
链接不在a标签中就不会自动补齐
你直接提取链接即可,比如规则写

谢谢建议,只是因为链接有很多,而且分段标题,单独采集很难后期组合。
所以我整段采集然后整体做处理比较现实。
最后唯一的问题就是磁力链接在 a标签内被强制补齐。

我现在是采集后,在数据库中批量替换关键词来处理的。如果后续能修复网址补全这个问题就太好了。
admin 发表于 2018-9-9 21:38
链接不在a标签中就不会自动补齐
你直接提取链接即可,比如规则写

这个我知道,因为数据特点,这样会造成后面数据处理的麻烦,所以只能整体采集。
不过,数据库替换也还好,采集完成后一键批量处理。 暂时解决不了,后期修复 我的好像没遇到过这样的问题呢、取消了就取消了
qijianchuan 发表于 2018-9-21 23:32
我的好像没遇到过这样的问题呢、取消了就取消了

已经修复了

相关知识点: 链接 内容 发表于
本站文章均为蜀戎网络摘自权威资料,书籍,或网络原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,未经允许禁止复制转载!感谢...
更多人喜欢

在线
客服

在线客服服务时间:9:00-21:00

客服
热线

13227777380
7*24小时客服服务热线

客服
微信

扫一扫微信咨询
顶部