采集中断、自动采集无效、图片下载不了
详见:https://www.srso.cn/fy/657.html
cli命令模式
php可执行文件:默认自动识别,识别不了,在linux系统中关闭目录跨站保护,手动输入:可输入环境变量名“php”(需要系统中已配置)或输入可执行文件路径,注意不是php目录,一般windows中文件为“php目录/php.exe”,linux中文件为“php目录/bin/php”
详见:https://www.srso.cn/fy/248.html
触发不了采集:
1、确定php配置是否正确
2、开启proc_open函数(详见:https://www.srso.cn/fy/103.html)
3、给web服务器配置执行命令的权限
页面渲染设置(详见:https://www.srso.cn/fy/93.html)
谷歌浏览器安装:windows百度下载安装即可,linux请看https://www.srso.cn/fy/93.html
配置谷歌路径:可输入环境变量名“chrome”(需要系统中已配置),或者输入可执行文件路径:一般windows中文件为“浏览器目录/chrome.exe”,linux中文件为“浏览器目录/bin/google-chrome”,注意:浏览器版本不同可能会导致可执行文件名不同!
采集规则设置
手机移动端页面:开启请求头信息,设置UserAgent浏览器标识
需要登录的页面:开启请求头信息,设置Cookie缓存数据,如何获取cookie:https://jingyan.baidu.com/search ... D%91%E7%AB%99cookie
采集到的网址没有域名:开启自动补全网址
规则中的特殊字符识别不了:使用正则规则的时候特殊字符必须使用“”转义才能使用,和正则冲突的字符有:^$.*+|?[]{}()
页面渲染:使用渲染和不使用时的html源码是不一样的,规则可能不通用!
浏览器中获取到的xpath在采集器中没有用:可能该xpath的对象是渲染出来的元素,采集器默认只能抓取原始html源码的内容,渲染出来的元素需要开启“页面渲染”功能,或者分析相应的js链接来抓取,使用“测试》分析网页”可以看到采集器实际抓取到的页面
字段怎么插入内容:添加一个新字段,获取方式选择“字段组合”
发布设置
本地cms程序检测不出来:
1、采集器和cms程序是在同一个网站目录中,可能是不支持您的cms程序,需要在路径结尾中加上“@cms名称”即可识别出插件
2、采集器和cms程序不在同一网站但在同一服务器中,可能是服务器开启了目录跨站保护,关闭即可
工具
错误日志文件太多占用空间:可以在“站点设置”中关闭,后台首页使用“清除缓存”可以清空日志
插件/应用开发
应用程序无法访问:应用需要配置伪静态才能使用,配置文件在蓝天采集器根目录:nginx.conf(nginx),.htaccess(apache),web.config(iis)
函数插件创建后不显示:需要在“云端》已下载》函数插件”中点击开启
云平台下载的文件去哪了
在“云端》已下载”中可找到云平台中下载的规则、插件等
采集规则在 “编辑任务 > 导入规则 > 已下载规则” 中使用
发布插件在 “任务 > 发布设置 > 本地CMS程序” 中使用
函数插件在 “任务 > 采集器设置 > 数据处理” 中使用
第三方如何使用
开发者安装了“第三方平台”应用,点击“云端》已下载》应用程序》第三方平台”的管理连接,界面中的“应用首页”链接即为您需要提供给用户的平台网址!
用户在“云端》第三方”中添加开发者提供的平台网址即可在对方平台中下载规则、插件等。
更多使用教程请看这里:https://www.srso.cn/skycaiji
相关知识点: 蓝天采集器 蓝天采集器采集教程- 1访问宝塔控制面板出现无法访问此网站拒绝了我们的连接请求!处理方法
- 2蓝天采集器内容页网址获取的时候,出错
- 3蓝天采集器数据库 发布失败 发布以一条后停止
- 4蓝天采集器图片本地化的一个bug
- 5蓝天采集器关键词过滤
- 6163K网站系统QQ登录配置教程
- 7狂雨小说cms伪静态设置
- 8蓝天采集器三级网页采集方式?
- 9蓝天采集器求问如何分割采集的字段进数据库
- 10蓝天采集器又有新的问题!版主来哈。关于采集的
- 11蓝天采集器请问 获取内容页中,内容以JSON方式获取,无法循环入库
- 12蓝天采集器反应三个问题
- 13蓝天采集器WordPress子比主题Zibll 版本:5.7.1入库插件使用说明
- 14蓝天采集器通过 Tor 代理 如何绕过机器人检测
- 15蓝天采集器v1.2码云clone下来的,安装完成后菜单是英文
- 16蓝天采集器需要采集的字段,他们的class都同名 怎么办?
- 17蓝天采集器为什么我一采集入库就报表只可读保存失败
- 18蓝天采集器单个json如何采集
- 19蓝天采集器下载图片本地化操作设置
- 20蓝天采集器安装出问题 显示版本问题
-
PbootCMS附件上传失败报错UN···
PbootCMS附件上传时报错:上传失败:UNKNOW: Code: 8192; Desc: stripos(): Non-string needles will be interpreted as strings in the futur···
-
小碗熊cms5.0火车头采集器免登陆···
/app/api/controller/Postbot.php接口文件放置位置模块不需要登录, 模块配置哪里直接选择不登录发布模块的表单字段及说明:1. book_name 漫画名2. nick_name 漫画别名3. tags 分类,多个···
-
蓝天采集器怎么样采集商品首图
比如说我采集淘宝或者京东商品,我想标题内容我都采集到了,就是没有商品图片 添加一个字段类型选“字段提取内容”,绑定有图的字段,提取内容选“第一张图片” 你说的应该是内容里面的第一张图,我说的是商品图片,你理解错误,我现在按照你说的采···
-
火车头使用5118伪原创出现采集内容···
当我们在用5118伪原创插件的时候总是会遇到各种各样的问题,今天蜀戎网就给大家分享一下当运行插件报错出现:采集内容处理插件运行出错:【errcode】:20031 【errmsg】【errcode】:200313 【errmsg】动态加载d···
-
163K网站系统微信支付申请设置说明···
注意 需要同时开通网站的微信登陆功能 可参考说明: http://fuwu.163k.com/thread-41844-1-1.html 注意 网站手机版 必须正常开启 (管理员后台 手机版配置 是否开启手机版是 开启状态 ) 支付···