因为web服务器有运行时间限制,所以只要采集执行时间太长都会导致程序中断,需要修改web服务器的超时时间
IIS服务器:
桌面>计算机>右键>管理>服务和应用程序>IIS>根目录>FastCGI 设置>双击"php-cgi.exe">活动超时
apache服务器:
apache目录confextrahttpd-default.conf,修改Timeout
nginx服务器:
nginx目录conf
ginx.conf,修改 fastcgi_connect_timeout
修改以上的参数值可让采集不再中断,修改完后记得重启服务器!
其他服务器请自行百度
如果你是虚拟主机无法修改配置,唯一方法就是设置采集数量,每次不要采集太多,一般web服务器运行时间为30秒,尽量不要超时!
zmh886 发表于 2019-5-27 21:46
我用的是直接弄个网页自刷新执行采集,可以做到无人值守一直抓取。
代码大概如下:设置的2分钟采集间隔, ...
你这个还是要开个页面一直开机抓取,应该做到服务器后台计划任务自动抓取,这样就是真的无人值守。 貌似采集数量设置少一些可以采集,可以2000-4000-6000一个一个试试 还有人有解决的方法没?都不行 后台采集为啥不做成 php守护进程的方式。我看代码里面有应该加入命令行启动守护进程。前台点击后台采集就把任务提交到队列里面有队列去执行 今天试了一下,中断的几率太高了,无法做到无人值守的抓取。还是应该使用队列加守护的方式 本帖最后由 zmh886 于 2019-5-27 21:48 编辑
老码农 发表于 2019-5-27 18:17
今天试了一下,中断的几率太高了,无法做到无人值守的抓取。还是应该使用队列加守护的方式 ...
我用的是直接弄个网页自刷新执行采集,可以做到无人值守一直抓取。
代码大概如下:设置的2分钟采集间隔,下面代码设置的125秒刷新一次。
- <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
- <meta http-equiv="refresh" content="125">
- <div id='numDiv'>...</div>
- <script src="http://www.lz2.cc/caiji/index.php?s=/admin/Task/collect&id=3"></script>
- <script type="text/javascript">
- var num=125;
- var interval=setInterval(function(){
- if(num==0){
- clearInterval(interval);
- }
- numDiv.innerHTML=num--;
- numDiv.innerHTML=numDiv.innerHTML+"秒后刷新本页面";
- },1000);
- </script>
- </body>
老码农 发表于 2019-5-28 09:42
你这个还是要开个页面一直开机抓取,应该做到服务器后台计划任务自动抓取,这样就是真的无人值守。 ...
采用自动采集方式,然后把触发采集地址添加到定时访问url任务里面!就可以实现自动采集。就是停止运行也可以采集! 之前用tp5的queue做过队列自动采集的。有卡死的情况不稳定。后来加了supervisor好多了。这块蓝天应该借鉴一下
老码农 发表于 2019-5-28 09:42
你这个还是要开个页面一直开机抓取,应该做到服务器后台计划任务自动抓取,这样就是真的无人值守。 ...
今天发现我的方法还有个小问题,必须是先登录管理员,才能使用这样指定任务的方式采集。 相关知识点: 服务器 队列 任务
- 1163k地方门户系统X10_V2(20190214)版本如何升级到最新的版本
- 2蓝天采集器发布文章时候提示 未获取到“作者账号”:
- 3蓝天采集器本地安装操作教程-蜀戎cms网录制
- 4163K网站系统相亲自动实名认证-百度AI配置教程
- 5ZKEYS公有云业务管理系统蓝天采集器自动采集入库操作教程
- 6蓝天采集器实战采集养生网资讯采集教程带视频讲解
- 7蓝天采集器如何采集文章中的附件?
- 8163k地方门户系统升级时遇到的一些报错解决办法
- 9什么是JSON采集?
- 10蓝天采集器[求助]请问采集内容页短路径如何采集?
- 11pbootcms蓝天采集器发布插件制作参数教程
- 12蓝天采集器无法安装怎么回事???
- 13163K网站系统微信支付配置教程(S版)
- 14蓝天采集器抓取不了相对地址
- 15蓝天采集器管理员账号密码限制有些短
- 16极致cms使用常见问题集合
- 17蓝天采集器采集报错500 Internal Server Error
- 18教育学校/培训机构网站建设方案
- 19影视听书系统苹果cmsv10安装操作教程
- 20FastAdmin问答社区系统火车头采集入库使用教程
-
蓝天采集器发布方式不能选择post方···
有没有发布方式用post发布的 可以自定义插件 写个post提交
-
蓝天采集器部分采集发布成功,部分提示···
本帖最后由 Tomato 于 2018-7-19 16:25 编辑 采集15条网址,但是只能发布第一条,采集到第二条的时候就提示错误,卡在那了。 看图片。。。 cms发布吗?哪个cms应用? admin 发表于 2018···
-
蓝天采集器可以在任务列表做一个复制的···
谢谢反馈,后期会完善
-
Discuz门户蓝天采集器入库字段(···
Discuz作为一款论坛系统来说使用人数非常的多,几乎论坛有一大半以上都用这个系统。在网站内容更新的时候都会选择一些工具来进行辅助我们。今天蜀戎网络给大家介绍一下Discuz门户蓝天采集器入库字段都有哪些。默认我们的蓝天采集器云平台的发布规···
-
json采集功能点说明
一,功能简介json采集功能,通过打开json网址,配置流程,即可进行json数据采集。json是一种轻量的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。Json采集的···