很多站长都会以为把文章提交后,蜘蛛进来抓取,就会收录。于是每天大量更新文章, 等待收录,久而久之,网站就会出现很多垃圾文章。文章的收录都有固定的流程,并不像一 些站长认为的那样轻而易举。
蜘蛛抓取的流程主要分为四个步骤:抓 、过滤,建立索引、输入结果。这就是从用户 搜索一个关键词,到搜索引擎匹配并展示结果的过程。这个过程是复杂而漫长的,也是遵循 一定规律的。蜘蛛作为一种程序,被形象的比喻为动物,方便用户理解。接下来就为站长详 细描述这个抓取程序的工作流程:
1.抓取:网站通过2个方面进行抓 。一是网站提交给百度后,蜘蛛便开始通过提交的url进行抓取并建立一个表,这些提交的网站url就存在这个表中。大多数人都认为蜘蛛是随意抓 ,看到什么抓什么。其实不然,蜘蛛是顺着锚文本和链接进行抓取的。这就要说到第二个抓取方式——外链。通过外界形式进行抓 ,也是一种很快的方式。互联网是由很多点组成的,这些点就是指向链接,蜘蛛顺着这些指向链接,并对用户的注重程度进行不同频率的抓取。
2.过滤 :顾名思义,蜘蛛对于提交到列表的url进行过滤。过滤掉一些奇葩用户的网页,以及一 些死链接和空白页面。蜘蛛的过滤是有选择的,如果网站大量存在这些有害页面,会影响到蜘蛛的抓取,降低信任度,所以,出现这些页面一定要主动提及,做到亡羊补牢,为时未晚。
3.建立索引:蜘蛛对于网页中的关键词信息进行识别和存储,并提前做好排名。这些存储的信息,会变成一个虚拟的数据结构,里面包括很多相关数据,比如网页的tag、title、meta、description、外链、抓取记录等。树干和树枝脉络清晰,用来详细的展现给用户搜索结果,这就是索引库。
4.输出结果: 用户搜索后,索引库会映射出一张匹配表,并在这张表中进行筛选。筛选的规则是用户输入关键词体现的需求和网页优劣。打分结果出现后,好的排名就会被展现在第一页,供用户选择形成点击和转化。
以上四个步骤就是蜘蛛抓取的全过程。百度根据链接把url加入列表,派遣蜘蛛这个程序进行抓 ,符合要求的进入索引库,最后收录,并组合成结构性的数据,接下来返回的搜索结果,就是我们看到的网站排名。
相关知识点: SEO SEO运算逻辑- 1蓝天采集器discuz插件显示乱码
- 2163K网站系统X12(20191014)版本自动升级额外事项
- 3dedecms转pbootcms常见标签转换教程
- 4蓝天采集器蓝天采集器v1.3自动采集怎么搞
- 5蓝天采集器PHP7的版本什么时候出
- 6蓝天采集器本地保存excel 出现错误如下
- 7蓝天采集器在数据安装的界面输入完成信息之后 无法安装
- 8蓝天采集器蓝天采集器安装时候出现的问题
- 9163K网站系统支付宝支付配置说明(待更新)
- 10蓝天采集器安装出问题 显示版本问题
- 11FastAdmin系统-Bty分销系统v5蓝天采集器自动采集入库使用教程
- 12火车头使用5118伪原创出现采集内容处理插件运行出错:【errcode】:20031 【errmsg】【errcode】:200313 【errmsg】动态加载dll失败
- 13火车头采集器FTP连接出现530 Login authentication failedvoid 错误解决办法
- 14蓝天采集器可以在任务列表做一个复制的功能吗?
- 15狂雨小说CMS后台采集规则教程附带操作演示案例
- 16163K网站系统浏览器中的网站图标(favicon.ico图标)设置说明
- 17163K网站系统QQ登录配置教程
- 18蓝天采集器任务列表应新增复制功能
- 19pbootcms系统网站必须要做的seo要点
- 20百度实名认证接口(人脸身份核验API) 申请开通教程
-
如何获取当前页面cookie填写在蓝···
在使用蓝天采集器的时候经常会遇到一些网站中需要登录才能采集到对应的信息,这个时候呢我们就需要获取到它的cookie信息填写在蓝天采集器的规则里面。其实方法有很多种给大家介绍2种最简单的方法吧;1、直接在浏览页地址输入:javascript:···
-
{pboot@sql sql="语句···
PbootCMS V3.0.4 build 2021-02-14版本新增了{pboot@sql sql="语句"}[sql:字段]{/pboot@sql}万能循环标签。实测支持多表联合查询,速度OK,下面来看下群友分享的使用代码:{pboo···
-
PbootCMS建站系统模板新手必读···
环境要求服务器:Linux / Windows / Nginx / Apache / IIS PHP版本:不小于5.3,完美支持php7。推荐PHP5.6和PHP7.3MYSQL版本:5.0以上。推荐···
-
pbootcms类型站点怎么查看图片···
1、先在图片或相应的元素上 点击 右键-属性 可以看到路径、大小、颜色,图片同名同格式用ftp覆盖。查看元素的颜色,然后修改相应的CSS。2、如果上个方法看不到,在图片或相应的元素上 点击 ···
-
蓝天采集器翻译功能是可以使用的吗,我···
没有一个字是翻译成功的。是还没开发好吗?我也试过百度翻译也不行。 百度、有道测试都可以啊https://www.yahoo.com/news/forme ... rump-235022338.html