分享好友 资讯首页 频道列表

站长基础说说之分析搜索引擎的搜索和排名机制

2018-10-1750
 分析搜索引擎的搜索和排名机制
分析搜索引擎的搜索和排名机制:
  1、爬行和盐城白癜风医院和抓取蜘蛛搜索引擎用来爬行页面和访问页面的程序叫做蜘蛛,大家也成为机器人(robots)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库中。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛一起爬行页面,提高爬行速度。http://www.yixiin.com/sell/
  蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,搜索引擎就不会爬行抓取,直接过滤这些文件。
  2、跟踪链接为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面的链接,从一个页面爬行到另外一个页面,一层层的爬行直至没有继续往下的链接为主。
  搜索引擎爬行的原理有两种:一种是深度优化,另外一种就是广度优先。
  所谓深度优先,指的就是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接指向,然后返回到第一个页面,继续爬行。
  广度优先是指蜘蛛在一个页面上发现多个链接地址,不是顺着一个链接一直往前,而是把页面上所有第一层的链接都爬行无锡武警医院最好的白癜风治疗医院一遍后,在从第二层页面开始爬行直至最后。从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够长的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间都是有限的,也不可能爬行完所有的页面。所以深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的页面,也能够照顾到一部分内页。
  3、吸引蜘蛛那接下来我们就要思考,该如何吸引蜘蛛爬行,去抓取更多的页面,我认为应该从以下几个方面去考虑:
  (1) 网站和页面的权重:
  质量高、资格老的网站被认为权重比较高,这种网站的页面被爬行的深度也会比较高,被收录的内页也会增加。
  (2) 页面更新度:
  蜘蛛每次爬行都会把页面数据存储起来,如果第二次爬行发现页面与第一次收录完全一样,说明这个网站页面没有更新,蜘蛛下次过来继续爬行的概率也不会很高。
  (3) 导入链接:
  导入链接也就是咱们经常说的外链和内链,外链顾名思义是从外部网站导入过来的,比较多的就是友情链接。内链主要是针对网站内部来说,是指从网站的一个页面指向另外一个页面。高质量的外链可以增加网站的权重,也可以增加搜索引擎白癜风要好时是痒吗爬行网站的深度。
  (4)与首页的点击距离一般来说网站上权重最高的页面就是首页,大部分外部链接也都是指向首页,蜘蛛访问最频繁的也是首页。所以,离首页距离越近,页面的权重越高,被蜘蛛爬行的几率也会更大。
  4、地址库为了避免重复爬行和抓取网址,搜索引擎内部会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。
  地址库中的URL有几个来源:
  (1) 人工录入的种子网站(2) 蜘蛛爬行抓取页面后,从HTML中解析出新的URL,与地址库中的数据库进行对比,如果是地址库中没有的网址,就会存入待访问的地址库。
  (3) 站长通过搜索引擎网站页面表格提交进来的网址。http://www.yixiin.com/gift/
 
  5、文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML是完全一样,每一个URL都有相应的文件编号。
  6、爬行时的复制内容检测百度会定期对重复收录的页面进行检测,一般在每个月都会有一次大的更新,目的是尽可能删除那些重复收录的页面,对用户提供更多精准的信息,满足用户的搜索目的。
反对 0
举报 0
收藏 0
打赏 0
站长基础说说之搜索引擎的内外部优化你知道多少呢?
搜索引擎的内外部优化你知道多少呢?郑州seo索引擎优化告诉你。如下:一、内部优化(1)META标签优化:例如:TITLE,KEYWORDS,DES

0评论2019-05-03278

站长基础说说之网站百度收录需要注意的问题
1.时间问题:网站是新站,百度对于新站的考察时间是1-3个月.在这三个月中,我们site自己的网站经常会出现网站有时间可以查询到一个

0评论2019-05-03279

站长基础说说之网站改版后的降权处理方法有哪些?
网站出现降权的情况很多,这也是每个优化师不想看到的问题,一但网站出现降权对排名的影响还是比较大的,情况稍好的话可能会轻微

0评论2019-05-03271

站长基础说说之新手学习优化的3大步骤
对于有过优化网站或者自己及团队有做过网站和优化的人,百度搜索引擎排名的工作原理其实并不是那么复杂,但对于大部分网民用户来

0评论2019-05-02272

站长基础说说之网站如何增加网站内页收录
现在做网站优化的人在不断的淘汰与更新,但是百度的算法还是大同小异,只要把网站排名做到前20名,上前三对于老的SEO人来说都不

0评论2019-05-02236

站长基础说说之seo优化应该从seo的原理上出发才能做好优化
seo这个行业从开始的混乱无比变得井然有序,让很多从事seo行业的朋友心中有了一个底。可是咱们做seo这么长的时间有没有真的去了

0评论2019-05-02253

站长基础说说之SEO新手易走进的优化几大误区
对网站定位不明确在着手工作时要对网站一个定位和了解;站在搜索引擎和用户的角度思考,我们的网站可以给用户传达的核心思想是什

0评论2019-05-02136

站长基础说说之SEO优化如何判定一个外链的价值!
对于外链为皇,内容为王这一句话,我想对做SEO优化的人来说耳朵已经听出茧来了。不过随着百度搜索引擎的算法更新后,很多人就放

0评论2019-05-02134

站长基础说说之蜘蛛是如何抓取页面数据的?
蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面(例如:一些高权重网站 和网站的首页),在抓取这些网页的内容

0评论2019-05-02134

站长基础说说之百度图片的热门目录收录规则有哪些?
百度图片的热门目录: 爆笑趣图、精品推荐、MM明星、卡通动漫、精美壁纸、电影电视、风景名胜、新闻图片、壁纸。百度图片会根据

0评论2019-05-02123