分享好友 资讯首页 频道列表

站长基础说说之深入探讨搜索引擎蜘蛛的技术原理

2018-10-11220
 深入探讨搜索引擎蜘蛛的技术原理
搜索引擎技术抓取网络中海量信息,随着信息增长该技术作用变得越来越凸出,作为SEO技术人员,虽没必要像ZAC对搜索引擎优化技术了解的很透彻,但是分析了解搜索引擎的蜘蛛其对文件的处理方法,研究其搜索与更新策略,是作为SEOer该有的业务发展需要。http://www.yixiin.com/news/ 任何一个网站只要内容更新+外链都能看到搜索引擎对该网站做出相对应的分析,进而增加页面权重,了解搜索引擎技术,从而为我们根据实质性的原理来进行搜索引擎优化,这才是SEO明智之举,而不是每天在那发外链更新网站内容,业余时间还是得学学相关技术。下面介绍下搜索引擎核心检索技术。一蜘蛛工作原理
网络蜘蛛也就是搜索引擎蜘蛛,是通过链接地址来寻找网页的。搜索引擎蜘蛛名称根据搜索引擎都不同。那它的原理是由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,可以通过链接的层数来限制网络蜘蛛的爬取。同时页面信息的重要性为客观因素决定了蜘蛛对该网站页面的检索。站长工具中的搜索引擎蜘蛛模拟器其实它就是这个原理,准不准确笔者也不清楚。基于这蜘蛛工作原理,站长都会不自然的增加页面关键词出现次数,虽然对密度产生量的变化,但对蜘蛛而言并没达到一定质的变化。这在搜索引擎优化过程中应该要避免的。
二搜索引擎蜘蛛与网站的交互问题
搜索引擎技术基础中,蜘蛛爬取到网站中,通常会去检索一个文本文件Robots.txt,通常存放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。这也就是SEOer老是去屏蔽网站页面不想被搜索引擎抓取的原因,它是一个网站和搜索引擎蜘蛛对话的重要工具,但是蜘蛛是否都遵循站长对其实施的规则呢?其实蜘蛛遵循还是得看蜘蛛出身,素质高的会遵循规则,相反则不遵循。另外在网站中放入一个叫做sitmap.htm的网页,并将它作为网站的入口文件,这也是蜘蛛与网站的交互方法。对于交互性的SEO手段,我们了解了就可以针对性的做出符合搜索引擎的蜘蛛喜好的网站地图。
页面meta字段也是站长经常使用的搜索引擎优化技术,这个字段通常会放在文档的头部,很多站点都只是简单的写个允许百度抓取的字段,正不正确笔者不清楚,SEO其实很多现象都是基于数据分析对比才能得知。meta字段蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。
三搜索引擎蜘蛛对于文件的处理
()二进制文件处理
网络中除了HTML文件和XML文件外,也有大量的二进制文件,搜索引擎对二进制文件采用单独处理的方式,其对内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是基本内容,也就是通常所说的锚文字这就是为什么我们要对网站锚文字的分析选择的原因所在。
()脚本文件的处理
网页中的客户端脚本,当网页加载至读取到该脚本,搜索引擎往往会直接省略对它的处理。但是由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,对它的分析处理往往会采用另外一种网页检索程序,由于脚本程序复杂和多样性,通常站长会根据自身网站将这些脚本存放到一个文档中,采用调用技术,从而加快页面加载速度,同时蜘蛛也不能对调用文件分析处理。这也属于搜索引擎优化技术,如果忽略了对它的处理将会是一项巨大的损失。
()不同文件类型处理
对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,这也是SEO需要去了解的搜索引擎技术,这取决于网站信息更新的多样性。这也就是为什么专业网站上会在网站内附有下载的execlpdf等各种文件类型,这也是属于搜索引擎优化过程中需要注意的。网上不同文件类型文件的处理,网络蜘蛛通常是采用插件的方式来处理。如果有能力,网站信息内容的更新尽可能采取多样性,来帮助网站达到一个搜索信息多样化的SEO体系。
四搜索引擎蜘蛛的策略分析
()搜索策略
搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。
广度优先的搜索策略一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的搜索策略。只要有东西检索,它就抓取。它会先读取一个文档,保存下文档上的所有链接,然后读取所有这些链接文档,并依次进行下去。
深度优先的搜索策略网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,然后如此继续下去。这样的搜索策略达到了网站结构的分析,以及页面链接深度分析,从而传达网站信息。
还有网络上说的算法,如Hash算法,遗传算法等都是基于搜索引擎核心技术,这些也可以去了解下,比如最新的熊猫算法,这也是基于搜索策略的一种新算法,谷歌对其已经更新好几次了。
()更新策略
以网页变化的周期为依据,只对那些经常变化的网页做更新操作也是一些小型的搜索引擎常采用的方法。这也就是为什么站长会每个几周对网站页面内容的一个小更新,这是基于搜索引擎优化的技术。网络爬虫也经常采用个体更新的策略。它是以个别网页的变化频率来决定对网页的更新频率,这样一来基本上每个网页都会有一个独立的更新频率。
基于对搜索引擎原理了解的SEOer来提升搜索引擎优化技术,这也是一种SEO技术。搜索引擎优化过程当中自然就能做到自己在做什么,为什么要这样做,而不是只会发外链的机械操作者。SEO技术其实都不难,只要网站优化做的多了。http://www.yixiin.com/photo/
反对 0
举报 0
收藏 0
打赏 0
站长基础说说之搜索引擎的内外部优化你知道多少呢?
搜索引擎的内外部优化你知道多少呢?郑州seo索引擎优化告诉你。如下:一、内部优化(1)META标签优化:例如:TITLE,KEYWORDS,DES

0评论2019-05-03278

站长基础说说之网站百度收录需要注意的问题
1.时间问题:网站是新站,百度对于新站的考察时间是1-3个月.在这三个月中,我们site自己的网站经常会出现网站有时间可以查询到一个

0评论2019-05-03279

站长基础说说之网站改版后的降权处理方法有哪些?
网站出现降权的情况很多,这也是每个优化师不想看到的问题,一但网站出现降权对排名的影响还是比较大的,情况稍好的话可能会轻微

0评论2019-05-03271

站长基础说说之新手学习优化的3大步骤
对于有过优化网站或者自己及团队有做过网站和优化的人,百度搜索引擎排名的工作原理其实并不是那么复杂,但对于大部分网民用户来

0评论2019-05-02272

站长基础说说之网站如何增加网站内页收录
现在做网站优化的人在不断的淘汰与更新,但是百度的算法还是大同小异,只要把网站排名做到前20名,上前三对于老的SEO人来说都不

0评论2019-05-02236

站长基础说说之seo优化应该从seo的原理上出发才能做好优化
seo这个行业从开始的混乱无比变得井然有序,让很多从事seo行业的朋友心中有了一个底。可是咱们做seo这么长的时间有没有真的去了

0评论2019-05-02253

站长基础说说之SEO新手易走进的优化几大误区
对网站定位不明确在着手工作时要对网站一个定位和了解;站在搜索引擎和用户的角度思考,我们的网站可以给用户传达的核心思想是什

0评论2019-05-02136

站长基础说说之SEO优化如何判定一个外链的价值!
对于外链为皇,内容为王这一句话,我想对做SEO优化的人来说耳朵已经听出茧来了。不过随着百度搜索引擎的算法更新后,很多人就放

0评论2019-05-02134

站长基础说说之蜘蛛是如何抓取页面数据的?
蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面(例如:一些高权重网站 和网站的首页),在抓取这些网页的内容

0评论2019-05-02134

站长基础说说之百度图片的热门目录收录规则有哪些?
百度图片的热门目录: 爆笑趣图、精品推荐、MM明星、卡通动漫、精美壁纸、电影电视、风景名胜、新闻图片、壁纸。百度图片会根据

0评论2019-05-02123