分享好友 资讯首页 频道列表

我来分享:探索百度搜索引擎算法技巧分析系列

2017-03-01230
 回顾过去,展望未来,未来成了搜索引擎的天下,个人、企业都疯狂的关注着搜索引擎的变化。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象……一时成了搜索经济时代。搜索成了网络的重中之重。对从事网络的朋友来说,了解一个好的搜索引擎,知道它的优势所在,掌握它的规律是很有必要的。河北华信智原大数据人才培养基地已实现大学生对口专业就业

如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等。这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的。我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。

查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。我们分两个部分来讲述:查询处理和中文分词。

先来谈系列一:查询处理

用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢?

1、假设用户提交了不只一个查询串,比如“信息检索理论工具”。

那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理简单,我们接着往下看。

2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询“理论 工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“理论工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理。那么是如何得出这个结论的呢?我们可以将“理论工具”提交给百度,再返回文档,大致看看第一页的返回内容。接着继续,我们提交查询“理论 工具理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而 GOOGLE 则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的)。

3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待。至于为什么,你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字,也是如此办理。

到目前为止,看似都很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。
反对 0
举报 0
收藏 0
打赏 0
站长基础说说之搜索引擎的内外部优化你知道多少呢?
搜索引擎的内外部优化你知道多少呢?郑州seo索引擎优化告诉你。如下:一、内部优化(1)META标签优化:例如:TITLE,KEYWORDS,DES

0评论2019-05-03285

站长基础说说之网站百度收录需要注意的问题
1.时间问题:网站是新站,百度对于新站的考察时间是1-3个月.在这三个月中,我们site自己的网站经常会出现网站有时间可以查询到一个

0评论2019-05-03285

站长基础说说之网站改版后的降权处理方法有哪些?
网站出现降权的情况很多,这也是每个优化师不想看到的问题,一但网站出现降权对排名的影响还是比较大的,情况稍好的话可能会轻微

0评论2019-05-03277

站长基础说说之新手学习优化的3大步骤
对于有过优化网站或者自己及团队有做过网站和优化的人,百度搜索引擎排名的工作原理其实并不是那么复杂,但对于大部分网民用户来

0评论2019-05-02276

站长基础说说之网站如何增加网站内页收录
现在做网站优化的人在不断的淘汰与更新,但是百度的算法还是大同小异,只要把网站排名做到前20名,上前三对于老的SEO人来说都不

0评论2019-05-02240

站长基础说说之seo优化应该从seo的原理上出发才能做好优化
seo这个行业从开始的混乱无比变得井然有序,让很多从事seo行业的朋友心中有了一个底。可是咱们做seo这么长的时间有没有真的去了

0评论2019-05-02260

站长基础说说之SEO新手易走进的优化几大误区
对网站定位不明确在着手工作时要对网站一个定位和了解;站在搜索引擎和用户的角度思考,我们的网站可以给用户传达的核心思想是什

0评论2019-05-02139

站长基础说说之SEO优化如何判定一个外链的价值!
对于外链为皇,内容为王这一句话,我想对做SEO优化的人来说耳朵已经听出茧来了。不过随着百度搜索引擎的算法更新后,很多人就放

0评论2019-05-02138

站长基础说说之蜘蛛是如何抓取页面数据的?
蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面(例如:一些高权重网站 和网站的首页),在抓取这些网页的内容

0评论2019-05-02136

站长基础说说之百度图片的热门目录收录规则有哪些?
百度图片的热门目录: 爆笑趣图、精品推荐、MM明星、卡通动漫、精美壁纸、电影电视、风景名胜、新闻图片、壁纸。百度图片会根据

0评论2019-05-02133