分享好友 资讯首页 频道列表

站长基础说说之搜索引擎页面去重算法分析之I-Match算法

2018-08-1650
 互联网中存在了大量的重复页面,据统计表明近似重复页面的数量占据网站总数量的29%,而完全重复页面占据了22%。这些重复的页面对搜索引擎来说占据了很多的资源,因此搜索引擎对页面的去重也是搜索引擎中很重要的一个算法。因此今天就跟大家分析下搜索引擎页面去重算法-I-Match算法。http://www.yixiin.com/news/
对于I-Match算法来说主要是根据大规模的文本集合进行统计,对于文本中出现的所有单词,按照单词的IDF(逆文本词频因子)来进行由高到低的排序,除去得分最高和得分最低的单词,保留剩下的单词最为特征词典。这一步骤主要是删除文本中无关的关键词,保留重要关键词。下面是I-Match流程示意图:  
 
I-Match流程示意图
获得全局特征词典之后,对需要去重的页面,扫描下就能获得该页面上出现的所有单词,对于这些单词根据特征词典过滤:保留在特征词典上出现的单词,用来表达文档的主要内容,删除没有在特征词典中出现的内容。提取出对应的特征词之后在利用哈希函数对特征词汇进行哈希计算,获得的数值就是该文档的文本指纹。
所有文档都统计完之后如果想查看两篇文档是否重复只需要查看文档的文本指纹是否近似,如果近似则表示两篇文档重复。这样的比对方式很直观而且效率也很高,去重效果比较明显。
我们seo在做文章伪原创的时候经常会把文章的词语和段落调换位置,以此想欺骗搜索引擎认为这是一篇原创的文章,但是I-Match对文档之间的单词顺序并不敏感。如果两篇文章中包含的单词一样仅仅是调换了单词的位置,那么I-Match算法还是将两篇文章认为是重复文章。
但是这个算法还是有很多问题存在。1,容易出现误判。尤其是面对短文本的时候,短文本本身单词比较少,经过特征词典过滤之后只保留很少的特证词,这样容易把两篇原本不重复的文档误认为重复,这个对短文档来说情况比较严重。2.稳定性不好,对文档修改敏感。假如对文档A做出一点小修改后生成文档B,那么这个算法很可能判断出两篇文档为不重复文档。例如:我们在文档A中加入一个单词H,生成文档B。I-Match算法在进行计算的时候,两篇文章仅仅相差一个单词H,如果单词H不再特征词典中那么两篇文章的特证词相同即判定为重复文档,但是会出现这种情况,单词H出现在特征词典中,那么文本B比文档A多出一个特征,该算法很可能就会判定两篇文档不重复。这就是I-Match最大的一个问题。
基于I-Match出现的这种问题,有人对该算法进行了改进。原算法对文档的改变非常敏感,主要是因为对单一特征词典的过度依赖,改进后的I-Match就是减少对特征词典的依赖性。可以采用多个特征词典,只要每个特征词典大体相近就可以忽略细小的差别。
改变后的I-Match算法主要是:类似I-Match原始算法,形成一个特征词典,为了和其他词典相区别可以成为主特征词典;然后根据主特征词典衍生出若干小的辅助特征词典。为了保证特征词典的主体相同,可以从主特征词典中随机删除若干词典项然后生成一个新的特征词典,这个特征词典就叫做辅助特征词典,重复若干次数后就可以获得若干辅助特征词典。当两篇文档进行对比的时候可以对主特征词典和辅助特征词典一起比对,只要保证每个特征词典的大体内容相同,忽略细小差异就能判定文档是否重复。下图是I-Match改进后的示意图:
 
I-Match算法改进
上图演示中有两个辅助特征词典,主特征词典抛弃了特征5和特征6形成辅助特征词典1,主特征词典抛弃了特征2和特征3形成了辅助特征词典2。并且根据三个特征词典分别形成了文本指纹。如果两篇文档有两个指纹信息相同那么即可判定两篇文档重复。
改进后的I-Match算法大大提高了文档去重的成功率,增加了算法的稳定性。
SEO启发:传统的伪原创文章,对一篇文章进行简单的修改,首尾做一些小的变动,然后把中间段落调整顺序,这个对搜索引擎来说都是没有意义的,还是可以判断出两篇文章是否重复。因为我们对于文章的建设还是要原创,或者对原文章进行比较大的改动,使两篇文章的特征词典发生改变。http://www.yixiin.com/brand/
词语解释:
IDF 逆文档词频因子:衡量一个词普遍重要度的衡量因子,某一特定词语的IDF,可用总文件数目除以含有该词语文档数目,将得到的商取对数得到。
反对 0
举报 0
收藏 0
打赏 0
站长基础说说之搜索引擎的内外部优化你知道多少呢?
搜索引擎的内外部优化你知道多少呢?郑州seo索引擎优化告诉你。如下:一、内部优化(1)META标签优化:例如:TITLE,KEYWORDS,DES

0评论2019-05-03278

站长基础说说之网站百度收录需要注意的问题
1.时间问题:网站是新站,百度对于新站的考察时间是1-3个月.在这三个月中,我们site自己的网站经常会出现网站有时间可以查询到一个

0评论2019-05-03279

站长基础说说之网站改版后的降权处理方法有哪些?
网站出现降权的情况很多,这也是每个优化师不想看到的问题,一但网站出现降权对排名的影响还是比较大的,情况稍好的话可能会轻微

0评论2019-05-03271

站长基础说说之新手学习优化的3大步骤
对于有过优化网站或者自己及团队有做过网站和优化的人,百度搜索引擎排名的工作原理其实并不是那么复杂,但对于大部分网民用户来

0评论2019-05-02272

站长基础说说之网站如何增加网站内页收录
现在做网站优化的人在不断的淘汰与更新,但是百度的算法还是大同小异,只要把网站排名做到前20名,上前三对于老的SEO人来说都不

0评论2019-05-02236

站长基础说说之seo优化应该从seo的原理上出发才能做好优化
seo这个行业从开始的混乱无比变得井然有序,让很多从事seo行业的朋友心中有了一个底。可是咱们做seo这么长的时间有没有真的去了

0评论2019-05-02253

站长基础说说之SEO新手易走进的优化几大误区
对网站定位不明确在着手工作时要对网站一个定位和了解;站在搜索引擎和用户的角度思考,我们的网站可以给用户传达的核心思想是什

0评论2019-05-02136

站长基础说说之SEO优化如何判定一个外链的价值!
对于外链为皇,内容为王这一句话,我想对做SEO优化的人来说耳朵已经听出茧来了。不过随着百度搜索引擎的算法更新后,很多人就放

0评论2019-05-02134

站长基础说说之蜘蛛是如何抓取页面数据的?
蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面(例如:一些高权重网站 和网站的首页),在抓取这些网页的内容

0评论2019-05-02134

站长基础说说之百度图片的热门目录收录规则有哪些?
百度图片的热门目录: 爆笑趣图、精品推荐、MM明星、卡通动漫、精美壁纸、电影电视、风景名胜、新闻图片、壁纸。百度图片会根据

0评论2019-05-02123