我想大家都很想知道搜索引擎更多的技术,特别的网站排名算法,因为一旦知道这一“内幕”,就可以按搜索引擎的“意思”去做网站排名工作了,可以想象,要是真的知道排名算法,那网站的排名就“指日可待了”。以下我们将来介绍网站建设之外的搜索引擎技术:分词与索引库。分词是很多做SEO的人常听到的概念,但是说法也不尽相同,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。让我们更加深入地了解搜索引擎的工作与排名算法。
我们知道,当然我们在搜索引擎上查找某一个关键词时,它会返回很多的结果,那么它是按什么规则返回这个结果的呢?在海量的结果中,搜索引擎又是按什么样的算法给这些页面做前后排名的呢?如搜索“深圳网站建设”这一关键词,它是怎么排序结果网站的呢?我们一起来看看搜索引擎工作原理:
1.搜索引擎首先是每天是把互联网上海量的信息搜集下来,保存在自己的数据库存中,以便用户查找是返回给用户一个结果。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取,当然不是每个页面的会抓取保存,而是抓取保存搜索引擎认为有价值的网页内容。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。
2.当然用户使用搜索引擎查找内容时,也就是当然用户输入某个关键词,如“湖南网站制作公司”时,搜索引擎将从它之前保存的数据库中返回一个结果,这个结果包含了成千上万的网页,并按一定的顺序排列。那么,问题出来了,它是按什么样的顺序排列的呢?
问题(1)如果把搜索结果讯速地在海量的信息中把匹配的内容返回给用户?
我们都了解,搜索引擎的数据库里是含有上百亿的不同的网页内容的,如果按一般的搜索技术来搜索,那么用户可能要等上几天才会得到一个有效的结果,搜索引擎是如何去解决这个问题的呢?它的办法就是利用“索引库”技术,在使用这个技术之前,先建立一份索引库。这就比如是一本书的目录一样,假设我们有一本书叫做《网站建设全攻略》这本书的内容非常多,厚达1200页,有50万字,有编程技术,美工介绍,SEO等等,如果我们要找网站建设这一内容时,要是一页一页地翻,就比较费时。要是我们从目录上找网站建设这一个内容所对应的页码再去找,那就比较快了。 搜索引擎使用的也就是这种技术,它会为上百亿的网页建立一个索引库,当然用户搜索内容时先从这个索引库里去查找内容所在的地方,然后再去打这一个内容块,这就可以跳过很多内容了,当然搜索不只有一个索引库,也不几个不同的层级。
如下图所示:
索引库技术
问题(1)搜索引擎是如何去分类排序索引库里的分类的呢?
也许你已经有了这个疑问:索引库里是怎么分类的?是按内容的26个英文字母亲?还是什么?这人索引库的内容有多少?这个索引库会不会也是不断地增大?我们知道,互联网上的网页数量是不断增加的,但是,每一种语言里,词语的数量都是相对固定的,变化不是很大,整体来讲都是比较稳定的。比如英语就是一百多万个单词,100亿 ÷ 1百万 = 1 万;汉语是8万多个词语,100亿÷8万=12万5千。这些数据是对于当然代计算机来说,都是小数据。所以这个索引库里存放的就是这些数量相对不变的词语来对内容进行分类。如”网站“与”建设“在中文里就可以做为两个固定的词语。
以下是简化了的索引库示意图:
分词技术-索引技术
如图所示,当然我们搜索”mp3 player”时,理论上,当含有mp3或player的网站将会被拿出来当然作搜索结果,页同时含有”mp3″与“player”的网页将后被排在较前。上面那那张图也是在google.com英文版的得出的搜索结果,当分别搜索”mp3“和”player“时,winamp.com这个网站都是排在第4的,当搜索“mp3 player”时,它就排在第一位了。当然然,中文的分词技术要比英文复杂一些,大家都知道中文一不小心就很容易产生歧义,如”湖南网站建设“这个词,利用户分词技术,我们可以把它分为”湖南“,”网站“,”建设“。
当搜索引擎爬行到一个页面的时候,如果它觉得这个内容值得收录,那么它把这个个网页内容抓取下来。然后分析网页的内容,再把它归到相应的分词下,当然用户搜索的内容对应的内容符合它所在的分词时,这个网页内容将被取出做为结果展示给用户。如下图所示:
网站排名结果-深圳网站建设
大家看了这个图应该对如何优化网站内容、如何做SEO有所启发了。从搜索引擎的角度和工作原理去做网站优化和网站排名,那么做起来就相对事半功倍了。
从上面所讲的搜索引擎分词技术与索引库技术,应该会对大家的网站建设和网站优化有所启发。读了这个,大家再去看看长尾关键词,是比较合适的。对于网站排名,讲完这篇文章后,您是不是在想:问题是如果让搜索引擎知道我写篇文章的主题呢?如本文,”搜索引擎“这个词比”分词技术“与”索引库技术”出现的字数要多,但本文主要讲的内容还是后者,