跳到主要内容

搜索引擎优化

做seo是为了尽量减少搜索引擎的工作量、降低搜索引擎的工作难度,使其能更轻松、快速的收录网站页面,更准确的提取页面内容。搜索引擎指的是由蜘蛛程序沿着链接爬行和抓取的大量页面,存进数据库,经过处理,用户在搜索框输入关键词后,搜索引擎排序程序从数据库中挑选出符合搜索关键词要求的页面。搜索结果中包含页面标题(来自HTML代码中的标题标签title),页面说明(来自HTML中的说明标签description)

  • 缩进列表,当排行靠前的来自同一个网站的不同页面,搜索结果会把两个结果连在一起排在高位那个页面附近,并把第二个页面向右缩进三个字的空间。
  • 全站链接,对于一些权重高的网站,除了正常的结果列表外,还会显示最多四行、两列共8个内页链接,称为全站链接。如果是一行4个链接则为迷你全站链接。
  • One-box,直接在搜索结果页面上显示相关信息,不用点击到其他网站上查看的结果。
  • 富摘要某些使用了RDFa或Microdata格式标签的页面,搜索引擎可能还会在标题下面以灰色文字加一行富摘要。
  • 说明文字中的链接对于一部分使用了页面内锚链接的页面,搜索引擎有时会尝试在说明文字中显示链接,用户可以跳到页面内锚链接部分。

工作原理

爬行和抓取是蜘蛛通过跟踪链接访问网页,获取页面HTML代码存入数据库。预处理是对抓取的数据进行文字提取、中文分词等。排名是根据用户输入关键词后排名程序调用索引数据库计算相关性,然后生成索引结果页面

爬行和抓取

先访问网站跟目录下的robots.txt文件,查看禁止搜索引擎抓取的文件和目录。可以在日志文件中看搜索引擎的特定代理名称从而辨识搜索引擎蜘蛛。蜘蛛是跟踪页面上的链接,从一个页面爬到下一个页面,深度优先和广度优先混合使用。所以需要吸引蜘蛛,增加网站和页面权重、持续更新页面、导入链接让页面有链接可达到、缩短页面与首页的点击距离。蜘蛛会检测转载或抄袭内容,所以不要抄袭。

预处理

预处理阶段会依次做以下操作:

预处理会从HTML页面中提取文字,如果是中文搜索引擎还会对提取的文字做分词。如果有词是想要搜索引擎划分为同一个词的,可以用黑体标明。 去停止词,去掉那些高频但对内容没有任何影响的词,例如“啊”、“哈”等。 消除噪声,去除对页面主题没有什么贡献的内容,例如版权生命文字、导航条、广告等。 去重,识别和删除重复的内容。 正向索引,经历以上处理后,会把每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合,并且在搜索引擎库中,关键词也已经转化为关键词ID,这样的结构为正向索引。 倒排索引,把正向索引中文件对应到关键词的映射转化为关键词到文件的映射。 链接关系计算,既网页之间链接的流动信息,页面上哪些链接指向哪些页面,每个页面有哪些导入链接,链接使用的锚文字,这些信息形成了网站和页面的链接权重。 特殊文件处理,搜索引擎还能抓取和索引以文字为基础的多种文件内容,如PDF、Word、WPS、XLS、PPT、TXT等。

排名

搜索词处理,用户输入搜索词后的前期处理:

中文分词(如果是中文),分词原理与页面分词相同 去停止词,和索引一样,最大限度提高排名相关性及效率 指令处理,搜索引擎的默认处理方式是关键词之间使用"与"逻辑,还会处理一些高级指令,例如加号减号等。 拼写错误矫正 整合搜索触发,某些搜索词会触发整合搜索,比如明星姓名会触发图片和视频内容。 文件匹配,经过以上处理后,搜索引擎得到以词为基础的关键词集合,文件匹配阶段就是在倒排索引中找出含有所有关键词的文件。 初始子集选择,在得到包含所有关键词的匹配文件后,由于效率,还不能对如此庞大的文件集做相关性计算,需要先依靠页面权重等非相关性特征得到初始页面子集。 相关性计算,对初始子集中的页面进行关键词相关性计算。影响相关性的主要因素有:

  1. 关键词常用程度,越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。不常用词加加权系数高。
  2. 词频及密度,在没有关键词堆积的情况下,搜索词出现次数越多,密度越高,页面与搜索词越相关。但是重要程度已经越来越低。
  3. 关键词位置及形式,例如出现在标题,黑体中的关键词
  4. 关键词距离,切分后的关键词完整匹配的出现,说明与搜索词最相关
  5. 链接分析及页面权重,页面有越多以搜索词为锚文字的导入链接,页面相关性越强 排名过滤及调整,经过以上步骤,大体排名已经确定,这个部分最重要的过滤是对一些有作弊嫌疑的页面施加惩罚,接下来就是排名显示了。 搜索缓存,由于用户搜索的关键词有很大部分的重复,因此搜索引擎会把常见的搜索词存入缓存,这样就不用经过文件匹配和相关性计算,提高了排名效率和反应时间。 查询及点击日志,搜索引擎会把用户点击的IP地址,关键词,时间等记录成日志,日志也会对索引结果产生影响,且影响权重在加大。

链接原理

使用链接分析技术可以减少垃圾站,防止黑帽SEO在页面大量堆积关键词,并且也使传统关键词匹配无法排名的文件能够被处理。比如图片、视频文件无法进行关键词匹配,但是能通过外部链接,通过连接信息,搜索引擎就能了解图片和视频的内容从而排名。