SEO浅析搜索引擎工作原理

admin · 发表于 2016-4-29 17:08:14

　　这一节分享搜索引擎工作原理，这节课不会讲特别深的知识，会用大家听得懂的语言来说搜索引擎是怎么工作的，以后我们学习搜索引擎优化首先要知道搜索引擎工作流程，我们才好针对性的优化，这样大家才明白为什么这样优化!
　　常用搜索引擎:
　　百度、谷歌、搜搜、搜狗、微软等，搜索引擎工作原理，工作流程：第一步爬行抓取、第二步预处理、第三步服务输出;
　　爬行抓取：
　　批量收集：对互联网上存在链接的网页收集一遍，这种一篇需要耗时几周时间，针对互联网上的所有的url均收集一遍，这种不好就是收集过的还收集一次.
　　增量收集：在原有基础上收集新增加的网页，更新上次收集完后有改变的页面，删除收集重复和不存在的网页;假如有十个网页，新增加了十个，就只需要收录增加的十个，如原有的网页有三个更新的就再收集上来。
　　自己提交：自己主动向搜索引擎提交网站，不建议这种方法，因为比较慢.(注：本站长提醒：现在用提交是最快的了)
　　上面方式就是把链接做好利于蜘蛛爬行.这一块就需要我们seo优化好蜘蛛来时一下就能找到我们的网页.
　　用什么爬行抓取，搜索引擎蜘蛛
　　搜索引擎蜘蛛是搜索引擎的一个自动程序，作用就是用来访问互联网上的网页，图片，视频内容;
　　Spide+url:所以URL是搜索引擎的痕迹，看搜索引擎是否爬取过你的网站，就看服务器端日志是否有该url;
　　搜索引擎蜘蛛主要是通过爬行页面上的链接来收集新的页面，不停的十字交叉爬行下去便形成一张蜘蛛网,分广度优先爬行和深度优化爬行.
　　比如下图

　　A为第一层、BCD为第二层，efg是第三层，h是第四层，如果是深度优先爬行，首先是爬行A-B-E、A-c-f-h、a-d-g-h,广度爬行是a、b,C,D,E,F,G,H,为了提高效率，可能会设计深度的层次，如果设为三层，那么h就会不会被收录，所以有时会发现很多网站不会被收录，可能其中一个原因就是深度太深了，所以网站结构的扁平化很重要.
　　搜索引擎蜘蛛如何避免重复收集?
　　造成重复收集的原因：
　　蜘蛛没有记录访问过的URL
　　一个网页由多个域名指向导致
　　解决办法：搜索引擎建立两个表：
　　已访问表和未访问表
　　搜索引擎蜘蛛是如何断网页重不重要的
　　1、网页目录越小越好用户看着体验好;所以做站每天得有新的内容更新
　　2、原创性内容多的，好的，重要性越高越好;不建议伪原创等方法：伪原创就是把采集来的内容进行同义词替换等方法
　　3、更新度：一个高价值的网站每天都会有更新，用户天天来看，来玩;
　　4、高质量相关链接导入：一个权重高的，高质量的网页愿意外链接到你的网站，那证明你的网站质量也很好;如你的站的内容质量高好123会主动收录你的站，肯定就是高质量的导链接导入.
　　预处理:比如我们搜索网络营销这个词，他会马上显示搜索结果;为什么我们搜索一个词一秒内就回复搜索结果，就是因为进行了预处理。
　　预处理分为下面七步：关键词提取、去除停用词、进行分词、消除噪声、建立关键词库、链接关系计算、特殊文件处理;
　　关键词提取：搜索引擎蜘蛛抓取到的像大量的html代码，java,css,div标签等，要去除，搜索引擎完全能识别的还是文字内容，所以关键词提取是把没有用的标签去掉，把文字留下来.
　　去除停用词：反复出现的像“得”“的”“地”“啊”“呀”“再”等这些无用的词称为停用词，去除停用词
　　分词:基于统计的分词方法，分词词典和收录的网络流行词语是搜索引擎的依据，如我要睡觉了，其他神马都是是浮云;就可能分为
　　我、要、睡觉、了、其他、神马、都是、浮云
　　消除噪声：把网页上各种广告文字，广告图片，版权信息，登陆框等这些信息去除掉
　　建立关键词库：提取完关键词后，把页面转换为一个关键词的组合，记录每一个关键词在页面上的出现频率，出现次数，格式，位置;一个网页如果关键词出现的词数多，如网站权重不错，然后就会把这个词推向用户(站长注：不能关键词垒加堆砌)
　　链接关系计算:搜索引擎事先要计算出页面上有哪些链接指向哪些其他页面，每个页面由哪些导入链接，链接使用了什么锚文本等等;
　　特殊文件处理：对Flash,视频，图片等无法直接读懂的进行处理.
　　前面就是搜索引擎的基础了解、下一节课讲解搜索引擎一些指令和常用工具等

梁中同镇-村村通信息最全的网站

SEO浅析搜索引擎工作原理

相关帖子

浏览过的版块