标签:
今天学了搜索引擎原理,在网络营销实践中和大家分享一下。
搜索引擎有一个庞大的URL库,搜索引擎定期的派出蜘蛛(spider)从这些URL的首页开始爬行,在爬行过程中如果发现新的网页就抓取过来、原页面有变化的就把之前的替换成新抓取的、发现自从上次搜集后已经不存在的页面就从库中删除。
任何搜索引擎都是不可能将WEB上的网页搜集完全的,通常都是在其他条件的限制下决定搜集过程的结束(如磁盘满,或搜集时间已经太长了),因此就有一个尽量使搜到的网页比较重要的问题,这对于那些并不追求很大数量覆盖率的搜索引擎特别重要,这些搜索引擎是按照先宽的搜索方式来进行搜索,所以搜索深度不会太深。
搜索引擎在搜索时会做“预处理”,主要包括四步:关键词的提取,“镜像网页”或“转载网页”的清除,链接分析和网页重要程度的计算。
来源:http://www.zyfblog.cn/post/sousuoyinqinggongzuoyuanli.html


档案
日志
相册
视频



评论
想第一时间抢沙发么?