要做好企业网站优化工作必须了解搜索引擎底层的工作逻辑,搜索引擎的工作原理主要包括蜘蛛爬行、抓取建库、网页处理、检索服务和结果展现5个方面的内容。
蜘蛛爬行:搜索引擎派出“蜘蛛”(网页抓取程序)进行网页抓取,爬取网页时一般采用深度优先、宽度优先或最佳优先策略;抓取建库:将蜘蛛抓取到的网页放到原始数据库中,并丢弃掉不符合抓取规则的网页;网页处理:对符合规则的网页进行预处理,主要包括网页结构化、分词、降噪、建立索引等;检索服务:根据用户提交的关键词从数据库中将符合匹配规则的网页调取,并根据权重排序规则对其进行排序;结果展示:将排序好的网页按不同的方式呈现给用户。