首页 > 基础资料博客日记

搜索引擎-03-搜索引擎原理

2024-04-04 08:00:03基础资料围观639次

本篇文章分享搜索引擎-03-搜索引擎原理，对你有帮助的话记得收藏一下，看Java资料网收获更多编程知识

拓展阅读

搜索引擎-01-概览

搜索引擎-02-分词与全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介

Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容

Crawl WebMagic 爬虫入门使用简介 webmagic

全网搜索引擎架构与流程如何？

全网搜索引擎的宏观架构如上图，核心子系统主要分为三部分（粉色部分）：

（1）spider 爬虫系统；

（2）search+index: 建立索引与查询索引系统，这个系统又主要分为两部分：

一部分用于生成索引数据 build_index

一部分用于查询索引数据 search_index

（3）rank 打分排序系统；

核心数据主要分为两部分（紫色部分）：

（1）web 网页库；

（2）index 索引数据；

全网搜索引擎的业务特点决定了，这是一个“写入”和“检索”分离的系统

如何写入

系统组成：由spider与search+index;两个系统完成。

输入：站长们生成的互联网网页。

输出：正排倒排索引数据。

流程：如架构图中的1，2，3，4：

（1）spider把互联网网页抓过来；

（2）spider把互联网网页存储到网页库中（这个对存储的要求很高，要存储几乎整个“万维网”的镜像）；

（3）build_index从网页库中读取数据，完成分词；

（4）build_index生成倒排索引；

如何建立索引

系统组成：由search+index;与rank两个系统完成。

输入：用户的搜索词。

输出：排好序的第一页检索结果。

流程：如架构图中的a，b，c，d：

（a）search_index获得用户的搜索词，完成分词；

（b）search_index查询倒排索引，获得“字符匹配”网页，这是初筛的结果；

（c）rank对初筛的结果进行打分排序；

（d）rank对排序后的第一页结果返回；

文章来源:https://www.cnblogs.com/houbbBlogs/p/18113889
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：【JAVA】Servlet开发
下一篇：Java中的String字符串练习

首页 > 基础资料博客日记

搜索引擎-03-搜索引擎原理

拓展阅读

全网搜索引擎架构与流程如何？

如何写入

如何建立索引

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

搜索引擎-03-搜索引擎原理

拓展阅读

全网搜索引擎架构与流程如何？

如何写入

如何建立索引

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记