首页 > 基础资料 博客日记
搜索引擎-03-搜索引擎原理
2024-04-04 08:00:03基础资料围观483次
拓展阅读
Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介
Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容
Crawl WebMagic 爬虫入门使用简介 webmagic
全网搜索引擎架构与流程如何?
全网搜索引擎的宏观架构如上图,核心子系统主要分为三部分(粉色部分):
(1)spider 爬虫系统;
(2)search+index: 建立索引与查询索引系统,这个系统又主要分为两部分:
一部分用于生成索引数据 build_index
一部分用于查询索引数据 search_index
(3)rank 打分排序系统;
核心数据主要分为两部分(紫色部分):
(1)web 网页库;
(2)index 索引数据;
全网搜索引擎的业务特点决定了,这是一个“写入”和“检索”分离的系统
如何写入
系统组成:由spider与search+index;两个系统完成。
输入:站长们生成的互联网网页。
输出:正排倒排索引数据。
流程:如架构图中的1,2,3,4:
(1)spider把互联网网页抓过来;
(2)spider把互联网网页存储到网页库中(这个对存储的要求很高,要存储几乎整个“万维网”的镜像);
(3)build_index从网页库中读取数据,完成分词;
(4)build_index生成倒排索引;
如何建立索引
系统组成:由search+index;与rank两个系统完成。
输入:用户的搜索词。
输出:排好序的第一页检索结果。
流程:如架构图中的a,b,c,d:
(a)search_index获得用户的搜索词,完成分词;
(b)search_index查询倒排索引,获得“字符匹配”网页,这是初筛的结果;
(c)rank对初筛的结果进行打分排序;
(d)rank对排序后的第一页结果返回;
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
上一篇:【JAVA】Servlet开发
下一篇:Java中的String字符串练习
相关文章
最新发布
- springboot~3.x项目中使用集成测试
- Java测试类、工具类与JavaBean对比解析
- SpringBoot-日志
- springboot~http2的支持
- 解疑释惑 - 日志体系之 slf4j + logback 组合(一)
- Web server failed to start. Port 8080 was already in use. 端口被占用
- Springboot 项目配置多数据源
- 伙伴匹配系统(移动端 H5 网站(APP 风格)基于Spring Boot 后端 + Vue3 - 05
- 剑指offer-23、搜索⼆叉树的后序遍历序列
- 一个表示金额的数字是 100000000L,这是多少米?