Elasticsearch 的工作原理是什么？

介绍

在当今世界，数据已成为任何软件不可或缺的一部分。因此，从不同来源搜索、分析和检索数据的能力至关重要。然而，在查询数据的过程中可能会遇到各种问题，例如性能瓶颈、数据库管理难题、操作挑战等等。如果应用程序需要处理大量数据，那么进行分析和查询也会变得更加困难。

为了解决这个问题，我们需要一个分析引擎来帮助我们更高效地索引和搜索数据。Elasticsearch 就是这样一种工具。它可以集成到现有系统中，从而实现快速高效的数据分析。

今天，我们将深入了解 Elasticsearch 及其工作原理。以下是我们即将涵盖的主题：

什么是 Elasticsearch？
使用 Elasticsearch 的好处是什么？
Elasticsearch 的工作原理是什么？

我们开始吧。

什么是 Elasticsearch？

Elasticsearch 是一款开源搜索引擎，能够实现快速高效的搜索、索引和数据分析。它可以对文本、数值、地理空间、结构化和指令型等多种数据类型进行分析。它基于 Apache Lucene 库构建，该库的核心功能是文本索引和搜索。

它是 Elastic Stack 的主要组成部分，是一套用于数据摄取、丰富、存储、分析和可视化的工具集。

使用 Elasticsearch 的好处

Elasticsearch 具有多种优势。以下列举其中一些：

高速搜索：它可以为您提供快速且接近实时的搜索功能。
可扩展性：它可以横向扩展。您可以将数据分布在集群中的多个节点上。
全文搜索：它可以轻松执行全文搜索。用户可以跨多个字段和文档执行复杂搜索。
丰富的查询功能：它提供了一种灵活而强大的查询语言。它允许您编写包含各种搜索条件和过滤器的复杂查询。## Elasticsearch 的工作原理是什么？

Elasticsearch 采用分布式架构。在这种架构中，数据被分割成多个分片，然后分布在集群中的多个节点上。这种特性使其易于进行横向扩展。

在了解 Elasticsearch 的工作原理之前，我们需要学习以下 3 个术语。

集群：在 Elasticsearch 中，集群指的是一个或多个节点（服务器）的集合。这些节点协同工作，存储数据并执行各种分布式操作。当多个节点组成集群时，它们会分担工作负载，从而提供高可用性。
节点：节点是 Elasticsearch 的单个实例。节点是集群的一部分。这些集群能够独立地存储数据和执行操作。节点可以是物理机、虚拟机或容器。

根据节点的功能，节点可分为 3 种不同类型的节点：
- 数据节点：负责存储和管理实际数据。
- 主节点：负责管理集群状态、协调操作和维护集群级元数据。
- 协调节点：负责接收来自客户端的搜索和索引请求，并将请求路由到相应的数据节点，以及合并来自不同数据节点的结果。
分片：它是数据分发的基本构建模块。获取数据后创建的索引会被进一步分割成更小的部分，这些更小的部分称为分片。每个分片都是一个独立的索引段，存储在单个节点上。

现在，我们准备深入探讨 Elasticsearch 的工作原理。它可以分为三个部分。

1. 文件

文档是 Elasticsearch 中可建立索引的基本信息单元。文档可以看作是关系数据库中的一行。因此，在这个类别中，我们将来自各种来源的数据添加到 Elasticsearch 文档中。您可以使用数据导入工具来提取数据并将其转换为文档。您还可以使用其他工具来保持 Elasticsearch 与数据源的同步。

指数

数据存储后，需要建立索引以便查询。索引是一个逻辑命名空间，或者说是一组具有相似特征的文档集合。它类似于关系数据库系统中的数据库表。您可以将索引理解为一种组织和分组相关数据的方法。

Elasticsearch 索引包括定义索引（命名空间）并指定数据的文档结构。JSON 格式的文档会被添加到索引中。索引使得 Elasticsearch 数据可以被搜索。

倒排索引

Elasticsearch 将文档中的数据存储为一种称为倒排索引的压缩且不可变的形式。它由一个排序的词项列表（文本中的单词）组成。这些词项与其所属文档的引用一起存储。

一张图胜过千言万语。让我们深入了解一下倒排索引。

该视觉表现形式受到了Jay Gopalakrishnan文章的启发。

2. 搜索

在此类别中，我们将搜索整个文档。我们可以为应用程序用户构建搜索体验。借助不同的工具，我们将搜索功能集成到 Elasticsearch 中。诸如搜索 UI和搜索 API之类的工具用于执行搜索。

以下是正在运行的两个主要进程。

查询

Elasticsearch 提供基于领域特定查询 (DSL) 的查询功能。它灵活强大，可用于构建搜索查询。它支持基于各种条件的从简单到复杂的搜索。您可以添加匹配特定词语、短语、值范围，甚至是复杂布尔条件等条件。

分布式搜索

当收到搜索请求时，Elasticsearch 会将查询分发到相关的分片。这些分片分布在集群中。每个分片独立地针对其本地数据运行查询并返回结果。协调节点会将来自所有分片的结果合并。合并后的数据将发送给用户。

3. 结果

在此类别中，您可以使用各种工具来改进和优化搜索结果。例如，您可以使用搜索 API 搜索字段和搜索 API 排名提升等工具。您可以在这里查看更多此类工具。

可以通过以下步骤优化结果：

查询解析：Elasticsearch 将用户的查询解析为不同的单独术语、阶段和逻辑运算符。
查询执行：Elasticsearch 对已索引的数据执行已解析的查询，并检索匹配的文档。
相关性评分：Elasticsearch 根据词频、字段长度等不同因素计算每个文档的相关性得分。
排序：Elasticsearch 支持根据相关性得分、文档时间戳、数值字段或自定义条件进行排序。
分页：排序后的数据将进行分页，以便向用户返回部分搜索结果。

结论

Elasticsearch 是一款功能强大的工具，能够帮助您高效快速地搜索海量数据。它能够提供近乎实时的搜索体验，数据在建立索引后即可供用户搜索。除了搜索功能外，它还提供其他诸多特性，例如数据聚合、排序、过滤、高亮显示、自动建议等等。在 Elastic Stack 中使用 Elasticsearch，您可以获得诸多优势，例如利用 Kibaan 进行数据可视化，以及利用 Logstash 进行数据采集和处理。

总而言之，它提供了一个强大的分布式搜索和分析解决方案。希望本文能帮助您理解 Elasticsearch 的工作原理。感谢阅读。

文章来源：https://dev.to/documatic/how-does-elasticsearch-works-2ffl

菜单

分享

Elasticsearch 的工作原理是什么？

Elasticsearch 的工作原理是什么？

介绍

什么是 Elasticsearch？

使用 Elasticsearch 的好处

1. 文件

指数

倒排索引

2. 搜索

查询

分布式搜索

3. 结果

结论

系统设计面试中的 19 种微服务模式

使用 React 和 AWS Amplify 实现无服务器架构第三部分：跟踪应用使用情况

模型-视图-控制器（MVC）模式到底是什么？DEV 全球项目展示挑战赛，由 Mux 主办：快来展示你的项目吧！

我在两年内从 PHP 开发人员晋升为高级 C#/.NET 开发人员。

了解 Docker：第 12 部分 – 传递构建参数

Yarn 和第三方 NPM 客户端的黑暗未来 DEV 的全球展示与讲述挑战赛，由 Mux 呈现：展示你的项目！

CSS DEV 的全球展示挑战赛“响应式字体”由 Mux 呈现：展示你的项目！

我是如何以学生开发者的身份免费获得 Tabnine Pro 的，你也可以！

五大顶级JS框架

从 Rector PHP 开始：利用自动化改进您的 PHP 代码