经典案例

  • Home
  • 亚马逊 OpenSearch H2 2023 回顾 大数据博客

亚马逊 OpenSearch H2 2023 回顾 大数据博客

Amazon OpenSearch 2023 下半年度回顾

重要要点

在2023年的下半年,Amazon OpenSearch Service推出了两个新的版本:29和211,这些版本引入了更新的搜索功能、机器学习ML搜索功能、迁移及服务的操作侧功能。此外,服务还推出了与Amazon S3和Amazon DynamoDB的零ETL整合,极大地简化了数据分析的过程,并进一步增强了用户体验,包括成本效益解决方案及安全分析功能。

2023年对于 Amazon OpenSearch Service 来说是一个繁忙的一年!想了解2023年上半年OpenSearch Service推出的功能,请查看我们的 回顾文章。

在下半年,OpenSearch Service增加了对两个新版本 OpenSearch 的支持:29和211。这两个版本为搜索领域、机器学习搜索领域、迁移和服务的操作侧增添了全新特性。

通过与 Amazon Simple Storage Service (Amazon S3) 的零ETL整合,您现在可以使用OpenSearch Service直接分析存放于数据湖中的数据,并建立仪表板而不需移动数据。

OpenSearch Service还通过 Amazon DynamoDB 的DynamoDB插件为 Amazon OpenSearch Ingestion 提供了新的零ETL整合方案。OpenSearch Ingestion能够自行启动并持续传输来自DynamoDB的数据流。

OpenSearch Serverless宣布 Vector Engine for Amazon OpenSearch Serverless 的正式发布,并增加了其他功能以改善时间序列集合的管理及开发环境的成本控制,快速扩展资源以适应工作负载需求。

在这篇文章中,我们将探讨OpenSearch Service的新增功能,帮助您的业务提升搜索、可观察性、安全分析及数据迁移效率。

用OpenSearch Service构建具成本效益的解决方案

借助Amazon S3的零ETL整合,OpenSearch Service让您可以就地查询数据,从而节省存储成本。数据移动是一项昂贵的操作,因为需要在不同的数据存储之间复制数据,这会增加您数据的存储需求并推高成本。此外,数据移动还带来了管理管道的开销,这是将数据从一个来源迁移到另一个目的地所必需的。

西游加速器安卓app

OpenSearch Service还为数据节点新增了Im4gn和OR1实例类型,以助力您的基础架构开支进一步优化。Im4gn实例提供最大30TB的非易失性内存NVMe固态硬盘SSD,可提供密集的存储和更良好的性能。OR1实例使用段复制和远程备份存储,大幅提高了对于索引密集型工作负载的吞吐量。

从DynamoDB到OpenSearch Service的零ETL整合

在2023年11月,DynamoDB和OpenSearch Ingestion推出了OpenSearch Service的零ETL整合。OpenSearch Service域和OpenSearch Serverless集合提供了先进的搜索能力,如全文和向量搜索,现在您只需在 AWS管理控制台 上点击几下,即可无缝加载和同步来自DynamoDB的数据到OpenSearch Service,消除了编写自定义代码以提取、转换和加载数据的需求。

直接查询Amazon S3数据的零ETL功能,目前处于预览阶段

OpenSearch Service宣布了一种新的方法,让您能够直接查询Amazon S3及S3数据湖中的操作日志,而无需切换工具来分析操作数据。以往,您需要将数据从Amazon S3复制到OpenSearch Service中,以利用其丰富的分析和可视化功能来理解数据、识别异常以及检测潜在的威胁。

不过,持续在服务之间复制数据可能会造成高昂的成本并需进行大量的操作工作。使用OpenSearch Service的直接查询功能,您可以直接访问存储在Amazon S3中的操作日志数据,而无需移动数据。现在,您可以对数据进行复杂的查询和可视化,而不需要进行数据移动。

在OpenSearch Service中支持Im4gn实例

Im4gn实例可针对管理大数据集并需要每个vCPU高存储密度的工作负载进行优化。Im4gn实例的大小包括large至16xlarge,NVMe SSD磁碟最大可达30TB。Im4gn实例是基于 AWS Nitro System SSD,提供高吞吐量、低延迟的磁碟访问,以达到最佳性能。OpenSearch Service的Im4gn实例支持所有OpenSearch版本及Elasticsearch版本79及以上。更多细节请参查 Amazon OpenSearch Service支持的实例类型。

推出OR1,适合索引重负载的OpenSearch优化实例系列

在2023年11月,OpenSearch Service推出了 OR1,OpenSearch优化实例系列,在内部基准测试中提供30的价格性能提高,并使用Amazon S3提供11个9的耐用性。使用OR1实例的域将使用 Amazon Elastic Block Store (Amazon EBS) 卷作为主要存储,数据在到达时与Amazon S3同步复制。OR1实例利用OpenSearch的 段复制特性 使副本分片可以直接从Amazon S3读取数据,避免了在主分片和副本分片中进行索引的资源成本。此外,OR1实例系列还支持在故障事件中自动数据恢复。有关OR1实例类型选项的更多信息,请参见 当前一代实例类型。

使用安全分析功能强化您的业务能力

OpenSearch Service中的安全分析插件支持即用型的 预打包日志类型 并提供安全检测规则SIGMA规则以检测潜在的安全事件。

在OpenSearch 29中,安全分析插件新增了对客户日志类型和原生支持 开放网络安全架构框架OCSF 数据格式的支持。通过这一新支持,您可以构建检测器,利用存储在 Amazon Security Lake 中的OCSF数据来分析安全结果并减轻潜在事件的风险。同时,安全分析插件还新增了创建自定义日志类型和检测规则的可能性。

构建以机器学习驱动的搜索解决方案

在2023年,OpenSearch Service致力于消除构建下一代搜索应用程序所需的繁重工作。凭借搜索管道、搜索处理器及AI/ML连接器等功能,OpenSearch Service使基于神经搜索、混合搜索及个性化结果的搜索应用程序快速开发成为可能。此外,针对kNN插件的增强改善了向量数据的存储和检索。新推出的OpenSearch Service选项插件实现了与其他语言分析器及 Amazon Personalize 的无缝集成。

搜索管道

搜索管道 提供了增强搜索查询和改善搜索结果的新方法。您定义一个搜索管道,然后将查询发送到它。在定义搜索管道时,您可以指定 处理器 来转换和增强您的查询,并重新排名结果。预建的查询处理器包括日期转换、聚合、字符串操作和数据类型转换。搜索管道中的结果处理器会及时拦截和调整结果,然后再呈现给下一个阶段。管道的请求和响应处理都在协调节点上执行,因此不涉及分片级处理。

选项插件

OpenSearch Service允许您将预安装的 可选OpenSearch插件 与您的域关联。可选插件包与特定的OpenSearch版本兼容,只能与该版本的域关联。可用的插件列表可在OpenSearch Service控制台的Packages页面上找到。可选插件包括Amazon Personalize插件,可将OpenSearch Service与Amazon Personalize集成,以及新的语言分析器,如Nori、Sudachi、STConvert和Pinyin。

新增语言分析器的支持

OpenSearch Service新增了四个新的 语言分析器插件:Nori韩语、Sudachi日本语、Pinyin中文和STConvert分析中文。这些插件作为可选插件可用于所有AWS区域,可以与运行任何OpenSearch版本的域关联。您可以使用OpenSearch Service控制台上的Packages页面将这些插件与您的域关联,或使用关联包API。

神经搜索功能

从OpenSearch 29版本开始,神经搜索 功能正式可用。神经搜索允许您与使用模型服务框架托管的ML模型集成。在搜索时使用神经查询时,神经搜索能够将查询文本转换为向量嵌入,并使用向量搜索比较查询和文档嵌入,返回最接近的结果。在数据接收过程中,神经搜索将文档文本转换为向量嵌入,同时在向量索引中索引该文本和其向量嵌入。

与Amazon Personalize的整合

OpenSearch Service为OpenSearch版本29或更高版本推出了一个可选插件,以便与Amazon Personalize集成。OpenSearch Service的Amazon Personalize搜索排名插件使您能够利用Amazon Personalize提供的深度学习能力来提升您的网站和应用程序搜索的用户参与度和转化率。作为可选插件,该 包与OpenSearch版本29或更高版本兼容,且只能与该版本的域关联。

使用OpenSearch的kNN FAISS进行高效查询过滤

OpenSearch Service在29版本及之后引入了基于OpenSearch的kNN FAISS进行高效查询过滤功能。OpenSearch的 高效向量查询过滤器 能够智能评估最佳过滤策略,根据近邻搜索ANN做预过滤,或使用kNN进行精确过滤,以确定提供准确且低延迟的向量搜索查询的最佳策略。在早期的OpenSearch版本中,FAISS引擎的向量查询使用后过滤技术,支持大规模的过滤查询,但可能返回的结果少于请求的“k”数量。高效的向量查询过滤器 提供低延迟且准确的结果,让您可以在向量和词法技术之间使用混合搜索。

位元组量化向量

借助于新引入的 位元组量化向量 功能,您可以将内存需求减少四倍,显著降低搜索延迟,且质量损失最小。通过该功能,通常使用的32位浮点数向量被量化或转换为8位有符号整数。对于许多应用来说,现有的浮点向量数据可以在质量损失较小的情况下进行量化。通过基准测试对比,使用位元组向量而非32位浮点数,将大幅减少存储和内存使用,并改善索引吞吐量,降低查询延迟。一项内部 基准测试 显示,针对glove200angular数据集的存储使用量减少了78,RAM使用量减少了59。针对角度数据集的召回值也低于欧几里德数据集。

AI/ML连接器

OpenSearch版本29及之后的版本支持与 承托于AWS服务或第三方平台上的ML模型的整合。这使系统管理员和数据科学家能够在OpenSearch Service域外运行ML工作负载。ML连接器配备了一组支持的ML蓝图,这些模板定义了向特定连接器发送API请求时需要提供的一系列参数。OpenSearch Service为多个平台提供连接器,如 Amazon SageMaker、 Amazon Bedrock、 OpenAI ChatGPT 和 Cohere。

OpenSearch Service控制台的整合

在OpenSearch版本29版本及其后的开放式功能中,控制台添加了一项新的整合功能。整合功能为您提供了 AWS CloudFormation 模板,以构建连接到您放置于SageMaker或Amazon Bedrock上托管的ML模型的 语义搜索 用例。CloudFormation模板生成模型端点并将模型ID注册到您在模板中提供的OpenSearch Service域。

混合搜索及范围标准化

标准化处理器 和 混合查询 建立在2023年早期推出的两项功能之上神经搜索 和 搜索管道。由于词法查询和语义查询在不同尺度上返回相关得分,因此混合搜索查询的调校变得困难。

亚马逊 OpenSearch H2 2023 回顾 大数据博客

OpenSearch Service 211现在支持混合搜索的组合和标准化处理器。您现在可以执行混合搜索查询,结合词法和自然语言基于kNN的向量搜索。OpenSearch Service还支持使用多种评分组合和标准化技术调整混合搜索结果以获得最佳相关性。

通过Amazon Bedrock实现多模态搜索

OpenSearch Service 211推出了对多模态搜索的支持,该功能允许您使用多模态嵌入模型查询文本和图像数据。要生成向量

发表评论