使用 Elasticsearch Python SDK 查询 Easysearch
yuyutoo 2024-10-28 20:21 3 浏览 0 评论
随着数据分析需求的不断增长,高效查询和分析大数据集变得越来越重要。Easysearch 作为一种强大的国产化搜索和分析引擎,同时作为 Elasticsearch 国产替代方案,支持原生 DSL 查询语法和 SQL 查询,确保原业务代码无需调整即可无缝迁移。Easysearch 兼容 ES 7.x 现有的 SDK 和索引存储格式,支持冷热架构和索引生命周期管理,为用户提供了全面的数据处理解决方案。本文将详细介绍如何使用 ES 7.x Python SDK 与 Easysearch 进行交互,包括安装、连接、数据操作和查询等方面。
1. 安装 Elasticsearch Python 客户端
要使用 Elasticsearch Python 客户端,首先需要通过pip进行安装。打开终端或命令提示符,并运行以下命令:
pip install elasticsearch==7.13.1
如果使用默认版本安装,会安装 8.x 的依赖,可能会报错 elasticsearch.UnsupportedProductError: The client noticed that the server is not Elasticsearch and we do not support this unknown product.
由于 Elasticsearch 7.10.2 以后变更了许可模式,引入了 Server Side Public License (SSPL) 和 Elastic License,很多基于 Elasticsearch 7.10.2 分支出来的搜索引擎需要使用 7.x 版本的 SDK 和 agent,比如 Beats 全家桶。
这是一个获取集群信息的 demo,使用es.cluster.health() 调用 Elasticsearch 集群的健康检查 API,返回集群的健康状态。
由于使用了自签名证书,所以在初始化时加上 verify_certs=False 参数,同时使用 warnings.filterwarnings("ignore") 设置 Python 的警告系统,忽略所有发出的警告。这在生产代码中通常不推荐,因为它会隐藏潜在的问题,但在开发或测试环境中,如果警告信息太多干扰调试,可能会暂时使用。
import urllib3
import elasticsearch
from elasticsearch import Elasticsearch
import warnings
from pprint import pprint
# 禁用所有警告
warnings.filterwarnings("ignore")
print(elasticsearch.VERSION)
# 禁用警告
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
url = "https://ip:9200/"
user_passwd = ('user', 'passwd')
# 建立连接
es = Elasticsearch(
[url],
http_auth=user_passwd,
verify_certs=False,
)
# 检查集群健康状态
health = es.cluster.health()
pprint(health)
2. 准备示例数据
在进行查询之前,我们需要在 Easysearch 中创建一些示例数据。
# 定义示例数据
sample_data = [
{"index": {"_index": "my_index"}},
{"field": "value1", "another_field": 10},
{"index": {"_index": "my_index"}},
{"field": "value2", "another_field": 20},
{"index": {"_index": "my_index"}},
{"field": "value3", "another_field": 30},
{"index": {"_index": "my_index"}},
{"field": "bulk_value1", "another_field": 100},
{"index": {"_index": "my_index"}},
{"field": "bulk_value2", "another_field": 200},
{"index": {"_index": "my_index"}},
{"field": "bulk_value3", "another_field": 300}
]
# 批量插入示例数据
response = es.bulk(body=sample_data)
print(response)
3. 使用 REST API 进行查询
REST API 是与 Easysearch 进行通信的常用方式。通过 REST API,开发者可以发送 HTTP 请求来执行各种操作,包括索引文档、搜索数据等。以下示例展示了如何在 Python 中执行 REST 查询。
由于是 REST API,我们可以先使用 Postman 进行测试。
我们可以看到 HTTP 端点可以正常返回,然后就可以使用编程方式进行访问了:
import requests
from requests.auth import HTTPBasicAuth
from pprint import pprint
url = "https://ip:9200/"
user_passwd = ('user', 'passwd')
# 构建查询参数
query = {
"query": {
"match": {
"field": "value1"
}
}
}
dsl = f"{url}/my_index/_search"
response = requests.get(dsl, json=query, auth=HTTPBasicAuth(*user_passwd), verify=False)
pprint(response.json())
# 处理查询结果
if response.status_code == 200:
results = response.json()
for hit in results['hits']['hits']:
print(hit)
else:
print(f"Error: {response.status_code}")
4. 通过 DSL 对索引数据进行增删改查
DSL(Domain-Specific Language)是 Easysearch 的原生查询语言,允许用户构建复杂的查询。以下是一些示例:
# 构建 DSL 查询
dsl_query = {
"query": {
"match": {
"field": "value1"
}
}
}
# 执行 DSL 查询
response = es.search(index="my_index", body=dsl_query)
results = response.get("hits")
# 处理查询结果
if results:
for hit in results['hits']:
print(hit)
else:
print(f"Error: {response.status_code}")
插入数据
如果不指定 document ID,那么随机生成一个 ID 并写入。
doc = {"field": "value4", "another_field": 9999}
response = es.index(index="my_index", body=doc)
print(response)
更新数据
指定 ID 为 1 来手动更新索引:
doc = {"field": "value4", "another_field": 9999}
response = es.index(index="my_index", body=doc, id=1)
print(response)
更新单条数据
# 更新单条数据
update_body = {"doc": {"another_field": 50}}
response = es.update(index="my_index", id="1", body=update_body)
pprint(response)
删除数据
# 删除单条数据
response = es.delete(index="my_index", id="1")
pprint(response)
5. 索引数据 SQL 查询
创建客户端实例后,我们可以使用 sql 方法执行 SQL 查询。以下示例展示了如何执行一个简单的 SELECT 查询。
# 执行 SQL 查询
query_sql = {
"query": "SELECT * FROM my_index"
}
res = es.sql.query(body=query_sql)
pprint(res)
6. 索引数据批量操作
Bulk API 允许用户一次性对多个文档进行创建、更新或删除操作,极大提高了操作效率。以下是一些示例:
批量插入数据
# 定义批量插入数据
bulk_data = [
{"index": {"_index": "my_index"}},
{"field": "bulk_value1", "another_field": 100},
{"index": {"_index": "my_index"}},
{"field": "bulk_value2", "another_field": 200},
{"index": {"_index": "my_index"}},
{"field": "bulk_value3", "another_field": 300}
]
# 执行批量插入操作
response = es.bulk(body=bulk_data)
pprint(response)
批量更新数据
# 定义批量更新数据
bulk_update_data = [
{"update": {"_id": "1", "_index": "my_index"}},
{"doc": {"another_field": 110}},
{"update": {"_id": "2", "_index": "my_index"}},
{"doc": {"another_field": 220}}
]
# 执行批量更新操作
response = es.bulk(body=bulk_update_data)
pprint(response)
批量删除数据
# 定义批量删除数据
bulk_delete_data = [
{"delete": {"_id": "1", "_index": "my_index"}},
{"delete": {"_id": "2", "_index": "my_index"}}
]
# 执行批量删除操作
response = es.bulk(body=bulk_delete_data)
print(response)
7. 索引级别的操作
接下来,介绍索引创建、删除和检查索引是否存在操作。以下是一些示例:
创建索引
# 创建索引
index_body = {
"settings": {
"number_of_shards": 1,
"number_of_replicas": 0
},
"mappings": {
"properties": {
"field": {"type": "text"},
"another_field": {"type": "integer"}
}
}
}
response = es.indices.create(index="new_index", body=index_body)
pprint(response)
删除索引
# 删除索引
response = es.indices.delete(index="new_index")
pprint(response)
检查索引是否存在
# 检查索引是否存在
response = es.indices.exists(index="new_index")
pprint(response)
8. 总结
Easysearch 虽然没有专门的 Python SDK,但完全兼容 ES 7.x 的 Python SDK 客户端,这为开发者提供了极大的便利。通过使用 ES 7.x Python SDK,开发者可以轻松地使用 DSL 和 SQL 语法对 Easysearch 进行查询和数据操作。Easysearch 主要优势包括:
- 兼容性强:无需修改现有代码,即可从 ES 迁移到 Easysearch。
- 功能全面:支持 DSL 查询、SQL 查询、批量操作等高级功能。
- 易于使用:提供简洁明了的 API,降低学习成本。
- 高效性能:批量操作 API 大幅提高数据处理效率。
Easysearch 结合 ES 7.x Python SDK 的强大功能,为开发者提供了一个高效、灵活的大数据处理平台。无论是执行简单的 SQL 查询,还是构建复杂的 DSL 查询,都能满足各种数据分析需求。如果您正在寻找一个强大的搜索和分析解决方案,Easysearch 绝对值得一试。它不仅能帮助您更高效地处理和分析大数据集,还能为数据驱动的决策提供有力支持。
作者:韩旭,亚马逊云技术支持,亚马逊云科技技领云博主,目前专注于云计算开发和大数据领域。
关于 Easysearch 有奖征文活动
无论你是 Easysearch 的老用户,还是第一次听说这个名字,只要你对 INFINI Labs 旗下的 Easysearch 产品感兴趣,或者是希望了解 Easysearch,都可以参加这次活动。
详情查看:Easysearch 征文活动
相关推荐
- Java开发中如何优雅地避免OOM(OutOfMemoryError)
-
Java开发中如何优雅地避免OOM(OutOfMemoryError)在这个信息化高速发展的时代,内存就像程序员手中的笔,缺了它就什么都写不出来。而OOM(OutOfMemoryError)就像是横在...
- 常见的JVM调优方法和步骤
-
1、内存调优堆内存设置:通过-Xms和-Xmx参数调整初始和最大堆内存大小-Xms:初始堆大小(如-Xms512M)-Xmx:最大堆大小(如-Xmx2048M)调整新生代和老年代的比例...
- Java中9种常见的CMS GC问题分析与解决(一)
-
目前,互联网上Java的...
- JDK21新特性:Prepare to Disallow the Dynamic Loading of Agents
-
PreparetoDisallowtheDynamicLoadingofAgentsJEP451:准备禁止动态加载代理摘要...
- Java程序GC垃圾回收机制优化指南
-
Java程序GC垃圾回收机制优化指南作为一个Java开发者,我们经常会在任务管理器里看到Java进程占用内存不断增长,然后突然下降的现象。这其实就是在Java虚拟机中运行的垃圾回收(GC)机制在起作用...
- Java Java命令学习系列(一)——Jps
-
jps位于jdk的bin目录下,其作用是显示当前系统的java进程情况,及其id号。jps相当于Solaris进程工具ps。不象”pgrepjava”或”ps-efgrepjava”,jps...
- 面试题专题:头条一面参考答案(003)
-
前两篇文章也都是介绍头条一面的内容及参考答案...
- Java JVM原理与性能调优:从基础到高级应用
-
一、JVM基础架构与内存模型1.1JVM整体架构概览Java虚拟机(JVM)是Java程序运行的基石,它由以下几个核心子系统组成:...
- 死锁攻防战:阿里架构师教你用3种核武器杜绝程序僵死
-
从线程转储分析到银行家算法,彻底掌握大厂必考的死锁解决方案以下是为Java死锁问题设计的结构化技术解析方案,包含代码级解决方案与高频追问应对策略:...
- Java 1.8 虚拟机内存分布详解
-
Java1.8虚拟机内存分布详解Java1.8的JVM内存布局相比早期版本有显著变化(如永久代被元空间取代)。以下是其核心内存区域的划分、作用及配置参数:一、JVM内存整体结构...
- Java 多线程开发难题?这篇文章给你答案!
-
作为互联网大厂的后端开发人员,在Java多线程开发过程中,必然会面临诸多复杂且具有挑战性的问题。在高并发场景下,各类潜在问题对系统的稳定性与性能产生严重影响,本文将深入探讨这些问题,并提供全面且有...
- 软件性能调优全攻略:从瓶颈定位到工具应用
-
性能调优是软件测试中的重要环节,旨在提高系统的响应时间、吞吐量、并发能力、资源利用率,并降低系统崩溃或卡顿的风险。通常,性能调优涉及发现性能瓶颈、分析问题根因、优化代码和系统配置等步骤,调优之前需要先...
- JVM性能优化实战技巧
-
JVM性能优化实战技巧在现代企业级应用开发中,JavaVirtualMachine(JVM)作为承载Java应用程序的核心引擎,其性能直接决定了系统的响应速度、吞吐量以及资源利用率。因此,掌握一些...
- JVM 深度解析:运行时数据区域、分代回收与垃圾回收机制全攻略
-
共同学习,有错欢迎指出。JVM运行时数据区域1.程序计数器程序计数器是一块较小的内存空间,可看作当前线程所执行的字节码的行号指示器。在虚拟机概念模型里,字节码解释器通过改变这个计数器的值选取下一条...
- JVM内存管理详解与调优实战
-
JVM内存管理详解与调优实战Java虚拟机(JVM)作为Java程序运行的核心组件,其内存管理机制直接影响着应用程序的性能表现。今天,咱们就来一场既严肃又有趣的JVM内存管理之旅,看看这个“幕后英雄”...
你 发表评论:
欢迎- 一周热门
-
-
前端面试:iframe 的优缺点? iframe有那些缺点
-
带斜线的表头制作好了,如何填充内容?这几种方法你更喜欢哪个?
-
漫学笔记之PHP.ini常用的配置信息
-
其实模版网站在开发工作中很重要,推荐几个参考站给大家
-
推荐7个模板代码和其他游戏源码下载的网址
-
[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗
-
正在学习使用python搭建自动化测试框架?这个系统包你可能会用到
-
织梦(Dedecms)建站教程 织梦建站详细步骤
-
【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)
-
2024PHP在线客服系统源码+完全开源 带详细搭建教程
-
- 最近发表
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)