如何用Python操作Prometheus？监控数据采集-Python教程-PHP中文网

如何用Python操作Prometheus？监控数据采集

星夢妙者

发布： 2025-07-03 15:57:01

原创

477人浏览过

python应用暴露指标给prometheus的方法主要有两种：一是使用prometheus_client库定义指标类型，二是通过http服务暴露数据。首先，利用prometheus_client库可以定义counter、gauge、histogram和summary四种核心指标类型；其次，调用start_http_server启动http服务器后，指标会通过/metrics路径对外暴露，供prometheus抓取。此外，在定义指标时需注意命名规范与标签设计，避免高基数问题导致性能瓶颈。最后，若需从prometheus查询数据，可通过requests库调用其api接口实现自动化分析或集成到其他系统中。

如何用Python操作Prometheus？监控数据采集

用Python操作Prometheus，主要就是两种路子：要么让你的Python应用自己“说话”，把它的运行状态变成Prometheus能懂的指标，让Prometheus来抓取；要么就是Python去Prometheus那里“问话”，把已经存好的监控数据拿出来分析或者做别的处理。对于监控数据采集这个事儿，更多的是指前者，也就是让Python应用成为一个指标生产者。

解决方案

这事儿说起来，核心就是利用Python的生态来跟Prometheus体系打交道。

如果你想让Python应用的数据被Prometheus采集走，那最直接、最官方的办法就是用prometheus_client库。它提供了各种指标类型（Counter, Gauge, Histogram, Summary），你可以在代码里简单几行就把CPU使用率、请求耗时、错误次数这些关键数据暴露出来。Prometheus服务器会定期来你的应用暴露的/metrics路径抓取这些数据。这就像给你的应用装了个小广播，不停地播报自己的健康状况和工作表现。

立即学习“Python免费学习笔记（深入）”；

from prometheus_client import start_http_server, Counter, Gauge, Histogram
import random
import time

# 定义一个计数器，用于统计请求总数
REQUEST_COUNT = Counter('my_app_requests_total', 'Total number of requests to my application.')
# 定义一个计量器，用于实时显示当前处理的请求数
IN_PROGRESS_REQUESTS = Gauge('my_app_in_progress_requests', 'Number of requests currently being processed.')
# 定义一个直方图，用于统计请求耗时
REQUEST_LATENCY = Histogram('my_app_request_latency_seconds', 'Request latency in seconds.')

def process_request():
    REQUEST_COUNT.inc() # 每次请求增加计数
    IN_PROGRESS_REQUESTS.inc() # 请求开始时增加
    with REQUEST_LATENCY.time(): # 自动计算代码块执行时间并记录到直方图
        # 模拟一些工作负载
        time.sleep(random.uniform(0.01, 0.5))
    IN_PROGRESS_REQUESTS.dec() # 请求结束时减少

if __name__ == '__main__':
    # 启动一个HTTP服务器，暴露指标在端口8000
    start_http_server(8000)
    print("Prometheus metrics server started on port 8000.")
    while True:
        # 模拟持续的请求处理
        process_request()
        time.sleep(0.1)

登录后复制

至于从Prometheus拉取数据，Python就更简单了，直接用requests库去调Prometheus的HTTP API就行。Prometheus提供了/api/v1/query和/api/v1/query_range这样的接口，你把PromQL查询语句作为参数传过去，它就会返回JSON格式的数据。这对于做自动化报告、集成到其他系统或者进行深度分析都非常有用。

import requests
import json

prometheus_url = "http://localhost:9090" # 你的Prometheus服务器地址

def query_prometheus(promql_query):
    query_url = f"{prometheus_url}/api/v1/query"
    params = {'query': promql_query}
    try:
        response = requests.get(query_url, params=params, timeout=5)
        response.raise_for_status() # 检查HTTP错误
        return response.json()
    except requests.exceptions.RequestException as e:
        print(f"查询Prometheus失败: {e}")
        return None

if __name__ == '__main__':
    # 查询CPU使用率
    cpu_usage_query = 'rate(node_cpu_seconds_total{mode="idle"}[5m])'
    result = query_prometheus(cpu_usage_query)
    if result and result['status'] == 'success':
        # 打印查询结果，通常是向量类型
        for item in result['data']['result']:
            metric_labels = item['metric']
            value_timestamp, value = item['value']
            print(f"Metric: {metric_labels}, Value: {value} at {value_timestamp}")
    else:
        print("查询未成功或无数据。")

登录后复制

这两种方式，一个是被动地提供数据，一个是主动地获取数据，构成了Python与Prometheus交互的主要骨架。

Python如何将应用程序指标暴露给Prometheus？深入实践与最佳命名

说起让Python应用“说话”，prometheus_client库简直是神器。它不仅仅是提供了一个简单的计数器，而是抽象了监控领域里最常见的几种指标类型，让你能更精准地描述应用状态。

Counter，这玩意儿就是个只增不减的计数器。比如你统计总请求数、错误发生次数，用它就对了。它能告诉你某个事件一共发生了多少次。

接着是Gauge，这个就灵活多了，可以增也可以减，还能直接设置一个值。它适合表示那些有瞬时状态的指标，比如当前队列里的消息数量、内存使用率、在线用户数。我通常会用它来监控那些波动性比较大的实时数据。

然后是Histogram，直方图。这个有点意思，它不仅记录了值的总和和数量，更重要的是，它能把数据分布到预设的桶（buckets）里。比如你想知道请求耗时是集中在100ms以内，还是更多在500ms以上，直方图就能帮你搞定。它能提供分位数（percentiles）的估算，这对于理解延迟分布至关重要，比单纯的平均值更有洞察力。

最后是Summary，总结器。它和直方图有点像，也提供分位数，但它的计算方式不同，是直接在客户端进行采样的，而不是在服务端基于桶来估算。对于需要非常精确分位数的场景，Summary可能更合适，但它在客户端的资源消耗可能会略高。对我个人而言，大多数时候Histogram已经足够满足需求，而且在Prometheus服务端聚合起来也更方便。

在实际使用中，指标的命名和标签（labels）设计是门大学问。一个好的指标名应该清晰、简洁，遵循Prometheus的命名规范（例如，_total表示计数器，_seconds表示时间单位）。标签更是重中之重，它们能让你对数据进行多维度的切片和聚合。比如，一个请求计数器可以加上endpoint、method、status等标签，这样你就能看到不同API接口、不同HTTP方法、不同响应状态的请求量。但切记，标签的数量和值的种类（高基数问题）是Prometheus性能的潜在杀手，每个独特的标签组合都会创建一个新的时间序列。所以，别把用户ID、session ID这种高基数的数据直接作为标签，那会让你Prometheus的存储爆炸。我的经验是，能用聚合解决的问题，就尽量少用标签。

暴露指标的服务端，start_http_server启动后，默认会在/metrics路径提供数据。Prometheus服务器配置好抓取目标（scrape target）后，就会定期来这个路径拉取数据。整个过程非常自动化，你只需要关注你的应用逻辑和指标定义就行。

使用Python查询Prometheus监控数据的常见场景与技巧？

用Python从Prometheus拉数据，这事儿的价值可不小。它不仅仅是把数据打印出来看看，更多的是为了自动化和集成。我平时用Python查询Prometheus，主要有几个场景：

自动化报告与仪表盘： 虽然Grafana很强大，但有时候我需要生成一些定制化的报告，比如每周性能摘要，或者给非技术人员看的简报。Python脚本可以定时查询Prometheus，然后把数据整理成Excel、PDF或者发送邮件。这比手动截图或者导出CSV方便多了。
自定义告警逻辑： PromQL本身就能定义告警规则，但如果告警逻辑非常复杂，需要结合外部数据源，或者需要更复杂的通知机制（比如调用企业

以上就是如何用Python操作Prometheus？监控数据采集的详细内容，更多请关注php中文网其它相关文章！