news 2026/5/27 4:05:25

4.1 Elasticsearch-桶 + 指标 + 管道 聚合三位一体模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
4.1 Elasticsearch-桶 + 指标 + 管道 聚合三位一体模型


4.1 Elasticsearch-桶 + 指标 + 管道 聚合三位一体模型

在 ES5.x 之后,官方把“聚合(Aggregation)”正式拆成三条主线:Bucket、Metric、Pipeline。
这三者不是简单的“分类”,而是可组合、可嵌套、可级联的“三位一体”执行模型:
Bucket 负责“分堆”,Metric 负责“量堆”,Pipeline 负责“再算一遍堆与堆之间的关系”。
理解它们的执行顺序、内存边界和序列化规则,是写出高性能聚合语句的第一步。


  1. 三条主线的职责与语法骨架

1.1 Bucket(桶)
关键词:terms/range/date_histogram/filters/geohash_grid
职责:把文档集合按某个维度切成若干子集,每个子集就是一个桶。
返回格式:

"buckets" : [ { "key" : "iphone", "doc_count" : 1500 }, { "key" : "samsung", "doc_count" : 1200 } ]

桶本身只带keydoc_count,其余字段由子聚合填充。

1.2 Metric(指标)
关键词:sum/avg/max/min/value_count/stats/extended_stats/cardinality/percentiles
职责:对“落在当前桶内的文档”做数值统计,返回标量或一组标量。
位置:必须挂在某个 Bucket 或 Pipeline 之下,不能顶层单独出现。
示例:

"aggs": { "tm": { "terms": { "field": "brand" }, "aggs": { "total_sales": { "sum": { "field": "qty" } } } } }

1.3 Pipeline(管道)
关键词:bucket_script/bucket_selector/moving_avg/derivative/cumulative_sum/avg_bucket/max_bucket
职责:对“兄弟或父级聚合已经算出来的数值结果”做二次加工,不再接触原始文档。
执行阶段:Coordinator 节点,在 Shard 返回最终结果之后、把结果发往客户端之前。
典型场景:

  • 计算同比:derivativedate_histogramsum做差分;
  • 过滤噪音:bucket_selectordoc_count<10的桶整行删掉;
  • 归一化:bucket_script把销售额除以总销售额得到占比。

  1. 执行顺序与内存边界

ES 的聚合请求在 Coordinator 节点拆成两阶段:

阶段 A:Shard 级
每个 Shard 独立建桶、跑 Metric,只把“局部桶”序列化后返回给 Coordinator。
内存消耗 ≈ 桶数 × 每桶子聚合数 × 预估精度(例如termsshard_size)。
此阶段 Pipeline 不参与。

阶段 B:Coordinator 级

  1. 把各 Shard 的局部桶做归并(reduce),得到全局桶;
  2. 对全局桶跑 Pipeline 聚合;
  3. 把最终桶树序列化为 JSON。

Pipeline 之所以“不回流 Shard”,是因为它只依赖“已经算好的数字”,不需要再访问倒排索引或正排数据。
这也解释了为什么bucket_script里只能引用兄弟 Metric 的路径,而不能写"field": "qty"——脚本运行的时候早就没有_source了。


  1. 路径语法与作用域

Pipeline 通过buckets_path引用上游结果,语法像 Unix 文件路径:

"buckets_path": { "sales": "total_sales", // 同级 Metric "cost": "parent>cost_sum", // 父级聚合下的 Metric "last_day": "_count" // 关键字,等价 doc_count }

作用域规则:

  • 只能引用“同一桶树分支”上已经出现过的 Metric;
  • 不能跨兄弟分支(除非用sibling类型 Pipeline);
  • 不能引用嵌套更深层的 Metric,除非用>显式指明路径。

  1. 三位一体组合套路

套路 1:桶 + 指标
最常用,先分桶再统计。

GET order/_search { "size": 0, "aggs": { "g": { "date_histogram": { "field": "order_date", "calendar_interval": "1d" }, "aggs": { "revenue": { "sum": { "field": "amount" } } } } } }

套路 2:桶 + 指标 + Pipeline(同级加工)
把每日营收再做一次 7 天移动平均,平滑曲线。

"aggs": { "g": { "date_histogram": { "field": "order_date", "calendar_interval": "1d" }, "aggs": { "revenue": { "sum": { "field": "amount" } }, "smooth": { "moving_avg": { "buckets_path": "revenue", "window": 7 } } } } }

套路 3:桶 + 指标 + Pipeline(桶过滤)
只保留“销售额占比超过 5%”的品牌桶,其余丢弃。

"aggs": { "brands": { "terms": { "field": "brand", "size": 100 }, "aggs": { "sales": { "sum": { "field": "amount" } }, "ratio_check": { "bucket_script": { "buckets_path": { "s": "sales", "total": "_parent._total_sales" }, "script": "params.s / params.total" } } } }, "cut": { "bucket_selector": { "buckets_path": { "r": "brands>ratio_check" }, "script": "params.r >= 0.05" } } }

  1. 常见踩坑清单

  1. terms聚合默认返回前 10 桶,Pipeline 作用域也只在这 10 桶内;
    如果做占比,记得把size调大或改用composite分页,否则分母失真。
  2. bucket_script的返回类型必须是数字,不能是字符串或布尔,
    否则在 7.x 直接抛ClassCastException
  3. moving_avg在 8.x 被标记为 deprecated,推荐改用moving_fn
    后者支持 Painless 脚本,窗口边界更灵活。
  4. Pipeline 运行在 Coordinator,单节点内存即上限;
    如果date_histogram按秒级切分且跨度一年,桶数 > 3 000 万,
    很容易把 Coordinating 节点 OOM,务必先做calendar_interval降采样。
  5. bucket_selector只能“整桶删除”,不能“只删字段”;
    如果想隐藏某个 Metric 值,用bucket_script返回null即可。

  1. 小结

Bucket、Metric、Pipeline 三者不是扁平的“功能列表”,而是严格分层、顺序固定的执行链:
Shard 先桶+指标 → Coordinator 归并 → Coordinator 再跑 Pipeline。
只要抓住“路径语法”和“作用域”两条线,就能把任意复杂的业务报表拆成
“先分堆、再量堆、再算堆间关系”的三板斧,既节省 Shard CPU,也避免 Coordinating 节点成为内存漏斗。
更多技术文章见公众号: 大城市小农民

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/25 20:27:12

4.3 Elasticsearch-百分比、采样、移动平均、季节分解

4.3 Elasticsearch-百分比、采样、移动平均、季节分解 4.3.1 百分比&#xff08;Percentiles&#xff09; 在监控与告警场景里&#xff0c;平均值往往掩盖长尾延迟。Elasticsearch 通过 percentiles 聚合把整条延迟分布切成 100 份&#xff0c;常用 P50、P90、P99、P99.9 四档…

作者头像 李华
网站建设 2026/5/26 5:41:47

如何在本地部署Linly-Talker实现数据隐私保护?

如何在本地部署 Linly-Talker 实现数据隐私保护 在医疗咨询、金融客服和企业内训等高敏感场景中&#xff0c;一个越来越突出的问题浮出水面&#xff1a;当用户对着虚拟助手说话时&#xff0c;他们的声音、提问内容甚至面部形象是否正悄然上传至远方的服务器&#xff1f;这种对数…

作者头像 李华
网站建设 2026/5/26 2:53:10

7.3 GPT进化史:从GPT-1到GPT-4的技术跃迁

7.3 RAG 进阶:知识库搭建:文档预处理、向量数据库、向量检索算法 引言 在前两节中,我们学习了RAG的基础概念和工作流程。要构建一个高效、准确的RAG系统,知识库的搭建是至关重要的环节。一个高质量的知识库不仅决定了RAG系统的检索效果,更直接影响最终答案的准确性和相关…

作者头像 李华
网站建设 2026/5/26 6:32:24

【大厂内部流出】Open-AutoGLM异步任务处理框架设计文档(限时公开)

第一章&#xff1a;Open-AutoGLM 离线任务队列开发方案概述Open-AutoGLM 是一个面向大语言模型自动化推理的开源框架&#xff0c;支持在资源受限或网络不稳定环境下执行离线任务。为提升系统的异步处理能力与任务调度效率&#xff0c;本方案设计了一套完整的离线任务队列机制&a…

作者头像 李华
网站建设 2026/5/26 21:11:14

Open-AutoGLM上线倒计时:硬件兼容性验证清单,错过将延期交付

第一章&#xff1a;Open-AutoGLM 硬件适配调试经验在部署 Open-AutoGLM 模型过程中&#xff0c;硬件适配是决定推理性能与稳定性的重要环节。不同架构的 GPU、内存带宽以及驱动版本均可能影响模型加载与执行效率。以下为实际调试中积累的关键经验。环境准备与依赖安装 确保系统…

作者头像 李华
网站建设 2026/5/26 6:36:00

Open-AutoGLM提示词设计黄金法则,资深AI架构师不愿公开的5大核心模式

第一章&#xff1a;Open-AutoGLM提示词设计的核心理念Open-AutoGLM作为面向生成式语言模型的自动化提示工程框架&#xff0c;其核心理念在于通过结构化、可复用的提示设计提升模型输出的准确性与一致性。该框架强调语义清晰性、上下文适应性和任务导向性&#xff0c;确保提示词…

作者头像 李华