news 2026/5/26 3:45:33

干货分享,大厂内部压测方案设计

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
干货分享,大厂内部压测方案设计

01 为什么要做压测

1、什么是压力测试?

不断向被测对象施加压力,测试系统在压力情况下的表现。

2、压力测试的目的是什么?

测试得出系统的极限性能指标,从而给出合理的承诺值或者容量告警;

找出系统的性能瓶颈,对性能做出优化;

测试系统在高负载情况下的稳定性;

验证系统在过载情况下的限流和降级预案;

3、不做压测会产生什么问题?

线上容量评估不准确,流量增加,服务被打挂

升级前没做压测,升级后性能出现劣化,可用性降低;

无法给出准确的承诺值,导致集群水位过低,资源被浪费或者集群水位过高,系统存在稳定性bug;

02 压测方案设计

压测环境可以简单的分为模块级压测和链路级压测,它们的主要特点和区别如下:

1、模块级压测

应用场景:比较变更前后的性能,看性能是否有劣化;定位模块本身的性能瓶颈。

环境要求:不要求与线上环境完全一致,只需要保证变更前后两次的压测在同一个环境即可。

业界方案:维护一套固定的线下环境,进行周期性、常态的压测。

2、链路级压测

应用场景:做整条链路的容量评估;评估系统整体可用性。

环境要求:要求尽量与线上环境保持一致,这样的压测数据才是有借鉴意义的。

业界方案:使用线上环境,根据不同的隔离方式使用不同的方案:

不做流量隔离,压测流量和业务流量共存,由于没有做隔离,只能在低峰期压测

逻辑隔离,通过流量调度或者分流方式,将压测流量打到一个压测环境去。压测流量和业务流量在同一个机房跑,但并不会打到同一个业务实例。

物理隔离,利用异地多活的特性,将业务流量从一个机房切出,留下一个空机房做压测。

第一种方案是最接近线上真实环境的,但是存在着一些安全风险;后两种方案安全性高很多,但是没有完全利用整个线上架构,存在一定程度上的失真。

3、线上压测怎么保证安全性?

流量隔离,如上述方法做流量隔离。但是只做流量隔离是不够的,即使是物理隔离,也会对线上数据进行修改,所以还要做数据隔离。

压测流量经过中间件时进行打标,做压测标记,比如http流量可以配置一个特殊的header。

在业务集群对流量标记进行数据隔离,比如对压测流量产生的日志写到另一个路径(有的系统会对日志做一些分析统计);存储/缓存方面将压测流量产生的数据存储到影子表,正常流量访问正常表;

消息屏蔽,如果消息队列无法识别出压测消息,则会造成线上消息堆积,影响线上流量,所以需要对压测消息进行屏蔽。

对不支持压测的第三方服务进行mock。

03 压测模型

压测要覆盖哪些场景?压测请求和数据如何构造?如何模拟业务流量形态?以上三个问题分别对应压测模型中的业务模型、数据模型和流量模型。

1、业务模型

压测需要覆盖哪些业务场景?

需要梳理出核心业务场景,必须包含核心接口和大流量接口,大流量接口可能是一些不对用户暴露的,在内部频繁使用的接口。

如何模拟业务场景?

需要理清楚接口之间的关系。对待一些简单查询的接口,没有前后依赖关系,只需要关注流量配比就行了;对待一些复杂业务场景,则需要还原业务处理流程,理清楚接口串联逻辑。可以通过场景录制和场景回放来梳理。

2、数据模型

基于线上数据进行改造

请求部分可以直接把线上流量录制下来,对请求加压测标记,并对关键id做便宜;铺底数据可以直接将线上存储数据拷贝到另一个压测表。

基于模型构造

通过对线上日志和请求进行分析,梳理出对性能有影响的数据特征和请求特征,根据这些特征构造出数据,其中铺底数据需要通过真实的业务应用来构建。

基于线上数据改造的方式

方案很简单,数据构造快,但是强以来系统现有数据,,无法应对新增场景,模型调整不灵活,适用于老服务的线上压测;

基于模型构造

不强依赖线上数据,可以人工构造新增场景,维护成本低,只需要调接口就行了,不需要感知线上存储表的变化,模型可以灵活调整,但是方案比较复杂,数据构造慢,使用场景比较广泛,线上线下新老服务皆可。

压测模型的特例:流量录制,原样回放

特点:不用模拟业务场景、不需要构造数据;只能录制到线上已有流量的服务和接口;只能在线上环境回放,只能回放只读接口;只适用于老服务读接口的压测;

流量录制可以把低峰期、平峰期、高峰期的流量都录制下来,以免出现漏测的情况。

3、流量模型:模拟业务流量形态

线上有流量

观察线上流量形态。

网上绝大部分开源的监控打点都是5s以上的,最理想的情况可以达到ms级别的,可以通过分析日志来进行实现。

线上没有流量

分析用户行为或者调用方行为。

常见的业务流量形态可以分为两种,一种是连续递增型,还有一种是脉冲型(比如抢红包)

4、流量预估

流量形态是模拟线上流量曲线,此外我们还需要进行流量预估,计算出压测的量级。

已双十一活动为例,我们可以把接口分为三类:

背景接口

流量不随活动而变化,压测是仅作为背景流量,取近期峰值即可;

普通关注接口

流量随活动而变化,用通用模型计算

重宝接口

比如交易接口,取历史大促的峰值

04 压测结果分析

1、观测指标

系统指标

qps/tps,最大tps一定是稳定的,如果存在抖动,那系统已经存在问题。

响应时间,从客户端发起请求到收到请求的全过程时间

错误率,根据sla来定

资源指标

cpu利用率,一般要低于80%,avg低于60%比较保险

内存使用率,低于80%比较保险,否则可能陷入GC死亡循环

磁盘吞吐/网络吞吐

特性指标,根据具体业务来定

连接池使用率

消息队列堆积

pps

2、仿真度分析:压测结果是否有价值?

比较同等水位下压测场景和线上真实场景服务表现相似度,可进行仿真度分析的指标:

流量,流量比例,接口覆盖

链路覆盖

机器资源,cpu利用率、内存利用率

可用性指标,时延,错误率

业务指标

把这些指标组装成一个向量,和线上指标做比较,二者差异,差异越小,仿真度就越高。

05 压测发展趋势

现有痛点:

需要随时观察监控,需要oncall待命

安全性不足

方案复杂,代价大

未来发展趋势:

智能化

无人值守

总结:

感谢每一个认真阅读我文章的人!!!

作为一位过来人也是希望大家少走一些弯路,如果你不想再体验一次学习时找不到资料,没人解答问题,坚持几天便放弃的感受的话,在这里我给大家分享一些自动化测试的学习资源,希望能给你前进的路上带来帮助。

软件测试面试文档

我们学习必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有字节大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

视频文档获取方式:
这份文档和视频资料,对于想从事【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴我走过了最艰难的路程,希望也能帮助到你!以上均可以分享,点下方小卡片即可自行领取。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 5:45:07

【运维】StarRocks 跨集群数据迁移工具 - 基于快照进行的快速迁移

文章目录一、整体迁移逻辑1.1 架构概览1.2 核心工作流程阶段 1:初始化阶段 2:启动工作线程阶段 3:周期性执行1.3 任务生成逻辑1.3.1 元数据同步1.3.2 DDL 任务生成1.3.3 数据复制任务生成1.4 任务执行流程1.4.1 DDL 任务执行1.4.2 数据复制任…

作者头像 李华
网站建设 2026/5/26 8:37:21

8 个继续教育答辩工具,AI PPT优化推荐

8 个继续教育答辩工具,AI PPT优化推荐 论文路上的“三座大山”:时间、重复率与效率 对于继续教育的学生来说,毕业答辩不仅是学术生涯的重要节点,更是对个人综合能力的一次全面检验。然而,在这个过程中,论文…

作者头像 李华
网站建设 2026/5/26 6:34:21

Wan2.2-T2V-A14B在银行理财产品介绍视频中的合规表达

Wan2.2-T2V-A14B在银行理财产品介绍视频中的合规表达 你有没有遇到过这种情况?客户拿着一份理财说明书,眉头紧锁:“这‘业绩比较基准’到底是不是收益?R2风险等级又代表什么?” 😣 面对复杂金融术语&#x…

作者头像 李华
网站建设 2026/5/26 5:35:53

快速构建专业级WPF视频播放器的终极指南

HandyControl作为WPF控件库的佼佼者,为视频播放器开发提供了完整的解决方案。本指南将带你深入了解如何利用这一强大工具,快速打造功能丰富、界面美观的视频播放器。 【免费下载链接】HandyControl Contains some simple and commonly used WPF controls…

作者头像 李华
网站建设 2026/5/25 7:00:11

基于轮廓系数的 k-means 聚类结果评估与可视化实践

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

作者头像 李华