摘要:性能测试在大型网站系统的设计和开发中非常重要,通常会和容量预估等工作结合在一起,穿插在系统开发的不同方案。性能测试可以帮助我们及时发现系统的性能短板,评估系统的能力,在这个基础在上再进行针对性的性能优化。
木桶理论应用在系统优化中
木桶理论又称短板理论,其核心思想是一只木桶盛水多少,并不取决于最高的木板,而取决于最短的那块木板。
木桶原理应用在系统分析中,即系统的最终性能取决于系统中性能表现最差的组件,为了提升系统整体性能,对系统中表现最差的组件进行优化可以得到最好的效果。
在网站系统中,用户的访问请求到达服务器,然后服务器返回数据并展示给用户,这个过程要经过很多处理,每一个过程的低效都会影响系统整体表现出来的性能。
按照木桶理论,如果一台服务器性能非常强大,拥有充足的内存资源和CPU资源,但是磁盘I/O性能不足,那么系统的总体性能是取决于当前最慢的磁盘I/O速度,而不是当前最优越的CPU或者内存,此时,磁盘I/O就是系统的性能瓶颈。
典型的比如使用Redis进行存储的系统,由于Redis本身性能非常优秀,通常情况下存储并不会制约系统的性能,在海量请求的情况下,Redis的吞吐量会非常大,这时候制约系统的性能瓶颈就变成网络带宽。
压力测试如何实施
性能测试在大型网站系统的设计和开发中非常重要,通常会和容量预估等工作结合在一起,穿插在系统开发的不同方案。
性能测试可以帮助我们及时发现系统的性能短板,评估系统的能力,在这个基础在上再进行针对性的性能优化。
同时,压力测试还可以帮助我们验证系统的稳定性和可靠性。
一个完整的性能测试方案通常包括以下几个方面:
1、压力测试及生成性能报告
压力测试一个重点是如何产生压力,通常可以通过自己编写脚本模拟请求,或者使用成熟的压测工具进行。
压力测试很重要的一点是如何使得模拟压测的数据尽量真实,越接近真实用户越好。
2、根据性能报告定位系统瓶颈,进行针对性优化,测试和优化的工作可以和日常开发并行
压力测试完成以后,我们会拿到一个压测报告,这个报告通常会告诉我们系统的QPS、TPS、响应时延等数据,
这些数据可以让我们对服务器的性能有个整体的了解,发现存在的问题,但是不能帮助我们定位问题。
这个时候我们可以从系统的各个组件入手,关注系统的CPU、内存、IO、网络,对比这些环节对整体性能的影响,确定性能问题是系统哪一部分造成的,然后针对性的在系统中逐个优化。
3、估算容量承载能力,合理规划系统资源
进行压力测试的一个重要目的是让现有的服务器资源发挥最大的价值,
经过前期的测试和分析,这时候我们对系统整体的性能有了一个认识,对服务器的承载能力有了预估,
这个时候我们就可以结合业务规模配置服务器数量,CDN资源等,让最少的资源产生最大的价值。
常用压力测试工具选型
压力测试很关键的一点是如何产生压力,选择哪款测试工具很重要,大的互联网公司如百度/腾讯等,都有专门的测试开发团队,开发公司内部应用的测试工具,以便更好的适应公司的业务,作为SAAS服务的重要部分,几个云服务提供商也纷纷开放了压测及性能监控服务。
大多数公司还是会选择自己完成测试工作,这里关注一下常用的压力测试工具。
1、几款流行的压力测试工具
(1)JMeter
Apache JMeter是Apache组织开发的基于Java的压力测试工具,用于对软件做压力测试,它最初被设计用于Web应用测试但后来扩展到其他测试领域。 它可以用于测试静态和动态资源例如静态文件、Java小服务程序、CGI脚本、Java 对象、数据库, FTP服务器, 等等。
JMeter 可以用于对服务器、网络或对象模拟巨大的负载,来在不同压力类别下测试它们的强度和分析整体性能。
另外,JMeter能够对应用程序做功能回归测试,通过创建带有断言的脚本来验证你的程序是否返回了期望的结果。
为了最大限度的灵活性,JMeter允许使用正则表达式创建断言。
(2)LoadRunner
LoadRunner是惠普旗下一款自动负载测试工具,它能预测系统行为,优化性能。LoadRunner强调的是整个企业的系统,它通过模拟实际用户的操作行为和实行实时性能监测,来帮助更快的确认和查找问题。此外,LoadRunner 能支持最宽范的协议和技术,量身定做地提供解决方案。
(3)其他测试工具
Siege是一款开源的压力测试工具,可以根据配置对一个WEB站点进行多用户的并发访问,
记录每个用户所有请求过程的相应时间,并在一定数量的并发访问下重复进行。
TCPCopy是一种请求复制(所有基于tcp的packets)工具,可以把在线请求导入到测试系统中去。
TCPCopy的特点是可以拷贝线上真实流量,模拟用户数据。
2、性能测试工具的横向对比
这里对比主流的 JMeter和LoadRunner,一般来说,除了自研测试工具的公司,互联网公司使用JMeter作为测试工具的较多。
如何监控系统资源,定位性能瓶颈
压力测试可以暴露系统性能问题,如高并发下访问缓慢,服务宕机等,但是通过压测不能具体到哪里存在瓶颈,必须要在压测同时配合适当的资源监控,帮助我们定位问题。
1、配置合理的资源监控方案
(1)使用nmon监控系统性能
nmon是Linux上广泛使用的监控与分析工具,相对于其它一些系统资源监控工具来说,nmon所记录的信息是比较全面的,它能在系统运行过程中实时地捕捉系统资源的使用情况,并且能输出结果到文件中,然后通过nmon_analyzer工具产生数据文件与图形化结果。
nmon所记录的数据包含以下一些方面:
● cpu占用率
● 内存使用情况
● 磁盘I/O速度、传输和读写比率
● 文件系统的使用率
● 网络I/O速度、传输和读写比率、错误统计率与传输包的大小
● 消耗资源最多的进程
● 计算机详细信息和资源
● 页面空间和页面I/O速度
● 用户自定义的磁盘组
● 网络文件系统
(2)使用rpc.rstatd监控系统性能
rpc.rstatd通常配合LoadRunner一起使用,注意与系统服务rpc.statd进行区分。
rstatd后台程序可以从系统核心中获取系统性能统计的相关信息,将结果返回给调用程序。
进行压力测试时,LoadRunner客户端通过给服务器上的 rstatd 后台程序发送请求,来收集应用或数据库服务器的性能数据。
(3)针对不同的服务合理配置资源监控方案
以Java服务为例,在压测同时可以对JVM虚拟机进行性能监控,这方面常用的有Jvisualvm、jps、jstack等。
下面是Jvisualvm的应用界面,可以监控本地和远程的JVM实例运行状态。
针对测试报告进行针对性优化
在压力测试发现问题以后,就要进行有针对性的优化。对于不同的系统,这个过程的策略并不是确定的,但是大概可以划分为以下几个步骤:
1.定位性能瓶颈,找出系统存在的问题
不同系统的特点不同,在性能瓶颈上也有不同的表现,一般来说,下面的几个方面通常存在比较大的优化空间:
(1)磁盘I/O及文件操作
由于磁盘I/O读写的速度要比内存慢很多,程序在运行过程中,如果需要等待磁盘I/O完成,那么低效的I/O操作会拖累整个系统。
(2)网络操作
对网络数据进行读写的情况与磁盘I/O类似。由于网络环境的不确定性,尤其是对互联网上数据的读写,网络操作的速度可能比本地磁盘I/O更慢。
(3)CPU
对计算资源要求较高的应用,由于其长时间、不间断地大量占用CPU资源,那么对CPU的争夺将导致性能问题。如科学计算、3D渲染等对CPU需求旺盛的应用。
(4)高并发下的上下文切换及锁竞争等
高并发程序如果没有做好优化,存在大量的锁竞争,激烈得锁竞争将会明显增加线程上下文切换的开销,对性能造成极大的影响
(5)数据库
大部分应用程序都离不开数据库,而海量数据的读写操作可能是相当费时的。而应用程序可能需要等待数据库操作完成或者返回请求的结果集,那么缓慢的同步操作将成为系统瓶颈。
2、确定调整目标,提出解决方案
找到系统的性能问题以后,需要作出对应的解决方案。
典型的影响性能的问题,比如:
... ...