LINUX 如何查看系统负载

操作系统的负载状态,反映了应用程序的资源使用情况,从中能找出应用程序优化的瓶颈所在。

系统平均负载,是指处于运行或不可打扰状态的进程的平均数。
处于运行,表示运行态,占用CPU,或就绪态,等待CPU调度。
不可打扰,表示阻塞,正在等待I/O

在 Linux 系统中,要查看负载情况一般使用 uptime 命令(w 命令和 top 命令也行)

一、uptime 命令

$ uptime
16:33:56 up 69 days,  5:10,  1 user,  load average: 0.14, 0.24, 0.29

以上信息的解析如下:

  • 16:33:56 : 当前时间 up 69 days, 5:10 : 系统运行了69天5小时10分 1 user :
  • 当前有1个用户登录了系统load average: 0.14, 0.24, 0.29 :
  • 系统在过去1分钟内,5分钟内,15分钟内的平均负载 load average: 0.14, 0.24, 0.29 :
  • 系统在过去1分钟内,5分钟内,15分钟内的平均负载

平均负载解析

查看逻辑 CPU 核心数:

$ grep 'model name' /proc/cpuinfo | wc -l
1

运行结果表示,有 1 个逻辑 CPU 核心。以1个CPU核心为例,假设 CPU 每分钟最多处理100个进程 –

  • load=0,没有进程需要 CPU
  • load=0.5,CPU处理了 50 个进程
  • load=1, CPU 处理了 100 个进程,这时 CPU 已被占满,但系统还是能顺畅运作的
  • load=1.5, CPU 处理了 100 个进程,还有 50 个进程正在排除等着 CPU 处理,这时,CPU 已经超负荷工作了

为了系统顺畅运行,load 值最好不要超过 1.0,这样就没有进程需要等待了,所有进程都能第一时间得到处理。

很显然,1.0 是一个关键值,超过这个值,系统就不在最佳状态了。 一般 0.7 是一个比较理想的值。

另外,load 值的健康状态还跟系统 CPU 核心数相关,如果 CPU 核心数为 2,那么 load 值健康值应该为 2,以此类推。
评价系统的负载一般采用 15 分钟内的那个平均负载值。

二、w 命令

$ w
 17:47:40 up 69 days,  6:24,  1 user,  load average: 0.46, 0.26, 0.25
USER     TTY      FROM              LOGIN@   IDLE   JCPU   PCPU WHAT
lvinkim  pts/0    14.18.144.2      15:55    0.00s  0.02s  0.00s w

第1行 : 与 uptime 一相同。
第2行以下,当前登录用户的列表。

三、top 命令

$ top
top - 17:51:23 up 69 days,  6:28,  1 user,  load average: 0.31, 0.30, 0.26
Tasks:  99 total,   1 running,  98 sleeping,   0 stopped,   0 zombie
Cpu(s):  2.3%us,  0.2%sy,  0.0%ni, 97.4%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   1922244k total,  1737480k used,   184764k free,   208576k buffers
Swap:        0k total,        0k used,        0k free,   466732k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                
    1 root      20   0 19232 1004  708 S  0.0  0.1   0:01.17 init                                                                    
    2 root      20   0     0    0    0 S  0.0  0.0   0:00.01 kthreadd                                                                
...

第1行 : 与 uptime 一相同。

第2行 : 进程数信息。

  • Tasks: 99 total : 总共有 99 个进程
  • 1 running : 1 个进程正在占用 CPU
  • 98 sleeping : 98 个睡眠进程
  • 0 stopped : 0 个停止的进程
  • 0 zombie : 0 个僵尸进程

第3行 : CPU 使用率

  • us (user): 非nice用户进程占用CPU的比率
  • sy (system): 内核、内核进程占用CPU的比率
  • ni (nice): 用户进程空间内改变过优先级的进程占用CPU比率
  • id (idle): CPU空闲比率,如果系统缓慢而这个值很高,说明系统慢的原因不是CPU负载高
  • wa (iowait): CPU等待执行I/O操作的时间比率,该指标可以用来排查磁盘I/O的问题,通常结合wa和id判断
  • hi (Hardware IRQ): CPU处理硬件中断所占时间的比率
  • si (Software Interrupts): CPU处理软件中断所占时间的比率
  • st (steal): 流逝的时间,虚拟机中的其他任务所占CPU时间的比率

需要注意的一些情形:

  • 用户进程us占比高,I/O操作wa低:说明系统缓慢的原因在于进程占用大量CPU,通常还会伴有教低的空闲比率id,说明CPU空转时间很少。
  • I/O操作wa低,空闲比率id高:可以排除CPU资源瓶颈的可能。
  • I/O操作wa高:说明I/O占用了大量的CPU时间,需要检查交换空间的使用,交换空间位于磁盘上,性能远低于内存,当内存耗尽开始使用交换空间时,将会给性能带来严重影响,所以对于性能要求较高的服务器,一般建议关闭交换空间。另一方面,如果内存充足,但wa很高,说明需要检查哪个进程占用了大量的I/O资源。

更多负载情形,可在实际中灵活判断。

四、iostat 命令

iostat命令可以查看系统分区的IO使用情况

$ iostat 
Linux 2.6.32-573.22.1.el6.x86_64 (sgs02)   01/20/2017     _x86_64_   (1 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           2.29    0.00    0.25    0.04    0.00   97.41

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
vda               1.15         3.48        21.88   21016084  131997520

一些值得注意的IO指标 :

  • Device : 磁盘名称
  • tps : 每秒I/O传输请求量
  • Blk_read/s : 每秒读取多少块,查看块大小可参考命令 tune2fs
  • Blk_wrtn/s : 每秒写取多少块
  • Blk_read : 一共读了多少块
  • –Blk_wrtn : 一共写了多少块

五、iotop 命令

iotop命令类似于top命令,但是显示的是各个进程的I/O情况,对于定位I/O操作较重的进程有比较大的作用。

# iotop
Total DISK READ: 0.00 B/s | Total DISK WRITE: 774.52 K/s
  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND                                                                
  272 be/3 root        0.00 B/s    0.00 B/s  0.00 %  4.86 % [jbd2/vda1-8]
 9072 be/4 mysql       0.00 B/s  268.71 K/s  0.00 %  0.00 % mysqld
 5058 be/4 lvinkim     0.00 B/s    3.95 K/s  0.00 %  0.00 % php-fpm: pool www
    1 be/4 root        0.00 B/s    0.00 B/s  0.00 %  0.00 % init

可以看到不同任务的读写强度。

六、sysstat工具

很多时候当检测到或者知道历史的高负载状况时,可能需要回放历史监控数据,这时 sar 命令就派上用场了,sar命令同样来自sysstat工具包,可以记录系统的CPU负载、I/O状况和内存使用记录,便于历史数据的回放。

sysstat的配置文件在 /etc/sysconfig/sysstat 文件,历史日志的存放位置为 /var/log/sa
统计信息都是每10分钟记录一次,每天的23:59会分割统计文件,这些操作的频率都在 /etc/cron.d/sysstat 文件配置。

七、sar 命令

使用sar命令查看当天CPU使用:

$ sar
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)

10:50:01 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
11:00:01 AM     all      0.45      0.00      0.22      0.40      0.00     98.93
Average:        all      0.45      0.00      0.22      0.40      0.00     98.93

使用sar命令查看当天内存使用:

$ sar -r
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)

10:50:01 AM kbmemfree kbmemused  %memused kbbuffers  kbcached  kbcommit   %commit
11:00:01 AM     41292    459180     91.75     44072    164620    822392    164.32
Average:        41292    459180     91.75     44072    164620    822392    164.32

使用sar命令查看当天IO统计记录:

$ sar -b
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)

10:50:01 AM       tps      rtps      wtps   bread/s   bwrtn/s
11:00:01 AM      3.31      2.14      1.17     37.18     16.84
Average:         3.31      2.14      1.17     37.18     16.84

更多 sar 用法,请 man sar 。

    原文作者:xiyanghui
    原文地址: https://segmentfault.com/a/1190000019887579
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞