Linux系统管理 - citicall.com.hk

进程管理进程管理简介进程是正在执行的一个程序或命令，每一个进程都是一个运行的尸体，都有自己的地址空间，并占用一定的系统资源。进程管理的作用判断服务器健康状态查看系统中所有进程杀死进程进程的查看查看所有进程ps命令ps aux 查看系统中所有进程，使用BSD操作系统格式 ps -le 查看系统中所有进程，使用Linux标准命令格式选项-a 显示一个终端的所有进程，除了会话-u 显示进程的归属用户及内存的使用情况-x 显示没有控制终端的进程-l 长格式显示。显示更加详细的信息-e 显示所有进程和-A作用一致/* USER 进程由哪个用户生成 PID 进程ID号 %CPU 进程占用CPU资源的百分比，占用越高，进程越耗资源 %MEM 进程占用物理内存的百分比，占用越高，进程越耗资源 VSZ 进程占用虚拟内存的大小，单位KB RSS 进程占用实际物理内存的大小，单位KB TTY 进程是在哪个终端中运行。其中tty1-tty7代表本地控制台终端，tty1-tty6是本地字符界面终端，tty7是图形终端，pts/0-255代表虚拟终端、远程终端 tty1-tty7可以通过CTL+ALT+F1~CTL+ALT+F7来切换。 TTY显示？说明进程是由内核启动的不是由终端启动。 STAT 进程状态。常见的状态： R 运行、S 睡眠、T 停止状态、s 包含子进程、+ 位于后台 START 进程启动时间 TIME 进程占用CPU的运算时间，注意不是系统时间 COMMAND 产生此进程的命令名*/$ ps auxUSER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMANDroot 1 0.0 0.4 185316 4116 ? Ss 6月24 0:23 /sbin/init splroot 2 0.0 0.0 0 0 ? S 6月24 0:00 [kthreadd]root 3 0.0 0.0 0 0 ? S 6月24 4:07 [ksoftirqd/0]root 5 0.0 0.0 0 0 ? S< 6月24 0:00 [kworker/0:0H]root 7 0.1 0.0 0 0 ? S 6月24 16:09 [rcu_sched]...pstree命令pstree选项-p 显示进程的PID-u 显示进程的所属用户$ pstreesystemd─┬─ModemManager─┬─{gdbus} │ └─{gmain} ├─NetworkManager─┬─dhclient │ ├─dnsmasq │ ├─{gdbus} │ └─{gmain} ├─accounts-daemon─┬─{gdbus} │ └─{gmain} ├─acpid ├─5*[agetty] ├─avahi-daemon───avahi-daemon ├─colord─┬─{gdbus}...top命令查看系统健康状态top选项-d 秒数指定投票命令每隔几秒更新。默认3秒-b 使用批处理模式输出。一般和 -n 选项合用-n 次数指定top命令指定的次数。一般和-b选项合用在top命令的交互模式当中可以执行的命令？或h 显示交互模式的帮助P 以CPU使用率排序，默认就是此项M 以内存的使用率排序N 以PID排序q 退出top第一行信息为任务队列信息内容说明12:26:46系统当前时间up 1 day, 13:32系统的运行时间，本机已经运行1天13小时32分钟2 users当前登录了两个用户load average: 0.00, 0.00, 0.00系统在之前1分钟，5分钟，15分钟的平均负载。一般任务小于1时，负载较小。如果大于1，系统已经超出负载。第二行为进程信息内容说明Tasks： 95 tatal系统中进程总数1 running正在运行的进程数94 sleeping睡眠的进程0 stopped正在停止的进程0 zombie僵尸进程。如果不是0，需要手工检查僵尸进程注：孤儿进程：一个父进程退出，而它的一个或多个子进程还在运行，那么那些子进程将成为孤儿进程。孤儿进程将被init进程(进程号为1)所收养，并由init进程对它们完成状态收集工作。僵尸进程：一个进程使用fork创建子进程，如果子进程退出，而父进程并没有调用wait或waitpid获取子进程的状态信息，那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵死进程。第三行行为CPU信息内容说明Cpu(s): 0.1%us用户模式占用的CPU百分比0.1%sy系统模式占用的CPU百分比0.0%ni改变过优先级的用户进程占用的CPU百分比99.7%id空闲CPU的CPU百分比0.1%wa等待输入/输出的进程占用CPU百分比0.0%hi硬终端请求服务占用的CPU百分比0.1%si软中断请求服务占用的CPU百分比0.0%stst(Steal time)虚拟时间百分比。就是当有虚拟机时，虚拟CPU等待实际CPU的时间百分比第四行行为物理内存信息内容说明Mem: 625344k total物理内存的总量，单位KB571504k used已经使用的物理内存数量53840 free空闲的物理内存数量，我们使用虚拟机，总共只分配了628MB内存，所以只有53MB的空闲内存了65800k buffers作为缓冲的内存数量注：buffers：加速写入；例如保存文件内容，真是情况是先写入文件进程的缓冲区，然后在文件关闭和系统空闲时再写入硬盘。第五行为交换分区（swap）信息内容说明Swap: 524280k total交换分区（虚拟内存）的总大小Ok used已经使用的交互分区的大小524280k free空闲交换分区的大小409289k cached作为缓存的交换分区的大小注：cached：加速读取；例如，读取硬盘文件时可以把部分文件放在内存中缓存起来，不用每次访问硬盘，加速读取文件速度。top内容主要查看load average、cpu的空闲率、内存的空闲、Swap分区的空闲。// 更改top刷新时间为1s，但不建议，top本身耗费资源$ top -n 1// 使用top只能在终端中看到很少一部分程序，因此使用-b来保存进程到文件中$ top -b -n 1 >top.log$ cat top.log进程的结束kill命令kill -l查看可用的进程信号信号代号信号名称说明1SIGHUB该信号让进程立即关闭，然后重新读取配置文件之后重启2SIGINT程序终止信号，用于终止前台进程。相当于输出ctl+c快捷键8SIGFPE在发生致命的算术运算错误时发出。不仅包括浮点运算错误，还包括溢出及除数为0等其他所有的算术的错误9SIGKILL用来立即结束程序的运行。本信号不能被阻塞、处理和忽略。一般用于强制终止进程。14SIGALRM时钟定时信号，计算的是实际的时间或时钟时间。alarm函数使用该信号15SIGTERM正常结束进程的信号，kill命令默认信号。有时如果进程已经发生问题，这个信号是无法正常终止进程的，我们才会尝试SIGKILL信号，也就是信号9。18SIGCONT该信号可以让暂停的进程恢复执行，本信号不能被阻塞。19SIGSTOP该信号可以暂停前台进程，相当于输入ctl+z快捷键。本信号不能被阻断。SIGHUB信号若apache服务器重新设置配置文件，需要重启apache服务，如果使用服务命令stop、start时关闭服务造成用户体验非常差。那么可以使用Kill -HUB pid的命令使apache服务重新加载配置实现平滑重启。但apache服务有多个服务进程，那么可以使用killall 命令实现。平滑重启不会使服务器登录用户掉线。SIGKILL强制终止进程，kill -9 2236// 查看可用的进程信号$ kill -l// 强制终止进程,注kill后跟的是pid不能是进程名$ kill -9 2237killall命令killall [选项][信号]进程名选项-i 交互式，询问是否要杀死某个进程-I 忽略进程名的大小写// 杀死所有apache服务$ killall -9 httpdpkill命令pkill [选项][信号]进程号选项-t 终端号按照终端号踢出用户注：pkill和killall命令基本相同。// 查看当前登录用户$ w 19:53:45 up 3:02, 1 user, load average: 0.00, 0.01, 0.05USER TTY FROM LOGIN@ IDLE JCPU PCPU WHATroot tty1 - 16:51 3:02m 23.87s 0.23s -bashroot pts/0 192.168.44.1 04:47 0.00s 0.22s 0.00s wroot pts/0 192.168.44.1 04:47 0.00s 0.22s 0.00s -bash// 只有root用户可以踢掉本地用户# pkill -9 -t tty1进程优先级的修改进程优先级简介Linux操作系统是一个多用户、多任务的操作系统，Linux系统中通知运行着非常多的进程。但是CPU在统一时钟周期内只能运算一个指令。进程优先级决定了每个进程处理的先后顺序。$ ps -leF S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD4 S 0 1 0 0 80 0 - 29895 - ? 00:00:02 systemd1 S 0 2 0 0 80 0 - 0 - ? 00:00:00 kthreadd1 S 0 3 2 0 80 0 - 0 - ? 00:00:00 ksoftirqd/01 S 0 5 2 0 60 -20 - 0 - ? 00:00:00 kworker/0:0H1 S 0 7 2 0 80 0 - 0 - ? 00:00:03 rcu_sched1 S 0 8 2 0 80 0 - 0 - ? 00:00:00 rcu_bh1 S 0 9 2 0 -40 - - 0 - ? 00:00:00 migration/05 S 0 10 2 0 -40 - - 0 - ? 00:00:00 watchdog/05 S 0 11 2 0 80 0 - 0 - ? 00:00:00 kdevtmpfs1 S 0 12 2 0 60 -20 - 0 - ? 00:00:00 netns// PRI代表Priority，NI代表Nice。这两个值都是优先级，数字越小代表该进程优先级越高。修改NI值时有几个注意事项NI的值的范围是-20到19 普通用户调整NI值的范围是0到19，而且只能调整自己的进程普通用户只能调高NI值，而不是降低，如原本NI值为0，则只能调整为大于0 root用户才能设定进程NI值为负值，而且可以调整任何用户的进程 PRI（最终值）=PRI（原始值）+NI 用户只能修改NI的值，不能直接修改PRInice命令nice [选项] 命令nice命令可以给新执行的命令直接赋予NI值，但是不能修改已经存在进程的NI值选项-n NI值给命令赋予NI值// 进程启动时才可以修改其NI值，进程运行时无法修改# nice -n -5 service httpd startrenice命令renice [优先级] PIDrenice命令是修改已经存在进程的NI值命令// 使用renice来修改已经存在进程的NI值# renice -10 2125工作管理工作管理简介工作管理是指在单个登录终端中（也就是登录的shell界面中）同时管理多个工作的行为。注意事项当前的登录终端，只能管理当前终端的工作，而不能管理其他登录终端的工作放入后台的命令必须可以持续运行一段时间，这样我们才能捕捉和操作这个工作放入后台执行的命令不能和前台有交互或需要前台输入，否则放入后台只能暂停，而不能运行工作管理方法进程放入后台使用 & 把命令放入后台使用 ctrl + z快捷键把命令放入后台// 把命令放入后台，并在后台执行$ tar -zcf etc.tar.gz /etc &// 按下ctl + z 快捷键，放在后台暂停$ topctl + z查看后台的工作jobs选项-l 显示工作的PID注：”+”号代表最近一个放入后台的工作，也是工作回复时，默认回复的工作。”-“号代表倒数第二个放入后台的工作$ top&$ top // ctrl+ z放入后台// 查看后台进程，两个top进程都是停止的，因为top给前台用户查看的，和前台有交互，无法在后台执行$ jobs[1]- Stopped top[2]+ Stopped top$ vi abc &$ jobs[1] Stopped top[2]- Stopped top[3]+ Stopped vi abc将后台暂停的工作恢复到前台执行fg %工作号参数%工作号 %号可以省略，但是注意工作和PID的区别将后台暂停的工作恢复到后台执行bg %工作号参数%工作号 %号可以省略，但是注意工作和PID的区别注：后台恢复执行的命令，是不能和前台有交互的，否则不能恢复到后台执行后台命令脱离登录终端执行简介把命令放入后台，只能在当前登录终端执行。一旦退出或关闭终端，后台程序就会停止。后台命令脱离登录终端执行的方法把需要后台执行的命令加入 /etc/rc.local文件使用系统定时任务，让系统在指定的时间执行某个后台命令使用nohub命令，推荐使用做成daemon守护进程如mysqld服务// 系统启动时执行rc.local文件$ cat /etc/rc.localtouch /var/lock/subsys/local // 注：这里不是创建文件，改变文件的timestamp// 在终端1中执行for.sh# vi for.sh#!/bin/bashfor ((i=0; i<=1000; i=i+1)) do echo 11 >> /root/for.log sleep 10 done# nohup /root/for.sh &// 关闭终端1// 打开终端2，ps aux 可以看到for.sh仍在运行系统资源查看vmstat命令监控系统资源vmstat [刷新延时刷新次数]$ vmstat 1 3procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 0 0 70280 133280 13140 303244 0 4 60 16 53 121 1 1 98 0 0 0 0 70280 133264 13140 303248 0 0 0 0 40 201 1 0 99 0 0 0 0 70280 133264 13140 303248 0 0 0 0 43 183 1 0 99 0 0process 进程信息字段-r 等待运行的进程数，数量越大，系统越繁忙-b 不可被唤醒的进程数量，数量越大，系统越繁忙 memory 内存信息字段-swpd 虚拟内存的使用情况，单位KB-free 空闲的内存容量，单位KB-buff 缓冲的内存容量，单位KB-cache 缓冲的内存容量，单位KB swap 交换分区的信息字段-si 从磁盘中交换到内存中数据的数量，单位KB-so 从内从中交换到磁盘中数据的数量，单位KB。此两个数越大，证明数据需要经常在磁盘和内存之间交换，系统性能越差。 io 磁盘读写信息字段-bi 从块设备读入数据的总量，单位是块-bo 写到块设备的数据的总量，单位是块。次两个数越大，代表系统的I/O越繁忙。 system 系统信息字段-in 每秒被中断的进程次数-cs 每秒中进行的时间切换次数。此两个数越大，代表系统与接口设备的通信非常繁忙。 CPU CPU信息字段-us 非内核进程消耗CPU运算时间的百分比-sy 内核进程消耗CPU运算时间的百分比-id 空闲CPU的百分比-wa 等待I/O所消耗的CPU百分比-st 被虚拟机所盗用的CPU占比dmesg开机时内核检测信息$ dmesg |grep CPUfree命令查看内存使用状态free [-b|-k|-m|-g]选项-b 以字节为单位显示-k 以KB为单位显示，默认就是以KB为单位显示-m 以MB为单位显示-g 以GB为单位显示/* total 总内存数 used 已经使用内存数 free 空闲的内存数 shared 多个进程共享的内存数 buffers 缓冲内存数 cached 缓存内存数默认单位是KB*/$ free -m total used free shared buff/cache availableMem: 983 545 124 6 313 273 Swap: 1906 68 1838查看CPU信息$ cat /proc/cpuinfouptime命令显示系统的启动时间和平均负载，也就是top命令的第一行。w命令也可以看到这个数据。$ uptime 10:10:47 up 6:11, 1 user, load average: 0.18, 0.10, 0.09$ w 10:11:35 up 6:12, 1 user, load average: 0.09, 0.09, 0.09USER TTY FROM LOGIN@ IDLE JCPU PCPU WHATroot tty7 :0 一16 17:20m 49.38s 0.28s /sbin/upstart --user查看系统与内核相关信息uname [选项]选项-a 查看系统所有相关信息-r 查看内核版本-s 查看内核名称判断当前系统的位数file /bin/ls查看当前Linux系统的发行版本lsb_release -a列出进程打开或使用的文件信息lsof [选项]列出进程调用或打开文件的信息选项-c 字符串只列出以字符串开头的进程打开的文件-u 用户名只列出某个用户的进程打开的文件-p pid 列出某个PID进程打开的文件// 查询系统中所有进程调用的文件$ lsof |more// 查询某个文件被哪个进程调用$ lsof /sbin/init// 查看httpd进程调用了哪些文件$ lsof -c httpd// 按照用户名，查询某个用户进程调用的文件$ lsof -u root缓存和缓冲的区别简单来说缓存（cache）用来加速数据从硬盘中“读取”的，而缓冲（buffer）用来加速数据“写入”硬盘的。系统定时任务at一次性定时任务 crontab循环定时任务系统的crontab设置 anacron配置at命令确定at安装// at 服务是否安装# chkconfig --list |grep atd# service atd statusat的访问控制如果系统中有/etc/at.allow文件，那么只有写入/etc/at.allow文件（白名单）中的用户可以使用at命令（/etc/at.deny文件会被忽略）如果系统中没有/etc/at.allow文件，只有/etc/at.deny文件，那么写入/etc/at.deny文件（黑名单）中的用户不能使用at命令。对root不起作用如果系统中这两个文件都不存在，那么只有root用户可以使用at命令at命令at [选项] 时间选项-m 当at工作完成后，无论是否命令有输出，都用email通知执行at命令的用户-c 工作号显示该at 工作的实际内容时间：-HH:MM 例如：02:30-HH:MM YYYY-MM-DD 例如：02:30 2013-07-25-HH:MM [am|pm] [month] [date] 例如：02:30 July 25-HH:MM [am|pm] + [minutes|hours|days|weeks] 例如：now + 5 minutes例子$ at now +2 minutesat> /root/hello.sh >> /root/hello.logat> <EOT>// 指定时间重启$ at 02:00 2013-07-26at>/bin/syncat>/sbin/shutdown -r now其他at管理命令atq查询当前服务器上的at工作atrm [工作号]删除指定的at任务crontabcrond服务管理与访问控制// 检查crond服务是否安装启动# service crond restart# chkconfig crond on访问控制当系统中有/etc/cron.allow文件时，只有写入此文件的用户可以使用crontab命令，没有写入的用户不能使用crontab命令。同样如果有此文件，/etc/cron.deny文件会被忽略，/etc/cron.allow文件的优先级更高当系统中只有/etc/cron.deny文件时，则写入此文件的用户不能使用crontab命令，没有写入文件的用户可以使用crontab命令用户的crontab设置crontab [选项]选项：-e 编辑crontab定时任务-l 查询crontab任务-r 删除当前用户所有的crontab任务// 编辑crontab命令$ crontab -e***** command项目含义范围第一个*一小时当中的第几分钟0-59第二个*一天当中的第几小时0-23第三个*一个月当中的第几天1-31第四个*一年当中的第几个月1-12第五个*一周当中的星期几0-7（0和7都代表星期日）特殊符号含义*代表任何时间。比如第一个“*”就代表一小时中的每分钟都执行一次的意思,代表不连续的时间。比如“0 8,12,16 * * * 命令”，就代表每天的8点0分，12点0分，16点0分都执行一次命令-代表连续的时间范围，比如“0 5 * * 1-6 命令”，代表在周一到周六凌晨5点0分执行命令*/n代表每隔多久执行一次。比如“ */10 * * * * 命令”，代表每隔10分钟就执行一遍命令// cron命令，每月1号和15号，每周1的0点0分都会执行// 注意：星期几和几号最好不要同时出现，他们定义的都是天。非常迷惑。0 0 1,15 * 1 命令// 例子// 每隔5分钟在/root/test中写入111*/5 * * * * echo 111 >> /root/testcrontab注意事项六个选项不能为空，必须填写。如果不确定使用“*”代表任意时间。crontab定时任务，最小有效时间是分钟，最大时间范围是月。想2018年某时执行，3点30分30秒这样的时间都不能识别。在定义时间时，日期和星期最好不要在一条定时任务中出现，因为他们都是以天作为单位，飞铲更容易让管理员混乱。在定时任务中，不管是直接写命令，还是在脚本中写命令，最好都是用绝对路径。注：定时任务自带的环境变量与$PATH中的保存的环境变量不一定相同，所以在crontab中使用绝对路径。系统定的crontab设置“crontab -e”是每个用户执行的命令，也就是说不同的用户身份可以执行自己的定时任务。可是有些定时任务需要系统执行，这是我们就需要编辑/etc/crontab这个配置文件。// 这里crontab是普通用户的定时任务$ crontab -e // 系统定时任务// CentOS 5 中的配置文件$ vim /etc/crontabSHELL=/bin/bashPATH=/sbin:/bin:/usr/sbin:/usr/binMAILTO=rootHOME=/#run-parts01 * * * * root run-parts /etc/cron.hourly02 4 * * * root run-parts /etc/cron.daily22 4 * * 0 root run-parts /etc/cron.weekly42 4 1 * * root run-parts /etc/cron.monthly// 查看/etc下crontab相关的目录和文件# ls /etc/croncron.d/ cron.hourly/ crontab cron.daily/ cron.monthly/ cron.weekly/ 执行系统的定时任务的方法手工执行定时任务系统定时任务第一种是把需要定时执行的脚本复制到/etc/cron.{daily, weekly, monthly}目录中任意一个第二种是修改/etc/crontab配置文件anacron配置anacron是用来保证在系统关机的时候错过的定时任务，可以在系统开机之后再执行anacron检测周期anacron会使用一天，七天，一个月作为检测周期在系统的/var/spool/anacron/目录中存在cron.{daily, weekly, monthly}文件，用于记录上次执行cron的时间和当前时间作比较，如果两个时间的差值超过了anacron的指定时间差值，证明有cron任务没有被执行CentOS 6.x 的区别在老的CentOS版本中，/etc/cron.{daily, weekly, monthly}这些目录即会被cron调用，也会被anacron调用，容易重复执行在CentOS 6.x中则只会被anacron调用，避免了重复执行在CentOS 6.x中，anacron不再是服务，而是系统命令anacron配置文件$ vi /etc/anacrontab# /etc/anacrontab: configuration file for anacron# See anacron(8) and anacrontab(5) for details.SHELL=/bin/shPATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/binHOME=/rootLOGNAME=rootRANDOM_DELAY=45START_HOURS_RANGE=3-22# These replace cron's entries1 5 cron.daily run-parts --report /etc/cron.daily7 10 cron.weekly run-parts --report /etc/cron.weekly@monthly 15 cron.monthly run-parts --report /etc/cron.monthly#天数强制延迟（分钟）工作名称实际执行的命令cron.daily工作来说明执行过程首先读取/var/spool/anacron/cron.daily中上一次anacron执行的时间和当前时间比较，如果两个时间差值超过1天，就执行cron.daily工作执行这个工作只能在03:00-22:00之间执行工作时强制延迟时间为5分钟，再随机延迟0-45分钟时间使用nice命令指定默认优先级，使用run-parts脚本执行/etc/cron.daily目录中所有可执行文件

(以上内容不代表本站观点。)
---------------------------------