1、Aleph 系统运行状态监控,周磊 以色列艾利贝斯有限公司 北京代表处 2014年6月,2,提纲,常用unix命令Aleph系统运行状态监控常见问题处理服务器日常维护,3,提纲,常用unix命令Aleph系统运行状态监控常见问题处理服务器日常维护,常用unix命令,4,操作系统相关 uname -a 操作系统版本 w 查看服务器登录信息和负荷 top 查看服务器运行状态 df -h 查看空间占用情况 du -sh 查看当前目录空间占用情况 ps -ef 查看进程 mpstat/prstat/iostat 查看cpu/进程/io情况,常用unix命令,5,文件处理 cat 查看文件 more 分
2、屏查看文件 head -n 查看文件的前n行 tail -n 查看文件的后n行 find 查找文件 diff 对比两个文件/目录,常用unix命令,6,行编辑器 cut -c10-15 截取第10-15字节 grep 过滤出匹配上的行 egrep 按正则表达式过滤出匹配上的行 sed 行编辑器:过滤、替换、删除等 wc -l 查看行数 sort 排序 uniq 去重,7,提纲,常用unix命令Aleph系统运行状态监控常见问题处理服务器日常维护,Aleph系统运行状态监控,查看license 查看pc_server/www_server 运行状态 查看pc_server/www_server日
3、志 查看apache日志 查看aleph常用进程 查看oracle表空间 常用日志文件,8,查看 license 使用情况,util y 11 1,9,查看Aleph server,监控 util w 1 1,10,端口,服务类型,启动时间,状态,查看Aleph server,循环查看服务运行状态: server_monitor -tl WWW/PC ctrl c 中断,11,查看server日志,cd $LOGDIR more pc_server_6991.log,12,查看server日志,查出消耗时间超过10秒的进程。 grep ELAPSED-TIME pc_server_6991.l
4、og,13,查看WWW Server日志,cd $LOGDIR,14,查看apache日志,apcl 直接进入apache目录。 查看某一天的日志 grep 26/Jun/2014 access_log |more grep 26/Jun/2014 access_log access_log.20140626 查看某一天日志的行数 grep 26/Jun/2014 access_log |wc l 查看某一天访问最多的ip grep 26/Jun/2014 access_log | awk print $1 | sort | uniq -c | sort -nr | head,15,查看ale
5、ph进程,ps -fu aleph,16,以下为有效进程 pc_server www_server sip2_server ncip_server z39_server z39_gate ue_01 ue_11 ue_21 lib_batch jobd httpd java yaz,查看oracle表空间,util o 14 8 TSnD 数据 TSnX 索引,17,常用日志文件,18,19,提纲,常用unix命令Aleph系统运行状态监控常见问题处理服务器日常维护,查看访问服务器的IP,last |more,20,网络无法访问,测试网络访问是否正常 Windows开始菜单,运行,输入cmd
6、telnet 服务器地址 端口号, 如下图,端口都没开放,可能是网络问题,也可能是弄错了ip,或服务没启动如果能链接上,会提示输入信息,可以用ctrl 再quit退出,21,服务器空间查看,df -h du -shlinux下可以用ls -lS 来按文件大小排序,22,查看问题进程的方法,如果工作人员反映服务器响应慢 首先查看aleph服务状态(server_monitor),看是busy还是free 用w 命令查看服务器负荷top/prstat命令查看最耗资源的进程ps -ef |grep 19725 kill 19725,23,查看oracle进程对应的sql,先用前面的方法找出问题进程,
7、如果是oracle相关进程,可以查看这个进程对应的sql,如进程号为29425具体查看 $lcl_proc/check_oracle_pid.sql,24,查看oracle锁死进程,问题:自定义批处理服务无结果,现象是tmptable表无法访问 sqlplus /nolog conn aleph_dba/aleph_dba as sysdbaselect b.sid|,|b.serial#,a.OBJECT_ID,a.ORACLE_USERNAME,a.OS_USER_NAME,a.PROCESS,a.LOCKED_MODE,b.process from v$locked_object a,v
8、$session b where a.session_id = b.sid(+);alter system kill session 455,6930;,25,查看oracle进程数,问题:oracle进程/session数过多,无法登录 查看最大进程数定义通过listener访问数据库的进程 ps -fu oracle |grep LOCAL |wc -l 如有问题,可暂停/重启tomcat和sip2服务,26,27,提纲,常用unix命令Aleph系统运行状态监控常见问题处理服务器日常维护,系统日常维护,服务器维护 数据备份与数据安全 Aleph应用状况,28,服务器日常维护,服务器硬件设
9、备的维护 操作系统的维护 系统日志 服务补丁 运行状态 一些统计 ,29,数据库日常维护,数据库运行状态 警告日志 数据表空间 连接情况 检查数据文件状态 数据备份 控制文件备份 数据文件备份 : 建议至少每月检查一次 恢复测试 : 建议每年至少做两次恢复试验,30,Aleph的日常维护,进程管理 license监控 服务日志、apache日志中的错误信息 定期作业是否正常完成 邮件通知是否正常 临时文件的清理 服务启停 系统监控日志,31,Aleph的日常维护,数据备份 参数表、应用程序的备份 不同服务器之间参数程序的同步 重建索引,建议每隔3-6个月,重建书目索引,32,系统维护建议,33,谢谢!,