aleph 系统运行状态监控
DESCRIPTION
Aleph 系统运行状态监控. 周磊 以色列艾利贝斯有限公司 北京代表处 2014 年 6 月. 提纲. 常用 unix 命令 Aleph 系统运行状态监控 常见问题处理 服务器日常维护. 提纲. 常用 unix 命令 Aleph 系统运行状态监控 常见问题处理 服务器日常维护. 常用 unix 命令. 操作系统相关 uname -a 操作系统版本 w 查看服务器登录信息和负荷 top 查看服务器运行状态 df -h 查看空间占用情况 du -sh 查看当前目录空间占用情况 ps -ef 查看进程 - PowerPoint PPT PresentationTRANSCRIPT
Aleph系统运行状态监控
周磊以色列艾利贝斯有限公司
北京代表处2014 年 6 月
2
提纲
• 常用 unix 命令
• Aleph 系统运行状态监控
• 常见问题处理
• 服务器日常维护
3
提纲
• 常用 unix 命令
• Aleph 系统运行状态监控
• 常见问题处理
• 服务器日常维护
常用 unix 命令
4
• 操作系统相关uname -a 操作系统版本w 查看服务器登录信息和负荷 top 查看服务器运行状态df -h 查看空间占用情况du -sh 查看当前目录空间占用情况ps -ef 查看进程mpstat/prstat/iostat 查看 cpu/ 进程 /io 情况
常用 unix 命令
5
• 文件处理cat 查看文件more 分屏查看文件head -n 查看文件的前 n 行 tail -n 查看文件的后 n 行find 查找文件diff 对比两个文件 / 目录
常用 unix 命令
6
• 行编辑器cut -c10-15 截取第 10-15 字节grep 过滤出匹配上的行egrep 按正则表达式过滤出匹配上的行sed 行编辑器:过滤、替换、删除等wc -l 查看行数sort 排序uniq 去重
7
提纲
• 常用 unix 命令
• Aleph 系统运行状态监控
• 常见问题处理
• 服务器日常维护
Aleph 系统运行状态监控
• 查看 license
• 查看 pc_server/www_server 运行状态• 查看 pc_server/www_server 日志• 查看 apache 日志• 查看 aleph 常用进程• 查看 oracle 表空间• 常用日志文件
8
查看 license 使用情况
• util y 11 1
9
查看 Aleph server
• 监控 util w 1 1
10
端口 服务类型 启动时间 状态
查看 Aleph server
• 循环查看服务运行状态:server_monitor -tl WWW/PC
ctrl c 中断
11
查看 server 日志
• cd $LOGDIR
• more pc_server_6991.log
12
查看 server 日志
• 查出消耗时间超过 10 秒的进程。• grep ELAPSED-TIME pc_server_6991.log
13
查看 WWW Server 日志
• cd $LOGDIR
14
查看 apache 日志
• apcl 直接进入 apache 目录。 查看某一天的日志grep '26/Jun/2014' access_log |more
grep '26/Jun/2014' access_log > access_log.20140626
查看某一天日志的行数grep '26/Jun/2014' access_log |wc –l
查看某一天访问最多的 ipgrep '26/Jun/2014' access_log | awk '{print $1}' | sort | uniq -c | sort -nr | head
15
查看 aleph 进程• ps -fu aleph
16
以下为有效进程pc_serverwww_serversip2_serverncip_serverz39_serverz39_gateue_01ue_11ue_21lib_batchjobdhttpdjavayaz
查看 oracle 表空间
• util o 14 8
• TSnD 数据• TSnX 索引
17
常用日志文件
类型 服务 目录 日志文件样例服务日志 pc_server
www_serverz39_gatesip2_server
$LOGDIR pc_server_6991.logwww_server_8991.logz39_gate_7991.logsip2_server_5331.log
tomcat apsm/apss 等 $tomcat_log catalina.out
批处理服务 $alephe_scratch whu50_p_ret_adm_01.00163
定期作业 jobd $alephe_scratch cir_send_mail_9782
抽索引 ue_01 $data_scratch run_e_01.26637run_e_01_word.26637
apache opac/aims/aoms/apms 等
apcl$httpd_root/log
error_logaccess_log
oracler Oracle $ORACLE_BASE/diag/rdbms/aleph20/aleph20/trace
alert_aleph20.log
18
19
提纲
• 常用 unix 命令
• Aleph 系统运行状态监控
• 常见问题处理
• 服务器日常维护
查看访问服务器的 IP
• last |more
20
网络无法访问
• 测试网络访问是否正常Windows 开始菜单,运行,输入 cmd
telnet 服务器地址 端口号,如下图,端口都没开放,可能是网络问题,也可能是弄错了 ip
,或服务没启动
如果能链接上,会提示输入信息,可以用 ctrl ] 再 quit 退出
21
服务器空间查看
• df -h
• du -sh
• linux 下可以用 ls -lS 来按文件大小排序•
22
查看问题进程的方法• 如果工作人员反映服务器响应慢
首先查看 aleph 服务状态 (server_monitor) ,看是 busy 还是 free
用 w 命令查看服务器负荷
top/prstat 命令查看最耗资源的进程
ps -ef |grep 19725
kill 19725 23
查看 oracle 进程对应的 sql• 先用前面的方法找出问题进程,如果是 oracle 相关进程,可以查看这个
进程对应的 sql ,如进程号为 29425
• 具体查看 $lcl_proc/check_oracle_pid.sql
24
查看 oracle 锁死进程
• 问题:自定义批处理服务无结果,现象是tmptable 表无法访问
sqlplus /nolog
conn aleph_dba/aleph_dba as sysdba
select b.sid||','||b.serial#,a.OBJECT_ID,a.ORACLE_USERNAME,a.OS_USER_NAME,a.PROCESS,a.LOCKED_MODE,b.process from v$locked_object a,v$session b where a.session_id = b.sid(+);
alter system kill session '455,6930';
25
查看 oracle 进程数
• 问题: oracle 进程 /session 数过多,无法登录 查看最大进程数定义
通过 listener 访问数据库的进程ps -fu oracle |grep LOCAL |wc -l
如有问题,可暂停 / 重启 tomcat 和 sip2 服务
26
27
提纲
• 常用 unix 命令
• Aleph 系统运行状态监控
• 常见问题处理
• 服务器日常维护
系统日常维护
• 服务器维护• 数据备份与数据安全• Aleph 应用状况
28
服务器日常维护
• 服务器硬件设备的维护• 操作系统的维护
系统日志服务补丁运行状态一些统计……
29
数据库日常维护
• 数据库运行状态警告日志数据表空间连接情况检查数据文件状态
• 数据备份控制文件备份数据文件备份 : 建议至少每月检查一次恢复测试 : 建议每年至少做两次恢复试验
30
Aleph 的日常维护
• 进程管理• license 监控• 服务日志、 apache 日志中的错误信息• 定期作业是否正常完成• 邮件通知是否正常• 临时文件的清理• 服务启停• 系统监控日志
31
Aleph 的日常维护
• 数据备份• 参数表、应用程序的备份• 不同服务器之间参数程序的同步• 重建索引,建议每隔 3-6 个月,重建书目索引
32
系统维护建议项目 周期 执行
服务器重启 3-6 月 人工Oracle 重启 3-6 月 人工aleph 重启 1 月 crontab 或人工aleph 书目索引重建 3-6 月 人工数据备份 每天 crontab
参数表、程序备份 每月 crontab
备份文件的检查 每月 人工备份文件的异地恢复 3-6 月 人工server 重启 一周 job_list
临时文件的清理 一周 job_list
系统监控日志 每天 job_list
33
Thank You! 谢谢!