aleph 系统运行状态监控

34
Aleph 系系系系系系 系系 系系系系系系系系系系系 系系系系系 2014 系 6 系

Upload: merry

Post on 20-Jan-2016

98 views

Category:

Documents


3 download

DESCRIPTION

Aleph 系统运行状态监控. 周磊 以色列艾利贝斯有限公司 北京代表处 2014 年 6 月. 提纲. 常用 unix 命令 Aleph 系统运行状态监控 常见问题处理 服务器日常维护. 提纲. 常用 unix 命令 Aleph 系统运行状态监控 常见问题处理 服务器日常维护. 常用 unix 命令. 操作系统相关 uname -a 操作系统版本 w 查看服务器登录信息和负荷 top 查看服务器运行状态 df -h 查看空间占用情况 du -sh 查看当前目录空间占用情况 ps -ef 查看进程 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Aleph 系统运行状态监控

Aleph系统运行状态监控

周磊以色列艾利贝斯有限公司

北京代表处2014 年 6 月

Page 2: Aleph 系统运行状态监控

2

提纲

• 常用 unix 命令

• Aleph 系统运行状态监控

• 常见问题处理

• 服务器日常维护

Page 3: Aleph 系统运行状态监控

3

提纲

• 常用 unix 命令

• Aleph 系统运行状态监控

• 常见问题处理

• 服务器日常维护

Page 4: Aleph 系统运行状态监控

常用 unix 命令

4

• 操作系统相关uname -a 操作系统版本w 查看服务器登录信息和负荷 top 查看服务器运行状态df -h 查看空间占用情况du -sh 查看当前目录空间占用情况ps -ef 查看进程mpstat/prstat/iostat 查看 cpu/ 进程 /io 情况

Page 5: Aleph 系统运行状态监控

常用 unix 命令

5

• 文件处理cat 查看文件more 分屏查看文件head -n 查看文件的前 n 行 tail -n 查看文件的后 n 行find 查找文件diff 对比两个文件 / 目录

Page 6: Aleph 系统运行状态监控

常用 unix 命令

6

• 行编辑器cut -c10-15 截取第 10-15 字节grep 过滤出匹配上的行egrep 按正则表达式过滤出匹配上的行sed 行编辑器:过滤、替换、删除等wc -l 查看行数sort 排序uniq 去重

Page 7: Aleph 系统运行状态监控

7

提纲

• 常用 unix 命令

• Aleph 系统运行状态监控

• 常见问题处理

• 服务器日常维护

Page 8: Aleph 系统运行状态监控

Aleph 系统运行状态监控

• 查看 license

• 查看 pc_server/www_server 运行状态• 查看 pc_server/www_server 日志• 查看 apache 日志• 查看 aleph 常用进程• 查看 oracle 表空间• 常用日志文件

8

Page 9: Aleph 系统运行状态监控

查看 license 使用情况

• util y 11 1

9

Page 10: Aleph 系统运行状态监控

查看 Aleph server

• 监控 util w 1 1

10

端口 服务类型 启动时间 状态

Page 11: Aleph 系统运行状态监控

查看 Aleph server

• 循环查看服务运行状态:server_monitor -tl WWW/PC

ctrl c 中断

11

Page 12: Aleph 系统运行状态监控

查看 server 日志

• cd $LOGDIR

• more pc_server_6991.log

12

Page 13: Aleph 系统运行状态监控

查看 server 日志

• 查出消耗时间超过 10 秒的进程。• grep ELAPSED-TIME pc_server_6991.log

13

Page 14: Aleph 系统运行状态监控

查看 WWW Server 日志

• cd $LOGDIR

14

Page 15: Aleph 系统运行状态监控

查看 apache 日志

• apcl 直接进入 apache 目录。 查看某一天的日志grep '26/Jun/2014' access_log |more

grep '26/Jun/2014' access_log > access_log.20140626

查看某一天日志的行数grep '26/Jun/2014' access_log |wc –l

查看某一天访问最多的 ipgrep '26/Jun/2014' access_log | awk '{print $1}' | sort | uniq -c | sort -nr | head

15

Page 16: Aleph 系统运行状态监控

查看 aleph 进程• ps -fu aleph

16

以下为有效进程pc_serverwww_serversip2_serverncip_serverz39_serverz39_gateue_01ue_11ue_21lib_batchjobdhttpdjavayaz

Page 17: Aleph 系统运行状态监控

查看 oracle 表空间

• util o 14 8

• TSnD 数据• TSnX 索引

17

Page 18: Aleph 系统运行状态监控

常用日志文件

类型 服务 目录 日志文件样例服务日志 pc_server

www_serverz39_gatesip2_server

$LOGDIR pc_server_6991.logwww_server_8991.logz39_gate_7991.logsip2_server_5331.log

tomcat apsm/apss 等 $tomcat_log catalina.out

批处理服务 $alephe_scratch whu50_p_ret_adm_01.00163

定期作业 jobd $alephe_scratch cir_send_mail_9782

抽索引 ue_01 $data_scratch run_e_01.26637run_e_01_word.26637

apache opac/aims/aoms/apms 等

apcl$httpd_root/log

error_logaccess_log

oracler Oracle $ORACLE_BASE/diag/rdbms/aleph20/aleph20/trace

alert_aleph20.log

18

Page 19: Aleph 系统运行状态监控

19

提纲

• 常用 unix 命令

• Aleph 系统运行状态监控

• 常见问题处理

• 服务器日常维护

Page 20: Aleph 系统运行状态监控

查看访问服务器的 IP

• last |more

20

Page 21: Aleph 系统运行状态监控

网络无法访问

• 测试网络访问是否正常Windows 开始菜单,运行,输入 cmd

telnet 服务器地址 端口号,如下图,端口都没开放,可能是网络问题,也可能是弄错了 ip

,或服务没启动

如果能链接上,会提示输入信息,可以用 ctrl ] 再 quit 退出

21

Page 22: Aleph 系统运行状态监控

服务器空间查看

• df -h

• du -sh

• linux 下可以用 ls -lS 来按文件大小排序•

22

Page 23: Aleph 系统运行状态监控

查看问题进程的方法• 如果工作人员反映服务器响应慢

首先查看 aleph 服务状态 (server_monitor) ,看是 busy 还是 free

用 w 命令查看服务器负荷

top/prstat 命令查看最耗资源的进程

ps -ef |grep 19725

kill 19725 23

Page 24: Aleph 系统运行状态监控

查看 oracle 进程对应的 sql• 先用前面的方法找出问题进程,如果是 oracle 相关进程,可以查看这个

进程对应的 sql ,如进程号为 29425

• 具体查看 $lcl_proc/check_oracle_pid.sql

24

Page 25: Aleph 系统运行状态监控

查看 oracle 锁死进程

• 问题:自定义批处理服务无结果,现象是tmptable 表无法访问

sqlplus /nolog

conn aleph_dba/aleph_dba as sysdba

select b.sid||','||b.serial#,a.OBJECT_ID,a.ORACLE_USERNAME,a.OS_USER_NAME,a.PROCESS,a.LOCKED_MODE,b.process from v$locked_object a,v$session b where a.session_id = b.sid(+);

alter system kill session '455,6930';

25

Page 26: Aleph 系统运行状态监控

查看 oracle 进程数

• 问题: oracle 进程 /session 数过多,无法登录 查看最大进程数定义

通过 listener 访问数据库的进程ps -fu oracle |grep LOCAL |wc -l

如有问题,可暂停 / 重启 tomcat 和 sip2 服务

26

Page 27: Aleph 系统运行状态监控

27

提纲

• 常用 unix 命令

• Aleph 系统运行状态监控

• 常见问题处理

• 服务器日常维护

Page 28: Aleph 系统运行状态监控

系统日常维护

• 服务器维护• 数据备份与数据安全• Aleph 应用状况

28

Page 29: Aleph 系统运行状态监控

服务器日常维护

• 服务器硬件设备的维护• 操作系统的维护

系统日志服务补丁运行状态一些统计……

29

Page 30: Aleph 系统运行状态监控

数据库日常维护

• 数据库运行状态警告日志数据表空间连接情况检查数据文件状态

• 数据备份控制文件备份数据文件备份 : 建议至少每月检查一次恢复测试 : 建议每年至少做两次恢复试验

30

Page 31: Aleph 系统运行状态监控

Aleph 的日常维护

• 进程管理• license 监控• 服务日志、 apache 日志中的错误信息• 定期作业是否正常完成• 邮件通知是否正常• 临时文件的清理• 服务启停• 系统监控日志

31

Page 32: Aleph 系统运行状态监控

Aleph 的日常维护

• 数据备份• 参数表、应用程序的备份• 不同服务器之间参数程序的同步• 重建索引,建议每隔 3-6 个月,重建书目索引

32

Page 33: Aleph 系统运行状态监控

系统维护建议项目 周期 执行

服务器重启 3-6 月 人工Oracle 重启 3-6 月 人工aleph 重启 1 月 crontab 或人工aleph 书目索引重建 3-6 月 人工数据备份 每天 crontab

参数表、程序备份 每月 crontab

备份文件的检查 每月 人工备份文件的异地恢复 3-6 月 人工server 重启 一周 job_list

临时文件的清理 一周 job_list

系统监控日志 每天 job_list

33

Page 34: Aleph 系统运行状态监控

Thank You! 谢谢!