Heartbeat安装及简单配置

Posted on 2011 年 08 月 17 日 by 惜分飞

1、创建用户和组

[root@node1 ~]# groupadd -g 694 haclient

[root@node1 ~]# useradd -u 694 -g haclient hacluster

2、Heartbeat安装

1)安装libnet

[root@node1 software]# pwd

/tmp/software

[root@node1 software]# ll

总计 4200

-rw-r–r– 1 root root 3267773 08-16 18:51 heartbeat-2.0.8.tar.gz

-rw-r–r– 1 root root 1021236 08-16 18:51 libnet-1.1.2.1.tar.gz

[root@node1 software]# tar xf libnet-1.1.2.1.tar.gz

[root@node1 sofeware]# cd libnet

[root@node1 sofeware]#./configure

[root@node1 sofeware]#make

[root@node1 sofeware]#make install

2)安装heartbeat

[root@node1 software]# tar xf heartbeat-2.0.8.tar.gz

[root@node1 sofeware]# cd heartbeat-2.0.8

[root@node1 heartbeat-2.0.8]#./ConfigureMe configure –disable-swig –disable-snmp-subagent

[root@node1 heartbeat-2.0.8]#make

[root@node1 heartbeat-2.0.8]#make install

[root@node1 heartbeat-2.0.8]# cp doc/ha.cf doc/authkeys doc/haresources /etc/ha.d/

#Heartbeat的主要配置文件有ha.cf,authkeys和haresources，在Heartbeat安装后，默认并没有这3个文件，可以从官网上下载，也可以从解压出来的源码目录中找到，所以我们这里直接在源码目录中拷贝即可。

3、修改参数

1）ha.cf

#logfacility local0 #可注释掉此选项，开启下面的日志路径；

logfile /var/log/ha-log #设置heartbeat日志存放位置；

keepalive 2 #设定心跳(监测)时间时间为2秒;

warntime 5 #连续多长时间联系不上后开始警告提示;

deadtime 20 #连续多长时间联系不上后认为对方挂掉了（单位是妙）;

initdead 120 #这里主要是给重启后预留的一段忽略时间段（比如：重启后启动网络等，如果在网络还没有通，keepalive检测肯定通不过，但这时候并不能切换）,此值至少为deadtime的两倍；

udpport 694 #设置广播通信的端口，默认为694；

baud 19200 #设置串行通讯的波特率；

bcast eth1 #指明心跳使用以太网的广播方式，并且在eth1口上进行广播；

ucast eth1 10.10.10.2 #单播（广播，单播选择其一）

auto_failback off #恢复正常后是否需要再自动切换回来，此处off说明恢复后不需要切换；

node node1 #主节点主机名，可以通过“uname -n”查看；

node node2 #备用节点主机名；

ping 192.168.0.254 #测试网络连通性，此处自定义，一般设为网关地址，但要保证是通的；

respawn hacluster /usr/lib/heartbeat/ipfail #可选，列出和heartbeat一起启动和关闭的进程；

2)Haresources

node1 IPaddr::192.168.1.100/24/eth0/ Filesystem::/dev/sdc1::/shared::ext3 cups

node-name resource1 resource2 … resourceN

其中node-name即为集群中某一节点的名称，必须与uname –n相同，

后面的资源组resource1 resource2 …resourceN中每一个资源都是一个shell脚本，它们的搜索路径为/etc/init.d/和/usr/local/etc/ha.d/resource.d(该路径根据你所安装heartbeat的路径有所不同)，heartbeat为我们提供了一个非常好的资源扩展框架，如果我们需要控制一种自己的资源，只需要实现一个支持start和stop参数的shell脚本就可以了，目前heartbeat所支持的资源脚本可以在我提供的上述路径中去查看。

1) 资源组的第一列是我们在ha.cf配置文件中的node之一，而且应该是当前准备作为primary节点的那一个node；

2）每一行代表一个资源组，如果一行写不下可以用” “换行；

3）资源组启动顺序是从左往右，关闭的顺序是从右往左；

4）脚本的参数通过::来分隔和传递；

5）一个资源组里面不同资源之间以空格分隔；

6）不同的资源组之间没有必然关系；

7）每个资源都是一个角本，可以是在/etc/init.d目录下面的，也可以是/usr/local/etc/ha.d/resource.d目录下面的角本。这些角本必须要支持xxx start；xxx stop;模式；

3）Authkeys

[root@node1 ~]# vim /etc/ha.d/authkeys

auth 1

1 crc

[root@node1 ~]#chmod 600 /etc/ha.d/authkeys

我们如果要采用sha1算法，只需要将authkeys中的auth 指令(去掉注释符)改为2，而对应的2 sha1行则需要去掉注释符(#)，后面的密钥自己改变(两节点上必须相同)

Oracle 10g RAC之配置时间同步（NTP）

Posted on 2011 年 07 月 27 日 by 惜分飞

所有节点的时间必须同步，这通常是通过配置NTP服务器实现的。如果用户的网络中已经有一台时间服务器，那么可以所有节点都指向它，否则可以从集群中挑选一个节点作为时间服务器，让其他节点与它同步。下面分别演示这两种方法：

(1)如果公司网络中已经有一台时间服务器
如：192.168.11.10是一台ntp时间服务器
此时NTP服务器的配置文件是/etc/ntp.conf，在每个节点编辑这个文件。
[root@cc-svr-a ~]# vi /etc/ntp.conf
编辑后的内容如下，首选公司的时间服务器。
server 192.168.11.10 prefer
driftfile /var/lib/ntp/drift
broadcastdelay 0.008

(2)如果没有外部时间服务器
这时公司选择集群中某个节点作为时间服务器，NTP服务只需要很少的系统资源。假设选择主节点作为时间服务器，从节点向它同步，其配置方法如下。
编辑主节点的/etc/ntp.conf文件，编辑后的内容如下：

server 127.127.1.0
fudge 127.127.1.0 stratum 11
driftfile /var/lib/ntp/drift
broadcastdelay 0.008

编辑从节点的/etc/ntp.conf文件，编辑后的内容如下：

server 192.168.11.12 prefer #注意192.168.11.12为主节点的IP地址
driftfile /var/lib/ntp/drift
broadcastdelay 0.008

配置完成后，启动NTP服务。
[root@cc-svr-a ~]# /etc/init.d/ntpd start
[root@cc-svr-a ~]# chkconfig –level 345 ntpd on

(3)查看执行情况（主从）
[root@cc-svr-a ~]# ntpq -p
remote refid st t when poll reach delay offset jitter
==============================================================================
*CC-Node-02 LOCAL(0) 12 u 58 64 17 0.226 -22.698 29.261

Linux上NFS配置

Posted on 2011 年 07 月 23 日 by 惜分飞

一、rpm包准备
需要安装nfs-utils和portmap程序，使用rpm –q可以查看是否安装
rpm -q nfs-utils portmap

如果没有安装，需要使用下面命令安装（默认情况都是安装）
yum install nfs-utils
yum install portmap

二、Server端
1、编辑/etc/exports文件
设置共享/tmp/nfs目录给192.168.11.12的用户，具有读写权限
/tmp/nfs 192.168.11.12(rw,sync)
设置共享目录/mnt/sda4/share/a，仅192.168.23.129主机允许访问此共享目录，具有读写权限
/mnt/sda4/share/b 192.168.23.129(rw) *(ro)
设置共享目录/mnt/sda4/share/b，192.168.23.129可以读写该共享目录，其他主机只可以读取该共享目录
/mnt/sda4/share/d 192.168.23.0/24(rw)
设置共享目录/mnt/sda4/share/d，仅有192.168.23.0/24网段的主机才可访问和读写此目录文件

说明：
Rw：read-write可读写的权限
Ro：read-only只读权限
Sync：数据同步写入到内存与硬盘中
Async：数据先暂存于内存中，而非直接写入硬盘

2.启动portmap服务：
service portmap start[restart]
3.启动NFS服务：
service nfs start[restart]

3、exportfs的用法
如果我们修改了/etc/exports后，并不需要重启nfs服务，只要用exportfs重新扫描一次/etc/exports，并且重新加载即可
语法: exportfs [-aruv]
-a: 全部挂载(或卸载) /etc/exports档案内的设定
-r: 重新挂载/etc/exports里面的设定，也同步的更新/etc/exports和/var/lib/nfs/xtab里面的内容
-u:卸载某一目录
-v:在export的时候，将分享的目录显示到荧屏上.
#exportfs -rva //重新export一次
#exportfs -auv //全部卸载

4、补充说明：
4.1）启动NFS只需启动portmap和NFS服务即可。如果需要启动数据一致性检查，则需启动nfslock服务。
使用netstat–tnlu可以查看nfs开放了哪些端口。Portmap的端口为111，nfs的端口为2049
[root@CC-Node-01 nfs]# rpcinfo -p
program vers proto port
100000 2 tcp 111 portmapper
100000 2 udp 111 portmapper
100003 2 udp 2049 nfs
100003 3 udp 2049 nfs
100003 4 udp 2049 nfs
100021 1 udp 46231 nlockmgr
100021 3 udp 46231 nlockmgr
100021 4 udp 46231 nlockmgr
100003 2 tcp 2049 nfs
100003 3 tcp 2049 nfs
100003 4 tcp 2049 nfs
100021 1 tcp 46322 nlockmgr
100021 3 tcp 46322 nlockmgr
100021 4 tcp 46322 nlockmgr

4.2）如果portmap和nfs服务都是正常运行，修改了/etc/exports中的配置，只需要exportfs -rva 重新加载一次即可

三、Client端
1.启动portmap服务：
service portmap start[restart]
2.挂载服务器端的共享目录(假设服务器端192.168.11.11)：
[root@ECP-UC-DB1 tmp]# mount -t nfs 192.168.11.11:/tmp/nfs /tmp/nfs
[root@ECP-UC-DB1 nfs]# df -h
192.168.11.11:/tmp/nfs
19G 15G 3.6G 81% /tmp/nfs

3、修改nfs
[root@ECP-UC-DB1 tmp]# umount /tmp/nfs

4、设置成开机启动挂载
修改/etc/fstab文件
192.168.11.11:/tmp/nfs /tmp/nfs nfs defaults,rw 0 0

5、补充说明：
一开始配置完Server，Client端mount后只能读，写不了，在server上加上wx权限后问题就解决了

bash shell 中的比较

Posted on 2011 年 07 月 05 日 by 惜分飞

文件比较运算符
-e filename 如果 filename存在，则为真 [ -e /var/log/syslog ]
-d filename 如果 filename为目录，则为真 [ -d /tmp/mydir ]
-f filename 如果 filename为常规文件，则为真 [ -f /usr/bin/grep ]
-L filename 如果 filename为符号链接，则为真 [ -L /usr/bin/grep ]
-r filename 如果 filename可读，则为真 [ -r /var/log/syslog ]
-w filename 如果 filename可写，则为真 [ -w /var/mytmp.txt ]
-x filename 如果 filename可执行，则为真 [ -L /usr/bin/grep ]
filename1-nt filename2 如果 filename1比 filename2新，则为真 [ /tmp/install/etc/services -nt /etc/services ]
filename1-ot filename2 如果 filename1比 filename2旧，则为真 [ /boot/bzImage -ot arch/i386/boot/bzImage ]
字符串比较运算符（请注意引号的使用，这是防止空格扰乱代码的好方法）
-z string 如果 string长度为零，则为真 [ -z “$myvar” ]
-n string 如果 string长度非零，则为真 [ -n “$myvar” ]
string1= string2 如果 string1与 string2相同，则为真 [ “$myvar” = “one two three” ]
string1!= string2 如果 string1与 string2不同，则为真 [ “$myvar” != “one two three” ]
算术比较运算符
num1-eq num2 等于 [ 3 -eq $mynum ]
num1-ne num2 不等于 [ 3 -ne $mynum ]
num1-lt num2 小于 [ 3 -lt $mynum ]
num1-le num2 小于或等于 [ 3 -le $mynum ]
num1-gt num2 大于 [ 3 -gt $mynum ]
num1-ge num2 大于或等于 [ 3 -ge $mynum ]

top命令含义

Posted on 2011 年 06 月 29 日 by 惜分飞

top命令使用
命令格式：
top [-] [d] [p] [q] [C] [S] [n]
参数说明：
d：指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用s交互命令来改变之。
p：通过指定监控进程ID来仅仅监控某个进程的状态。
q：该选项将使top没有任何延迟的进行刷新。如果调用程序有超级用户权限，那么top将以尽可能高的优先级运行。
S：指定累计模式
s ：使top命令在安全模式中运行。这将去除交互命令所带来的潜在危险。
i：使top不显示任何闲置或者僵死进程。
c：显示整个命令行而不只是显示命令名

各个展示项含义说明
top – 22:42:59 up 154 days, 21:21, 2 users, load average: 0.37, 0.35, 0.36
Tasks: 273 total, 2 running, 271 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.9% us, 0.2% sy, 0.0% ni, 97.9% id, 0.9% wa, 0.0% hi, 0.0% si
Mem: 4147172k total, 4124176k used, 22996k free, 7196k buffers
Swap: 4192956k total, 146780k used, 4046176k free, 2494232k cached

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
29781 oracle 16 0 1561m 315m 312m S 9 7.8 8:57.46 oracle
23381 oracle 15 0 2612 1092 772 R 1 0.0 0:00.05 top
1 root 16 0 3208 660 568 S 0 0.0 1:00.12 init
2 root RT 0 0 0 0 S 0 0.0 0:07.29 migration/0
3 root 34 19 0 0 0 S 0 0.0 0:01.25 ksoftirqd/0
4 root RT 0 0 0 0 S 0 0.0 0:02.49 migration/1

22:42:59	当前时间
up 154 days	系统运行时间，格式为时:分
2 users	当前登录用户数
load average: 0.37, 0.35, 0.36	系统负载，即任务队列的平均长度。三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

Tasks: 273total	进程总数
2 running	正在运行的进程数
271 sleeping	睡眠的进程数
0 stopped	停止的进程数
0 zombie	僵尸进程数
Cpu(s): 0.9% us	用户空间占用CPU百分比
0.2% sy	内核空间占用CPU百分比
0.0% ni	用户进程空间内改变过优先级的进程占用CPU百分比
97.9% id	空闲CPU百分比
0.9% wa	等待输入输出的CPU时间百分比
0.0% hi
0.0% si

Mem: 4147172ktotal	物理内存总量
4124176k used	使用的物理内存总量
22996k free	空闲内存总量
7196k buffers	用作内核缓存的内存量
Swap: 4192956k total	交换区总量
146780k used	使用的交换区总量
4046176k free	空闲交换区总量
2494232k cached	缓冲的交换区总量。内存中的内容被换出到交换区，而后又被换入到内存，但使用过的交换区尚未被覆盖，该数值即为这些内容已存在于内存中的交换区的大小。相应的内存再次被换出时可不必再对交换区写入。

列名	含义
PID	进程id
PPID	父进程id
RUSER	Real user name
UID	进程所有者的用户id
USER	进程所有者的用户名
GROUP	进程所有者的组名
TTY	启动进程的终端名。不是从终端启动的进程则显示为 ?
PR	优先级
NI	nice值。负值表示高优先级，正值表示低优先级
P	最后使用的CPU，仅在多CPU环境下有意义
%CPU	上次更新到现在的CPU时间占用百分比
TIME	进程使用的CPU时间总计，单位秒
TIME+	进程使用的CPU时间总计，单位1/100秒
%MEM	进程使用的物理内存百分比
VIRT	进程使用的虚拟内存总量，单位kb。VIRT=SWAP+RES
SWAP	进程使用的虚拟内存中，被换出的大小，单位kb。
RES	进程使用的、未被换出的物理内存大小，单位kb。RES=CODE+DATA
CODE	可执行代码占用的物理内存大小，单位kb
DATA	可执行代码以外的部分(数据段+栈)占用的物理内存大小，单位kb
SHR	共享内存大小，单位kb
nFLT	页面错误次数
nDRT	最后一次写入到现在，被修改过的页面数。
S	进程状态。 D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
COMMAND	命令名/命令行
WCHAN	若该进程在睡眠，则显示睡眠中的系统函数名
Flags	任务标志，参考 sched.h

用快捷键更改显示内容
（1）更改显示内容通过 f键可以选择显示的内容。
按 f 键之后会显示列的列表，按 a-z 即可显示或隐藏对应的列，最后按回车键确定。
（2）按o键可以改变列的显示顺序。
按小写的 a-z 可以将相应的列向右移动，而大写的 A-Z 可以将相应的列向左移动。最后按回车键确定。
按大写的 F 或 O 键，然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。
设置完按回车返回界面。