windows2003+mscs+faiedsafe+oracle 双机操作心得
去年年头部署的积分数据库主机ha在使用了14个月以后,终于在前天早晨寿终正寝,诡异的宕掉了,回头好好分析下日志。去机房一看,吓一身冷汗,两台DELL R900全部cpu 报警,面板显示cpu fatal error xxxx一串代码。。操作系统都装不上,一插系统盘等两分钟就砰的重启。今天中午又去装,重新插拔了下电源,面板的报警居然没有了,又变成了蓝灯,诡异啊。。。于是重装系统,下午开始部署恢复双机。下面是今天的几点心得:

1.去年部署的时候,做的windows mscs是单域控,即主服务器做域控服务器,从服务器加入主服务器的域。而今天做的是双域控,即两台服务器都做域控,从服务器加入主服务器的域中。从部署方法来看,今天的方法较简单。步骤较少,无论主服务器或者从服务器单独启动都特别快,和独立启动一样快。单域控的做法则主服务器重启就特痛苦而漫长。但是双域控在做资源组切换时,有短暂当机现象,没有单域控流畅。还试了一把两台一起重启,看资源到底落在哪台主机头上,结果整个系统重启居然花了15分钟,而且系统日志中出现了,mpio磁盘争用的报错。看来双域控还是有问题的,特别是不能一起重启。
2.这次在安装数据库时就一起升了补丁。10.2.0.4安逸了,避免了以前好多10.2.0.1的问题,安逸啦。
3.还是没搞懂双机模式下dbconsole怎么玩。。。郁闷,开始找不到文件,重建了,emctl start dbconsole以后,找不到双机的监听,另建了其他端口的监听,监听又找不到服务。太郁闷了。
4、安装failed safe 还是独家经验呀,去年花了一个星期摸索出来的。failed safe oracle for mscs,装64bit的,一定装到$ORACLE_HOME下,在装完以后,提示出入cluster密码,在输入正确的情况下经常会诡异的提示密码错误,使用“username/domainname”的方法比使用@的方法,成功率高点。manager要装 32位,切记切记 装32bit manager的时候一定只能装manager,其他的一个都不能选,装完重启。
5、failed safe manager下集群验证,和hosts文件下各主机ip地址 主机名的配置顺序文件有关,不然会出现网卡适配器配置相反,或者mapping错误的提示,也是个诡异的事情。居然和顺序有关,没天理呀!!!!!
6、搞了一下午,装完了,开始以为一切正常,后来发现,主服务器cluster 资源组切备服务器时,mscs报错。提示资源注册失败。搞了一晚上终于解决,还是主服务器装failed safe的时候,多选了32bit的一个组件。真是搞死人。
7。需要将参数文件放置到共享存储上,参数文件还特有讲究。用pfile去调spfile。然后修改adump,bdump,cdump,udump,还有archive log的目录至共享存储,才能正常通过failed safe 建立 database资源的验证。
哎。。。感觉failed safe 也是个崴货。。。!!无奈,ip地址不够,需要至少6个ip,而且网上下的linux 无论是redhat 5.3还是oracle enterprise linux 坚不可摧 linux 64bit 都只能识别到32g,linux+rac+asm的方案使用不了,真是可惜了。估计花钱买的linux才行。
本文来源 我爱IT技术网 http://www.52ij.com/jishu/134.html 转载请保留链接。
- 评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
-
