1. 고객사 환경
- Sun Solaris 10, Sun Cluster, 10g RAC, raw-device 사용
2. Error
- BackBone 교체작업후 2번 Node가 Down(Shutdown Abort) 되어 있어 DB를
Startup하면 ORA-29702 Error 발생 !!
- 1번 Node에 모든 서비스가 붙어 CPU 100%, oracle 유저에서
sqlplus 접속이 불가한 상황 (top & ps로 oracle process 확인)
- ORA-29702 Error는 Cluster 환경이 아닌상황에서 두번째 Node가
RAC 환경으로 Startup 할때발생하므로 OS Cluster 문제로 판단.
- 서비스 중요도 및 고객사 담당의 환경 및 Skill을 판단하여 log 분석 및
원인파악보다는 DB Restart가 필요한 상황
3. 해결방안
- 1번 Node Oracle Process Kill & Clear , CRS shutdown
- 2번 Node를 정상적으로 Startup 시킨후 1번 Node Oracle을 정상적으로
Shutdown/Startup 하기로 함
- 2번 Node가 Shutdown Abort상황이고, 1번 Node도 Oracle 유저가 접근이
되지않아 Shutdown Abort상황에 DB Crash우려됨
- Sun Cluster가 정상적으로 Active가 되면 Oracle이 정상적으로 Open 될 것으로
판단/고객 설득함
4. PBT 절차
- Sun Cluster 환경이므로 scstat -i 로 Cluster Member, Group 등 서비스 확인
- OS Engineer Call 요청하여 Sun Cluster를 정상서비스
- 1번 Node
crsctl stop crs
여전히 oracle process가 CPU 100% 점유, sqlplus로 접속불가
ipcs 확인시 4개의 Resource 확인 (m 1개, s 3개)
ipcrm -m <PID> , ipcrm -s <PID>로 Resource Kill
- 2번 Node
2번 Node CRS Start !! (crsctl start crs)
2번 Node DB & Listener Start !!
- 1번 Node
ipcs 및 ps 로 Oracle Process 확인 <-= 없음 !!
1번 Node CRS Start !! (crsctl start crs)
1번 Node DB & Listener Start !!
- B/B 작업을 여러번 하는 도중 Cluster Server간 N/W Cable이 순간적으로
절체되어 Cluster Service에 문제가 있었던 것으로 판단.
댓글 없음:
댓글 쓰기