2014년 3월 22일 토요일

RAC ORA-29702 Error TroubleShooting

* RAC ORA-29702 Error 처리

1. 고객사 환경
 - Sun Solaris 10, Sun Cluster, 10g RAC, raw-device 사용

2. Error
 - BackBone 교체작업후 2번 Node가 Down(Shutdown Abort) 되어 있어 DB를
   Startup하면 ORA-29702 Error 발생 !!

 - 1번 Node에 모든 서비스가 붙어 CPU 100%, oracle 유저에서
   sqlplus 접속이 불가한 상황 (top & ps로 oracle process 확인)

 - ORA-29702 Error는 Cluster 환경이 아닌상황에서 두번째 Node가
   RAC 환경으로 Startup 할때발생하므로 OS Cluster 문제로 판단.

 - 서비스 중요도 및 고객사 담당의 환경 및 Skill을 판단하여 log 분석 및
   원인파악보다는 DB Restart가 필요한 상황

3. 해결방안
 - 1번 Node Oracle Process Kill & Clear , CRS shutdown
 - 2번 Node를 정상적으로 Startup 시킨후 1번 Node Oracle을 정상적으로
   Shutdown/Startup 하기로 함
 - 2번 Node가 Shutdown Abort상황이고, 1번 Node도 Oracle 유저가 접근이
    되지않아 Shutdown Abort상황에 DB Crash우려됨
 - Sun Cluster가 정상적으로 Active가 되면 Oracle이 정상적으로 Open 될 것으로
   판단/고객 설득함

4. PBT 절차
 - Sun Cluster 환경이므로 scstat -i 로 Cluster Member, Group 등 서비스 확인 
 - OS Engineer Call 요청하여 Sun Cluster를 정상서비스

 - 1번 Node 
    crsctl stop crs
    여전히 oracle process가 CPU 100% 점유, sqlplus로 접속불가
     ipcs 확인시 4개의 Resource 확인 (m 1개, s 3개)
     ipcrm -m <PID> , ipcrm -s <PID>로 Resource Kill

 - 2번 Node
    2번 Node CRS Start !! (crsctl start crs)
    2번 Node DB & Listener Start !!

 - 1번 Node 
    ipcs 및 ps 로 Oracle Process 확인 <-= 없음 !!
    1번 Node CRS Start !! (crsctl start crs)
    1번 Node DB & Listener Start !!

 - B/B 작업을 여러번 하는 도중 Cluster Server간 N/W Cable이 순간적으로
   절체되어 Cluster Service에 문제가 있었던 것으로 판단.

댓글 없음:

댓글 쓰기