[MDEV-30316] mariadb server crash - Jira

김수빈 created issue - 2022-12-29 02:10

김수빈 made changes - 2022-12-29 02:10

Field	Original Value	New Value
Description	안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다. ** 운영 서버 환경 (DB01, DB02 동일)* - OS : CentOS 7.8 - CPU : 20 - Memory : 30G ** 장애 발생 시점의 운영 DB 구성 환경* =================================================== MMM \| DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master) =================================================== ** 장애 발생 history* +1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+ - MMM에 의한 master <-> slave fail over 발생 as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave) +2. 11.25 09:00경 장애 발생 (DB02 서버)+ - mariaDB 재기동으로 해결 - mariaDB 마이너 버전 업그레이드 DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18 +3. 11.26 00:36경 장애발생 (DB02 서버)+ - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복 - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패 - mariaDB 재설치 후 기동 시도 - 실패 - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성 현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다. 장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다. 감사합니다.	안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다. 운영 서버 환경 (DB01, DB02 동일) - OS : CentOS 7.8 - CPU : 20 - Memory : 30G ** 장애 발생 시점의 운영 DB 구성 환경* =================================================== MMM \| DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master) =================================================== ** 장애 발생 history* +1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+ - MMM에 의한 master <-> slave fail over 발생 as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave) +2. 11.25 09:00경 장애 발생 (DB02 서버)+ - mariaDB 재기동으로 해결 - mariaDB 마이너 버전 업그레이드 DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18 +3. 11.26 00:36경 장애발생 (DB02 서버)+ - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복 - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패 - mariaDB 재설치 후 기동 시도 - 실패 - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성 현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다. 장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다. 감사합니다.

김수빈 made changes - 2022-12-29 02:11

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

운영 서버 환경 (DB01, DB02 동일)
   - OS : CentOS 7.8
   - CPU : 20
   - Memory : 30G

** 장애 발생 시점의 운영 DB 구성 환경*
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

** 장애 발생 history*
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

* 운영 서버 환경 (DB01, DB02 동일)
   - OS : CentOS 7.8
   - CPU : 20
   - Memory : 30G

** 장애 발생 시점의 운영 DB 구성 환경*
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

** 장애 발생 history*
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:11

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

* 운영 서버 환경 (DB01, DB02 동일)
   - OS : CentOS 7.8
   - CPU : 20
   - Memory : 30G

** 장애 발생 시점의 운영 DB 구성 환경*
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

** 장애 발생 history*
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

* 운영 서버 환경 (DB01, DB02 동일)
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

** 장애 발생 시점의 운영 DB 구성 환경*
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

** 장애 발생 history*
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:11

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

* 운영 서버 환경 (DB01, DB02 동일)
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

** 장애 발생 시점의 운영 DB 구성 환경*
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

** 장애 발생 history*
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

* 운영 서버 환경 (DB01, DB02 동일)
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

* 장애 발생 시점의 운영 DB 구성 환경
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

* 장애 발생 history
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:11

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

* 운영 서버 환경 (DB01, DB02 동일)
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

* 장애 발생 시점의 운영 DB 구성 환경
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

* 장애 발생 history
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

** 운영 서버 환경 (DB01, DB02 동일)*
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

** 장애 발생 시점의 운영 DB 구성 환경*
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

* 장애 발생 history
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:12

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

** 운영 서버 환경 (DB01, DB02 동일)*
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

** 장애 발생 시점의 운영 DB 구성 환경*
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

* 장애 발생 history
+1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)+
  - MMM에 의한 master <-> slave fail over 발생
    as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

+2. 11.25 09:00경 장애 발생 (DB02 서버)+
  - mariaDB 재기동으로 해결
  - mariaDB 마이너 버전 업그레이드
    DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

+3. 11.26 00:36경 장애발생 (DB02 서버)+
  - 데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
  - my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
  - mariaDB 재설치 후 기동 시도 - 실패
  - mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

+* 장애 발생 시점의 운영 DB 구성 환경+
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================
+
* 장애 발생 history+
1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:13

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

+* 장애 발생 시점의 운영 DB 구성 환경+
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================
+
* 장애 발생 history+
1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

+* 장애 발생 시점의 운영 DB 구성 환경+
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

+* 장애 발생 history+
1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:13

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

+* 장애 발생 시점의 운영 DB 구성 환경+
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

+* 장애 발생 history+
1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:18

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

+* 장애 발생 시점의 운영 DB 구성 환경+
   ===================================================
                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)
   ===================================================

+* 장애 발생 history+
1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

====================================================================================

+* 장애 발생 시점의 운영 DB 구성 환경+

                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)

=====================================================================================

+* 장애 발생 history+

1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

----------------------------------------------------------------------------------

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

----------------------------------------------------------------------------------

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

=====================================================================================

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:20

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

====================================================================================

+* 장애 발생 시점의 운영 DB 구성 환경+

                                                         MMM
                                                             |
         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)

=====================================================================================

+* 장애 발생 history+

1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

----------------------------------------------------------------------------------

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

----------------------------------------------------------------------------------

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

=====================================================================================

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

====================================================================================

+* 장애 발생 시점의 운영 DB 구성 환경+

                                                         MMM

         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)

=====================================================================================

+* 장애 발생 history+

1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

----------------------------------------------------------------------------------

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

----------------------------------------------------------------------------------

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

=====================================================================================

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:21

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

====================================================================================

+* 장애 발생 시점의 운영 DB 구성 환경+

                                                         MMM

         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)

=====================================================================================

+* 장애 발생 history+

1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

----------------------------------------------------------------------------------

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

----------------------------------------------------------------------------------

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

=====================================================================================

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

==================================================================================================

+* 장애 발생 시점의 운영 DB 구성 환경+

                                                         MMM

         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)

==================================================================================================

+* 장애 발생 history+

1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

----------------------------------------------------------------------------------

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

----------------------------------------------------------------------------------

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

==================================================================================================

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

김수빈 made changes - 2022-12-29 02:24

Description

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

==================================================================================================

+* 장애 발생 시점의 운영 DB 구성 환경+

                                                         MMM

         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)

==================================================================================================

+* 장애 발생 history+

1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

----------------------------------------------------------------------------------

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

----------------------------------------------------------------------------------

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

==================================================================================================

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.

안녕하세요. 알 수 없는 원인으로 DB가 계속 kill 되는 issue가 있습니다.

==================================================================================================
+* 운영 서버 환경 (DB01, DB02 동일)+
   OS : CentOS 7.8
   CPU : 20
   Memory : 30G

==================================================================================================
+* 장애 발생 시점의 운영 DB 구성 환경+

                                                         MMM

         DB01(MariaDB 10.5.15, slave) <---- DB02(MariaDB 10.5.13, master)

==================================================================================================
+* 장애 발생 history+

1. 11.24 09:00경 장애 최초 장애 발생 (DB02 서버)
     MMM에 의한 master <-> slave fail over 발생
     as-is : db01(slave), db02(master) / to-be : db01(master), db02(slave)

----------------------------------------------------------------------------------

2. 11.25 09:00경 장애 발생 (DB02 서버)
     mariaDB 재기동으로 해결
     mariaDB 마이너 버전 업그레이드
     DB01 : 10.5.15 => 10.5.18 / DB02 : 10.5.13 => 10.5.18

----------------------------------------------------------------------------------

3. 11.26 00:36경 장애발생 (DB02 서버)
     데이터 깨짐으로 crash 발생하여 리커버리 시도 계속 반복
     my.cnf 에 recovery 옵션 주어 기동 시도 - 실패
     mariaDB 재설치 후 기동 시도 - 실패
     mariaDB 초기화 후 DB01(master) dump 사용하여 DB02 재구성

==================================================================================================

현재 재구성 후 문제는 해소되었으나, 원인 파악을 위해 테스트 서버에 동일하게 구성하여 core dump를 생성하고 gdb 툴로 디버깅 하였습니다.

장애 발생 시 기록된 log와 core dump 디버깅 결과 파일 함께 첨부하도록 하겠습니다.

감사합니다.