[기술잡썰8]MS Azure 터져서 회사 마비된 썰 푼다(feat. LESG Refinitiv Eikon)…ssul

2024-07-19 평화로운 금요일.


우리 회사는 금융 정보 회사임. 시장 등에 있는 공개된 정보와 3자의 유료 정보들을 적절히 활용해서 평가 정보를 만들어서 금융사에 제공하는 역할을 하고 있다.

산뜻한 금요일 퇴근 30분 전에 대형 회의가 있어 가뜩이나 빡이 치는데, 옆 팀장님의 한마디. “어? MS 클라우드가 터져서 비행기도 못뜬대~ㅋㅋㅋㅋ”. 아~ 그렇구나~ 빨리 회의나 시작하고 끝내지 어쩔티브이~ 했는데…

Refinitiv Eikon 폭발.


ㅋㅋㅋㅋㅋㅋㅋ퇴근시간이 넘어 끝난 회의를 마치고 자리로 돌아오니 아니 원래 칼퇴하는 팀원들이 퇴근을 안했…? ㅠㅠㅠㅠ 이건 분명히 사고가 있다…

알고보니 스왑(IRS) 정보가 필요하여 LESG의 Refinitiv Eikon에서 스내핑을 해오는 배치가 있는데… 이게 터져버린 것. 우리팀은 그나마 사정이 나았던 게 우리는 다음주 월요일까지만 해결되면 되었다.

이유가 뭘까…? MS!?


근데 오늘 저녁까지 일을 끝내야했던 옆부서는 분위기 살벌하더라… 왜 그런고 이유를 찾아보다가 문득 아 혹시 MS 클라우드? 싶었고 Refinitiv가 Azure 기반에서 서비스한다는 게 문득 떠올랐다.

슬픈 예감은 틀린적이 없다. 부랴부랴 고객사에 전화걸고 상사에게 보고하고 BCP 세우고 난리 부르스를 피웠더랬다. 다행인건지 문제가 터진지 두시간만에 Refinitiv는 정상화 되었고 강제 야근은 했지만 큰 문제 없이 지나갔지…

실패에서 배우자: 방어적 프로그래밍과 BCP


꼭 일년에 한두번씩 이런 일이 터진다. 대처를 하기가 힘든 재해와 같은 상황이. 그래도 글로벌 클라우드 업체와 데이터 벤더여서 금방 복구된 듯. 아니었으면 초비상ㅋㅋㅋㅋㅋ

언제든 문제가 발생할 수 있다는 가정을 세우고 방어적 프로그래밍을 해야하고 그럼에도 문제가 발생할 수 있다는 시나리오를 세워 BCP를 반드시 수립해야 한다. 그리고 그 BCP는 늘 일관되어야 한다.

가령 그런거다. 재해로 프로그램이 예기치 못하게 종료되었다. 이 때는 그저 프로그램을 재가동하면 복구가 되어야 한다. 그렇지 않고 계획도 생각도 없이 멍때리다가 테이블 롤백하고 소스까서 코드 살짝 바꿔가며 대응하고 그러면 그게 재해다.

다행히 이런 자동화 배치들을 4년 넘게 기획/개발/운영하고 있는 우리 부서는 이슈 식별, 대응 방안 수립, 대응까지 30분도 안걸렸지. 문제 생기자마자 바로 Webhook 날라왔고, 문제 보자마자 10분만에 원인 파악했고, 바로 해결방안 떠올리고 상사와 고객사에게 방안 공유와 허가까지. 좀 멋졌으니 한잔해~ 나의 고뇌와 노고가 헛되지 않았다는 사실에 다시 한 번 뿌듯하고 또 감사하다. 그리고 또 더더욱 방어적 프로그래밍과 시스템화, 능동적 문제해결 문화를 만들어 가야겠다는 확신을 얻었다.


Posted

in

,

by

Tags:

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다