상세 컨텐츠

본문 제목

2024 MicroSoft(MS) 서비스 장애로 인한 전산 마비, 원인과 대처 그리고 피해상황

여러가지/기타

by ranlan 2024. 7. 22. 18:53

본문

728x90

대단한 서비스를 운영하는 것도, 끝장나게 멋있는 개발자가 된것도 아니고,, 괜히 장애나 이슈라는 단어만 들으면 뜨끔하게 되는 어줍잖은 3년차가 되었다. 딱히 원하는게 있는건 아니지만, 요즘 내가 너무 바보가 되어가는거같아 의식적으로 블로그를 켜기 시작했다. 자소서 쓰거나 면접 준비할때 항상 뭐 개발자는 변화에 민감하고 ~ 이런 말들을 많이 하는데 실상은 아무것도 모르는 헐랭이다. 앞으로 주 1회 포스팅을 목표로 하겠어!

 

 

[속보] MS 클라우드 서비스 장애…세계 공항·통신 대란 - 결국 우리나라까지 덮쳤다 (이슈라이브) / SBS https://www.youtube.com/watch?v=etD-G1Vv29o

 

 

지난주 금요일, 퇴근하고 거실 왔다갔다하다 공항에서 마이크로소프트(MS) 클라우드 장애로 인해 몇 항공사가 수기발권하고있다는 뉴스를 보았다. 심지어 외국에서는 수기로 일기예보를 전한다는 뉴스도 보았다. (https://www.newsis.com/view/NISX20240722_0002819857)

 

MS 클라우드 대란에…美서 '손글씨 일기예보' 등장

[서울=뉴시스] 최윤서 인턴 기자 = 마이크로소프트(MS) 클라우드 서비스 장애로 인한 아이티(IT) 대란으로 지난 19일(현지시각) 미국의 한 방송국에서 손으로 직접 지도를 그린 일기예보가 등장했

www.newsis.com

 

정확한 내용으로는, 2024년 7월 19일 한국 시간 기준 오후 1시경 MS 윈도우 부팅 시 블루 스크린이 뜨는 문제(블루스크린 오브 데스, BSOD)로 세계 주요 기관 시스템 마비 및 서비스 중단이 되는 사고가 발생하였다. 국내에서 저가 항공사 3곳과 일부 외국계 기업을 중심으로 피해가 발생하였으나 국내는 크게 타격이 없다고 한다. 일단 국내 공공기관에서 MS 클라우드 사용하는 곳이 없고 대부분 국내 기업의 클라우드 서비스를 사용하고 있다고 한다. 뭐 이래저래 금방 해결되어 잠잠해질줄 알았는데 오늘 7월 22일 오전에 라디오뉴스에서 관련해서 들어보니,, 쉽사리 해결될만한 문제는 아닌걸로 보였다.

 

스쳐가는 기억으로 한 몇주 전 M365 글로벌 이슈로 메일 사용이 불가했던적이 있었는데.. 참 내부적으로 고생들 하고계시겠구만

https://www.msn.com/ko-kr/news/techandscience/ms-%EC%95%84%EC%9B%83%EB%A3%A9-%EB%A9%94%EC%9D%BC-%EC%99%9C-%EC%95%88%EB%8F%BC-ms-%EC%84%9C%EB%B9%84%EC%8A%A4-%EA%B8%80%EB%A1%9C%EB%B2%8C-%EC%9E%A5%EC%95%A0-%EC%88%98%EC%8B%9C%EA%B0%84%EC%A7%B8-%EB%AF%B8%EB%B3%B5%EA%B5%AC/ar-BB1oYrlz?ocid=weather-verthp-feeds&apiversion=v2&noservercache=1&domshim=1&renderwebcomponents=1&wcseo=1&batchservertelemetry=1&noservertelemetry=1

 

"MS 아웃룩 메일 왜 안돼?" MS 서비스 글로벌 장애, 수시간째 미복구

27일 MS(마이크로소프트)의 셰어포인트 온라인, 비즈니스용 원드라이브를 비롯해 MS가 최근 출시한 AI(인공지능) 도구인 코파일럿까지 전방위적인 장애가 한국을 비롯한 글로벌 주요 나라에 발생

www.msn.com

 

 

 

이런 대란이 발생하게된 원인은 무엇인가

MS는 “이번 사고로 고객이 크라우드 스트라이크 팔콘 에이전트를 사용하는 윈도 컴퓨터에서 응답하지 않고 시작이 실패하는 현상이 발생하고 있다”며 “온프레미스와 함께 애저, AWS, 구글 클라우드 등 다양한 클라우드 플랫폼에 영향을 미쳤다”고 안내했다.
이어 “영향을 받는 여러 가상머신 중에 일부 가상머신을 재구동을 했을 때 성공적으로 시스템이 복구됐다는 소식을 전해들었다”며 “상황에 따라서는 여러 번의 재부팅이 필요할 수 있다는 피드백을 받았지만 지금 가장 효과적인 문제 해결을 위한 방법은 재부팅”이라고 설명했다.
https://m.boannews.com/html/detail.html?idx=131493

 

(나무위키발) 국내에서는 MS 클라우드 장애라고 떠드나 위의 장애와 별개로, 이미 클라우드 장애는 진행중인 상황이었다고 한다. 

https://www.reddit.com/r/microsoft/comments/1e6pfj6/megathread_mo821132_users_may_be_unable_to_access/?rdt=47832

 

From the microsoft community on Reddit

Explore this post and more from the microsoft community

www.reddit.com

한국 시간 기준 오전 7~8시경부터 MS Azure 에서 설정을 잘못 건드려 스토리지와 서버 사이 연결에 문제가 발생하였으며 MS의 각종 클라우드 기반 서비스에 문제가 발생하고 있었다. MS 측에서 트래픽 우회 조치를 통해 장애 완화를 시도하였으나, 장애 자체는 12시간 이상 지속되었고 크라우드 스트라이크발 장애가 발생할때 까지도 여전히 해당 장애로 인한 영향은 남아있는 상태였다.

 

크라우드 스트라이크(CROWD STRIKE)는 미국의 보안회사로, MS에서 사용중인 해당 업체의 EDR(📌) 보안 솔루션 '팔콘'의 최근 업데이트에 결함이 있었다. 새로운 패치가 일부 윈도우와 충돌이 발생하여 장애가 발생한 것이다. 해당 패치는 7월 22일 오후 1시경(한국 시간) 배포되었고 약 2시간 후인 오후 2시반경 롤백 조치가 되었다. 초기 배포와 롤백 사이 팔콘 소프트웨어가 설치된 윈도우 PC가 인터넷에 접속된 상태라면, 하자가 있는 패치가 자동으로 설치 및 실행되어 그 PC가 다운된다고 설명했다. 그러면서 블루 스크린이 뜨는 듯 하다.

 

크라우드스트라이크사의 팔콘(팰콘 센서) 소프트웨어를 설치하면 윈도우 부팅 시 자동 실행되어 악성코드의 흔적이나 패턴을 분석하고 감지하는 역할을 하는데, 이 소프트웨어는 부팅가 연계되어 작동하기에 문제가 발생하면 PC 부팅이 되지 않게 된다. 특히 윈도우 10과 11과 충돌한다고 한다.

[크라우드스트라이크사의 성명] https://www.crowdstrike.com/statement-on-falcon-content-update-for-windows-hosts-kr/

 

금일 장애에 대한 당사의 성명

금일 장애에 대한 당사의 성명 모든 소중한 고객 및 파트너님께, 오늘 서비스 중단에 대해 모든 분들께 진심 어린 사과 드립니다.  크라우드스트라이크의 모든 임직원은 이번 사태의 심각성과

www.crowdstrike.com

위의 내용처럼 보안 사고나 사이버 공격은 아니라고 한다.

 

정확히 어떻게 충돌나고 무슨 원인인지 알고싶은데,, 뉴스를 뒤져가며 아는게 쉽지 않다. 대부분 간단히 패치본과 윈도우가 충돌이 있었고, 이는 MS 클라우드부터 개인 PC까지 영향을 미쳤으며, 일괄로 복구는 어렵고 개개인이 PC 재부팅을 하는 등의 작업이 필요하여 복구에 시간이 굉장히 오래걸릴 것이라는 내용이다. (그리고 요즘 뉴스 내용들이 다 너무 복붙이야!)

 

나무위키가 모두 정확한 정보는 아니지만 읽다보니 흥미로운 내용이 많아 살짝 퍼왔다.

현지 시간 7월 20일에 발표한 두번째 공식 성명에서는 "하자가 있는 채널 파일이라는 .sys 파일이 배포되었다"의 내용과 문제가 된 채널 파일이 "논리적 오류를 일으켰다"라는 두리뭉실하고 원론적인 서술을 하여 사태의 근본적인 원인에 대해서는 추후의 발표를 기다리라며 말을 아꼈다.
 크라우드스트라이크 측에서 문제가 발생한 해당 .sys 파일 자체는 커널 드라이버는 아니지만, "채널 파일"이라는 특수한 파일이라 밝혔다. 문제가 된 채널 파일 291은 악성코드가 명명 파이프를 쓰고 있는지 추정하는 것을 정의하는 파일이라고 설명했다. 이런 채널 갱신은 하루에도 몇번씩 상시에 이루어지는데, 이 업데이트에서는 파일에 하자가 있어서 컴퓨터를 마비시켰다고 설명하였다.
한편 제3자의 업계 종사자에 의해 비공식적으로 분석한 결과에 의하면 문제가 된 해당 채널 파일은 전부 0(널 바이트)로 채워져 있었다고 한다.(https://x.com/jeremyphoward/status/1814364640127922499) 채널 파일을 읽고 그에 따라 적절히 역할을 수행하는 팰콘 센서 제품의 본 코드이자 커널 모드 드라이버인 CSAgent.sys가 비정상적인 채널 파일을 읽으면 그에 따라 적절한 오류 처리 없이 그냥 죽어버리고, 부팅도 막아버리는 것이다. 
 채널 파일 자체는 실행 가능한 커널 코드는 아닌데, 그것을 읽고 그에 따라 동작하는 CSAgent.sys는 커널 코드이기에 문제가 발생하면 시스템을 통째로 먹통으로 만들어 버린다. 사측에서 발표한 "채널 파일이 (CSAgent.sys)에 논리적 오류를 일으켰다" 성명과 일맥상통하다. 같다. 다만, 사측에서 널 바이트가 문제의 원인이 아니라고 기술했지만, 왜 문제의 원인이 아닌지, 문제된 그 파일이 전부 널 바이트인건 전혀 관련이 없는 건지는 설명을 하지 않아 사측의 추가적인 분석이 필요해 보인다.

 

정리해보면, 내부적으로 테스트가 안된건지 아니면 놓친건지 하자가 있는 파일이 포함된 패치본이 나갔고 이로인해 결과적으로 PC 부팅이 불가한 사태까지 벌어졌다. 일차적으로 이런 이슈를 발견 못하고 상시 업데이트를 진행하는 크라우드스트라이크사의 잘못이 커보이고 마이크로소프트도 일부 책임이 있다고 생각한다. 이번엔 단순히 기술 결함이었지만 보안 결함이나 악성 코드가 숨겨져있던 패치였었으면 이보다 훠어어얼씬 큰 문제가 되었을 것이다. 업데이트가 이렇게 마구잡이로 진행되다니,,

 

 

관련하여 주요 피해 사항들

완전히 복구되기까지는 몇주 걸릴 것으로 예상된다. 피해 사례들을 찾아보다 내가 알만하고 재밌어(?) 보이는 것들만 추려왔다.

참고) https://www.yna.co.kr/view/AKR20240720028300009?input=1195m

 

타임스스퀘어 광고판도 꺼졌다…전세계 IT 대란 피해 속출 | 연합뉴스

(서울=연합뉴스) 신재우 기자 = 19일(현지시간) 전 세계를 강타한 'IT 대란'으로 항공, 금융, 미디어, 의료, 물류, 공장 가동, 행정 ...

www.yna.co.kr

  • 독일 아마데우스 자회사 나비테어 시스템은 MS 클라우드 서비스 기반으로 운영되는 티켓 발권 시스템이다. 이를 사용하는 국내 저비용항공사(LCC) 이스타항공, 제주항공, 에어프레미아 등에서 항공권 발권, 예약 시스템이 작동하지 않아 직원들이 수기로 티켓을 발권하고 체크인을 진행하였다. 그 외에도 델타, 아메리칸에어라인, 젯스타, 홍콩 익스프레스 등도 같은 문제를 겪었다.
    참고로 가장 큰 피해를 입은 곳은 델타항공 이라고 함
  • 온라인 게임의 경우, 펄어비스의 '검은사막'과 그라비티의 '라그나로크' 시리즈 등에서 서버 불안정과 접속 장애가 발생했다. MS 엑스박스와 PC 게임 패스를 통해 서비스되는 일부 게임도 서버 장애가 발생했다.
  • 욕 타임스퀘어의 대형 전광판들이 동작하지 않았다.
  • 스타벅스 모바일 주문 및 결제가 일시적으로 불가했다.
  • 미국 JP모건체이스, 뱅크오브아메리카, 일본 노무라홀딩스의 직원들은 회사 시스템에 일시적으로 로그인을 할 수 없었고, 중국 하이통증권의 거래 시스템은 3시간 동안 먹통이었다. JP모건체이스의 현금자동입출금기(ATM)도 장애였다고 한다.
    영국 런던증권거래소의 뉴스서비스인 RNS는 한때 작동을 멈췄고, 호주 최대 은행인 커먼웰스 은행은 이체 서비스에 문제를 겪었다.
    또한 런던과 싱가포르의 석유 및 가스 거래 서비스, 호주 맥쿼리캐피탈, 남아프리카공화국 캐피텍 은행, 독일 알리안츠 보험사, 브라질 브라데스코은행, 인도의 일부 증권사들도 일부 서비스 장애를 겪었다고 보고했다.
  • 미국 일부 지역(알래스카)에서는 응급 구조 서비스인 911 신고가 먹통이 되고 매사추세츠 종합병원 등 일부 병원 비응급환자의 병원 진료를 제한했다.
    영국 공공의료 국민보건서비스(NHS) 시스템 마비로 의사들이 환자 진료 기록을 열람하지 못했고, 네덜란드와 독일 등에서는 예정된 수술이 취소되기도 했다.
  • 물류 및 운수 사업 분야의 경우 글로벌 해운사인 머스크, 미국 철도회사 유니언퍼시픽, 국제 화물운송업체 페덱스와 UPS 등 피해를 입었다.
  • 르노는 부품 공급업체들로부터 부품을 공급받지 못해 일부 공장의 가동을 일시 중단했다. 테슬라의 일부 생산 라인도 마찬가지이다.
  • 국내는 해당사항 없으나 MS 클라우드를 사용하는 정부와 공공기관의 피해도 있다. 독일 내무부, 아랍에미리트 외무부, 뉴질랜드 의회 IT 시스템에 문제가 있었다고 보도되었다.
  • 파리 올림픽의 경기 티켓 판매도 지장을 받았다. 영국 축구구단 맨체스터 유나이티드 티켓 발매 일정도 재조정해야했다.
  • 윈도우 PC를 사용하는 일반인들 가운데에도 장애로 인한 피해가 속출했다.

이 외에도 찾으려면 더 있을거같은데 너무 많아서 다 못보겠다..

 

 

복구 과정과 대처

일단 크라우드스트라이크에서 문제가 있던 패치본을 롤백했다.

크라우드스트라이크가 배포한 팰컨 제품군 최신 패치를 적용하여 윈도우 시스템이 비정상 종료되는 문제가 발생한 경우, 안전 모드에서 문제 파일 삭제 시 긴급 조치할 수 있다. 그러나 개인이 섣불리 인터넷에서 떠도는 정보로 해결하려 하다보면 또 다른 이슈가 발생할 수 있으니, 사내 IT 유관 부서의 안내를 따르거나 공식 페이지에 안내된 방식을 따라 할것!

 

 

이번 사태를 보면서 느낀 점

국내에서 이전에 카카오톡 장애났을때 상황과 종종 비교되어 얘기가 나오는 모양이다. 사실 카카오톡 장애 났을때도 말이 안된다 싶을정도로 국내 대부분의 서비스가 마비되었었고, 영향 범위도 아주 컸고, 무엇보다도 그런 큰 회사가 이렇게 장애 한번에 휘청이다니 싶었다. 화재 사고 한번으로 며칠간 장애가 이어지다니,, 해당 사태를 보면서 우리팀 내부적으로 장애 상황에 대한 훈련이나 카카오톡을 통해 보내지는 중요 알림톡에 대한 대응 방향이나,, 이런것들이 얘기되었었다. 클라우드는 어떻게 장애 대응을 하나,, 아직 클라우드를 사용해본 경험도 적고 그에 대한 지식도 적은 터라 감이 잘 잡히진 않지만 이번 MS 장애 발생의 해결 과정과 기업들의 대응들을 보며 공부해봐야겠다. 느낀점이라 할건 사실 딱히 없고,, 그저 흥미진진,, 

 

 


 

📌 EDR(Endpoint Detection and Response, 엔드포인트 위험 탐지 및 대응)

https://www.ibm.com/kr-ko/topics/edr

 

EDR(Endpoint Detection and Response) I IBM

EDR이 바이러스 백신 소프트웨어와 기타 기존의 엔드포인트 보안 기술을 넘어서는 사이버 위협으로부터 조직을 어떻게 연중무휴 24시간 보호하는지 알아봅니다.

www.ibm.com

실시간 분석 및 AI 기반 자동화를 사용하여 바이러스 백신 소프트웨어와 기존의 엔드포인트 보안 기술을 넘어서는 사이버 위협으로부터 조직을 보호한다.

 

엔드포인트의 보안을 강화할 목적으로 구축되어 표적형 공격이나 랜섬웨어 등에 의한 사이버 공격을 탐지하고 대응하기 위해 사용하는 엔드포인트 보안 솔루션이다. 주로 호스트/엔드포인트에서 발생하는 악성 행위를 실시간으로 감지하고 이를 분석 및 대응하여 피해 확산을 막는다. 주로 악성코드 랜섬웨어, 바이러스, 정보유출 차단목적으로 사용되나 ‘제로데이 공격(Zero day Exploit)’ 대응에 효과적인 것으로 알려져 있다. 가트너의 시니어 애널리스트 Anton Chuvakin에 의해 2013년 처음 EDR 이라는 용어가 정의되었다.

AV-TEST의 2016/2017 시큐리티 리포트에 따르면 매일 35만 개의 악성코드, 랜섬웨어 등 보안위협이 새롭게 발견된다. 최초로 발생한 변종/신종 악성코드는 안티 바이러스 엔진 안에 정보가 있지 않기 때문에 감염될 수밖에 없다. 지능화된 악성코드 APT 대응 솔루션을 탐지하는 기능을 탑재하고 있어 APT 대응 솔루션 발견시 활동을 중지하거나 어느정도의 시간이 흐른 이후 활동을 시작하기도 한다. 엔드포인트에 무사히 안착한 악성코드는 악성행위를 시작하고 상주하면서 대량의 정보를 유출하거나 랜섬웨어를 실행해 개인정보를 변조, 파괴할 수 있다.

https://ko.wikipedia.org/wiki/%EC%97%94%EB%93%9C%ED%8F%AC%EC%9D%B8%ED%8A%B8_%EC%9C%84%ED%98%91%ED%83%90%EC%A7%80_%EB%B0%8F_%EB%8C%80%EC%9D%91

 

엔드포인트 위협탐지 및 대응 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 이 문서의 내용은 광고처럼 작성되었습니다.이 문서를 편집하여 홍보성 내용을 제거하고, 중립적 시각에 의거한 백과사전적인 내용을 추가해 주세요. 내용에

ko.wikipedia.org

 

 

728x90

관련글 더보기

댓글 영역