대단한 서비스를 운영하는 것도, 끝장나게 멋있는 개발자가 된것도 아니고,, 괜히 장애나 이슈라는 단어만 들으면 뜨끔하게 되는 어줍잖은 3년차가 되었다. 딱히 원하는게 있는건 아니지만, 요즘 내가 너무 바보가 되어가는거같아 의식적으로 블로그를 켜기 시작했다. 자소서 쓰거나 면접 준비할때 항상 뭐 개발자는 변화에 민감하고 ~ 이런 말들을 많이 하는데 실상은 아무것도 모르는 헐랭이다. 앞으로 주 1회 포스팅을 목표로 하겠어!
[속보] MS 클라우드 서비스 장애…세계 공항·통신 대란 - 결국 우리나라까지 덮쳤다 (이슈라이브) / SBS https://www.youtube.com/watch?v=etD-G1Vv29o
지난주 금요일, 퇴근하고 거실 왔다갔다하다 공항에서 마이크로소프트(MS) 클라우드 장애로 인해 몇 항공사가 수기발권하고있다는 뉴스를 보았다. 심지어 외국에서는 수기로 일기예보를 전한다는 뉴스도 보았다. (https://www.newsis.com/view/NISX20240722_0002819857)
정확한 내용으로는, 2024년 7월 19일 한국 시간 기준 오후 1시경 MS 윈도우 부팅 시 블루 스크린이 뜨는 문제(블루스크린 오브 데스, BSOD)로 세계 주요 기관 시스템 마비 및 서비스 중단이 되는 사고가 발생하였다. 국내에서 저가 항공사 3곳과 일부 외국계 기업을 중심으로 피해가 발생하였으나 국내는 크게 타격이 없다고 한다. 일단 국내 공공기관에서 MS 클라우드 사용하는 곳이 없고 대부분 국내 기업의 클라우드 서비스를 사용하고 있다고 한다. 뭐 이래저래 금방 해결되어 잠잠해질줄 알았는데 오늘 7월 22일 오전에 라디오뉴스에서 관련해서 들어보니,, 쉽사리 해결될만한 문제는 아닌걸로 보였다.
스쳐가는 기억으로 한 몇주 전 M365 글로벌 이슈로 메일 사용이 불가했던적이 있었는데.. 참 내부적으로 고생들 하고계시겠구만
이런 대란이 발생하게된 원인은 무엇인가
MS는 “이번 사고로 고객이 크라우드 스트라이크 팔콘 에이전트를 사용하는 윈도 컴퓨터에서 응답하지 않고 시작이 실패하는 현상이 발생하고 있다”며 “온프레미스와 함께 애저, AWS, 구글 클라우드 등 다양한 클라우드 플랫폼에 영향을 미쳤다”고 안내했다.
이어 “영향을 받는 여러 가상머신 중에 일부 가상머신을 재구동을 했을 때 성공적으로 시스템이 복구됐다는 소식을 전해들었다”며 “상황에 따라서는 여러 번의 재부팅이 필요할 수 있다는 피드백을 받았지만 지금 가장 효과적인 문제 해결을 위한 방법은 재부팅”이라고 설명했다.
https://m.boannews.com/html/detail.html?idx=131493
(나무위키발) 국내에서는 MS 클라우드 장애라고 떠드나 위의 장애와 별개로, 이미 클라우드 장애는 진행중인 상황이었다고 한다.
한국 시간 기준 오전 7~8시경부터 MS Azure 에서 설정을 잘못 건드려 스토리지와 서버 사이 연결에 문제가 발생하였으며 MS의 각종 클라우드 기반 서비스에 문제가 발생하고 있었다. MS 측에서 트래픽 우회 조치를 통해 장애 완화를 시도하였으나, 장애 자체는 12시간 이상 지속되었고 크라우드 스트라이크발 장애가 발생할때 까지도 여전히 해당 장애로 인한 영향은 남아있는 상태였다.
크라우드 스트라이크(CROWD STRIKE)는 미국의 보안회사로, MS에서 사용중인 해당 업체의 EDR(📌) 보안 솔루션 '팔콘'의 최근 업데이트에 결함이 있었다. 새로운 패치가 일부 윈도우와 충돌이 발생하여 장애가 발생한 것이다. 해당 패치는 7월 22일 오후 1시경(한국 시간) 배포되었고 약 2시간 후인 오후 2시반경 롤백 조치가 되었다. 초기 배포와 롤백 사이 팔콘 소프트웨어가 설치된 윈도우 PC가 인터넷에 접속된 상태라면, 하자가 있는 패치가 자동으로 설치 및 실행되어 그 PC가 다운된다고 설명했다. 그러면서 블루 스크린이 뜨는 듯 하다.
크라우드스트라이크사의 팔콘(팰콘 센서) 소프트웨어를 설치하면 윈도우 부팅 시 자동 실행되어 악성코드의 흔적이나 패턴을 분석하고 감지하는 역할을 하는데, 이 소프트웨어는 부팅가 연계되어 작동하기에 문제가 발생하면 PC 부팅이 되지 않게 된다. 특히 윈도우 10과 11과 충돌한다고 한다.
[크라우드스트라이크사의 성명] https://www.crowdstrike.com/statement-on-falcon-content-update-for-windows-hosts-kr/
위의 내용처럼 보안 사고나 사이버 공격은 아니라고 한다.
정확히 어떻게 충돌나고 무슨 원인인지 알고싶은데,, 뉴스를 뒤져가며 아는게 쉽지 않다. 대부분 간단히 패치본과 윈도우가 충돌이 있었고, 이는 MS 클라우드부터 개인 PC까지 영향을 미쳤으며, 일괄로 복구는 어렵고 개개인이 PC 재부팅을 하는 등의 작업이 필요하여 복구에 시간이 굉장히 오래걸릴 것이라는 내용이다. (그리고 요즘 뉴스 내용들이 다 너무 복붙이야!)
나무위키가 모두 정확한 정보는 아니지만 읽다보니 흥미로운 내용이 많아 살짝 퍼왔다.
현지 시간 7월 20일에 발표한 두번째 공식 성명에서는 "하자가 있는 채널 파일이라는 .sys 파일이 배포되었다"의 내용과 문제가 된 채널 파일이 "논리적 오류를 일으켰다"라는 두리뭉실하고 원론적인 서술을 하여 사태의 근본적인 원인에 대해서는 추후의 발표를 기다리라며 말을 아꼈다.
크라우드스트라이크 측에서 문제가 발생한 해당 .sys 파일 자체는 커널 드라이버는 아니지만, "채널 파일"이라는 특수한 파일이라 밝혔다. 문제가 된 채널 파일 291은 악성코드가 명명 파이프를 쓰고 있는지 추정하는 것을 정의하는 파일이라고 설명했다. 이런 채널 갱신은 하루에도 몇번씩 상시에 이루어지는데, 이 업데이트에서는 파일에 하자가 있어서 컴퓨터를 마비시켰다고 설명하였다.
한편 제3자의 업계 종사자에 의해 비공식적으로 분석한 결과에 의하면 문제가 된 해당 채널 파일은 전부 0(널 바이트)로 채워져 있었다고 한다.(https://x.com/jeremyphoward/status/1814364640127922499) 채널 파일을 읽고 그에 따라 적절히 역할을 수행하는 팰콘 센서 제품의 본 코드이자 커널 모드 드라이버인 CSAgent.sys가 비정상적인 채널 파일을 읽으면 그에 따라 적절한 오류 처리 없이 그냥 죽어버리고, 부팅도 막아버리는 것이다.
채널 파일 자체는 실행 가능한 커널 코드는 아닌데, 그것을 읽고 그에 따라 동작하는 CSAgent.sys는 커널 코드이기에 문제가 발생하면 시스템을 통째로 먹통으로 만들어 버린다. 사측에서 발표한 "채널 파일이 (CSAgent.sys)에 논리적 오류를 일으켰다" 성명과 일맥상통하다. 같다. 다만, 사측에서 널 바이트가 문제의 원인이 아니라고 기술했지만, 왜 문제의 원인이 아닌지, 문제된 그 파일이 전부 널 바이트인건 전혀 관련이 없는 건지는 설명을 하지 않아 사측의 추가적인 분석이 필요해 보인다.
정리해보면, 내부적으로 테스트가 안된건지 아니면 놓친건지 하자가 있는 파일이 포함된 패치본이 나갔고 이로인해 결과적으로 PC 부팅이 불가한 사태까지 벌어졌다. 일차적으로 이런 이슈를 발견 못하고 상시 업데이트를 진행하는 크라우드스트라이크사의 잘못이 커보이고 마이크로소프트도 일부 책임이 있다고 생각한다. 이번엔 단순히 기술 결함이었지만 보안 결함이나 악성 코드가 숨겨져있던 패치였었으면 이보다 훠어어얼씬 큰 문제가 되었을 것이다. 업데이트가 이렇게 마구잡이로 진행되다니,,
관련하여 주요 피해 사항들
완전히 복구되기까지는 몇주 걸릴 것으로 예상된다. 피해 사례들을 찾아보다 내가 알만하고 재밌어(?) 보이는 것들만 추려왔다.
참고) https://www.yna.co.kr/view/AKR20240720028300009?input=1195m
이 외에도 찾으려면 더 있을거같은데 너무 많아서 다 못보겠다..
복구 과정과 대처
일단 크라우드스트라이크에서 문제가 있던 패치본을 롤백했다.
크라우드스트라이크가 배포한 팰컨 제품군 최신 패치를 적용하여 윈도우 시스템이 비정상 종료되는 문제가 발생한 경우, 안전 모드에서 문제 파일 삭제 시 긴급 조치할 수 있다. 그러나 개인이 섣불리 인터넷에서 떠도는 정보로 해결하려 하다보면 또 다른 이슈가 발생할 수 있으니, 사내 IT 유관 부서의 안내를 따르거나 공식 페이지에 안내된 방식을 따라 할것!
이번 사태를 보면서 느낀 점
국내에서 이전에 카카오톡 장애났을때 상황과 종종 비교되어 얘기가 나오는 모양이다. 사실 카카오톡 장애 났을때도 말이 안된다 싶을정도로 국내 대부분의 서비스가 마비되었었고, 영향 범위도 아주 컸고, 무엇보다도 그런 큰 회사가 이렇게 장애 한번에 휘청이다니 싶었다. 화재 사고 한번으로 며칠간 장애가 이어지다니,, 해당 사태를 보면서 우리팀 내부적으로 장애 상황에 대한 훈련이나 카카오톡을 통해 보내지는 중요 알림톡에 대한 대응 방향이나,, 이런것들이 얘기되었었다. 클라우드는 어떻게 장애 대응을 하나,, 아직 클라우드를 사용해본 경험도 적고 그에 대한 지식도 적은 터라 감이 잘 잡히진 않지만 이번 MS 장애 발생의 해결 과정과 기업들의 대응들을 보며 공부해봐야겠다. 느낀점이라 할건 사실 딱히 없고,, 그저 흥미진진,,
📌 EDR(Endpoint Detection and Response, 엔드포인트 위험 탐지 및 대응)
https://www.ibm.com/kr-ko/topics/edr
실시간 분석 및 AI 기반 자동화를 사용하여 바이러스 백신 소프트웨어와 기존의 엔드포인트 보안 기술을 넘어서는 사이버 위협으로부터 조직을 보호한다.
엔드포인트의 보안을 강화할 목적으로 구축되어 표적형 공격이나 랜섬웨어 등에 의한 사이버 공격을 탐지하고 대응하기 위해 사용하는 엔드포인트 보안 솔루션이다. 주로 호스트/엔드포인트에서 발생하는 악성 행위를 실시간으로 감지하고 이를 분석 및 대응하여 피해 확산을 막는다. 주로 악성코드 랜섬웨어, 바이러스, 정보유출 차단목적으로 사용되나 ‘제로데이 공격(Zero day Exploit)’ 대응에 효과적인 것으로 알려져 있다. 가트너의 시니어 애널리스트 Anton Chuvakin에 의해 2013년 처음 EDR 이라는 용어가 정의되었다.
AV-TEST의 2016/2017 시큐리티 리포트에 따르면 매일 35만 개의 악성코드, 랜섬웨어 등 보안위협이 새롭게 발견된다. 최초로 발생한 변종/신종 악성코드는 안티 바이러스 엔진 안에 정보가 있지 않기 때문에 감염될 수밖에 없다. 지능화된 악성코드 APT 대응 솔루션을 탐지하는 기능을 탑재하고 있어 APT 대응 솔루션 발견시 활동을 중지하거나 어느정도의 시간이 흐른 이후 활동을 시작하기도 한다. 엔드포인트에 무사히 안착한 악성코드는 악성행위를 시작하고 상주하면서 대량의 정보를 유출하거나 랜섬웨어를 실행해 개인정보를 변조, 파괴할 수 있다.
[AWS] AWS SAA-03 요약정리 (1) | 2023.12.08 |
---|---|
[AWS] AWS SAA-03 (Solution Architect Associate) 자격증 후기 (1) | 2023.12.08 |
[티스토리] 티스토리 스킨 편집 | 폰트, 코드블럭, 이미지 추가 등등 (0) | 2022.11.19 |
모바일에서 외장하드 ipDISK 접속하기 (1) | 2022.05.25 |
ipTIME 공유기에 외장하드 연결해서 우리집 앨범(ipDISK) 만들기 (3) | 2022.01.10 |
댓글 영역