본문

롯데쇼핑 e커머스의 MSA 와탭 모니터링 최적화 사례

작성일 2023년 12월 23일

customer-logo.jpg


롯데쇼핑 e커머스의 MSA 와탭 모니터링 최적화 사례

와탭의 모니터링을 사용 중인 고객사 ‘롯데쇼핑 e커머스’는 온오프라인을 통합해 편리한 고객경험을 제공하는 플랫폼 롯데ON을 운영하고 있습니다. 롯데ON은 전통 유통 강자로서 강점을 살려 온오프라인 7개의 사업 부문을 통합하여 만든 e커머스 통합 플랫폼인데요. 롯데온은 지난해 12월과 올해 1월, 처음으로 MAU 200만 명을 넘어섰고 하루 평균 트래픽은 33만을 유지하고 있습니다.

롯데ON은 기존에 다른 모니터링 서비스를 이용하다가 불편함을 느껴 와탭 모니터링으로 변경했다고 하는데요. 엔터프라이즈 기업인 롯데쇼핑 e커머스가 왜 와탭을 선택했는지, 어떻게 사용하고 있는지 보다 구체적인 이야기를 듣기 위해 정성민 대리님과 인터뷰를 진행했습니다.

Introduction : 고객사와 인프라 현황 소개

롯데ON 기업과 서비스에 대해 간단히 소개 부탁드립니다.

롯데ON은 롯데 대표 쇼핑몰을 하나로 모아 사용자 쉽게 접근이 가능하게끔 만든 e커머스 통합 플랫폼입니다. 롯데홈쇼핑, 하이마트, 슈퍼프레시 등을 하나의 플랫폼에서 모두 접근 가능하게 해 편리한 고객경험을 제공하는 서비스로, 온오프라인을 통합해 고객에게 신선한 스토리를 전달할 수 있도록 노력 중입니다

롯데 기업에서 다양한 서비스를 제공하고 있는데요, 어떤 환경에서 진행해 왔는지 궁금합니다.

저희는 다양한 디지털 여정을 겪으며 서비스를 제공했습니다. 1996년 온프레미스 환경에서 롯데인터넷백화점 서비스를 구축한 것을 시작으로, 15년도 16년도부터는 클라우드 환경으로 변경하여 나이키, 유니클로 서비스를 오픈했습니다. 이후에는 롯데인터넷면세점을 클라우드 환경에서 MSA로 구축했습니다. 2018년에는 엘롯데를 클라우드 네이티브 환경에 구축하였고, 마침내 롯데ON 서비스를 구축하게 되었습니다.

Challenge : 와탭 도입부터 사용 후기

와탭 모니터링 서비스를 도입하게 된 배경과 선택의 이유가 궁금합니다.

롯데온 서비스는 AWS 클라우드 내에서 EKS, MSA 구성으로 서비스가 되고 있습니다. 무엇보다도 롯데온의 아키텍처는 매우 복잡하게 구성되어 있기 때문에 이를 어떻게 모니터링 해야 할지가 구축 시기부터 저희에게 주어진 미션이었습니다. 특히 복잡한 아키텍처 구조와 함께 쿠버네티스 또한 모니터링해야 하는데 당시에는 쿠버네티스 모니터링 서비스가 많지 않았기도 했고, MSA로 나누어진 영역을 어떻게 실무자에게 신속하게 전달할 것인가가 큰 고민이었습니다. 다른 해외 모니터링 제품도 고려했지만 결국 와탭 선택했습니다. 와탭을 고른 가장 큰 이유는 직관적이고 익숙한 UI 때문이었습니다. APM이라고 하면 개발자는 물론 누구든지 쉽게 접근이 가능하고 확인할 수 있어야 한다고 생각했습니다. 이슈를 신속히 확인하고 공유할 수 있다는 점에서 와탭이 가진 직관적인 대시보드와 익숙한 UI가 매우 강력하기 때문에 선택하게 되었습니다.

와탭 도입 이후 어떻게 사용하고 계신지 궁금합니다.

저희가 많이 활용하고 있는 기능은 세 가지가 있습니다. 먼저 대시보드 현황입니다. 롯데온 서비스의 주요 비즈니스 지표인 결제건수, 주문건수 등과 같은 다양한 데이터를 그래프화 한 대시보드를 모니터링하고 있습니다. 이는 롯데온이 영향받을 수 있는 타 비즈니스 서비스로부터 신속히 대응할 수 있게끔 도움을 줍니다. 예를 들면 타 신용카드사에 이슈가 있어 주문 실패가 발생할 경우, 해당 결제수단을 제어해 이슈를 빠르게 대처 가능합니다.

두 번째는 유연한 알람 기능인데요. 저희 서비스는 MSA로 쪼개져 각 담당자가 나누어져 있기에 슬랙 채널 또한 따로 존재합니다. 각 MSA 서비스 이슈를 각 채널에 맞게끔 임계 설정이 가능하여, 각 담당자마다 적절한 알림을 받을 수 있습니다.

마지막 세 번째는 통계/보고서 기능입니다. 각 MSA별 발생하는 exception을 주간별로 확인할 수 있고, 이를 각 담당자에게 공유해 조치가 필요한 부분을 확인하고 팔로우업 하고 있습니다. 이러한 통계 정보는 이슈 사전 예방 기능과 함께 문제 원인을 분석하는 데에도 큰 도움이 되고 있습니다. 장애 시점에 어떤 exception이 많이 발생했는지 확인할 수 있게 도와줍니다.

와탭을 이용하면서 해결했던 경험에 대해 말씀해주세요.

이 부분에 있어서는 두 가지 경험을 말씀드릴 수 있을 것 같은데요. 먼저 첫 번째로는 포인트 적립 행사 때 발생한 이슈였습니다. 특정 상품에 설문을 작성한 고객을 대상으로 포인트를 적립해 주는 행사였는데요. 이벤트 설정이 잘못되어 모든 상품에 해당 이벤트가 적용되어 버렸습니다. 모든 상품에 리뷰 작성시 3000포인트를 지급하게 된 것인데요. 해당 내용이 다양한 인터넷 커뮤니티 사이트에 급속도로 퍼지게 되면서 순간적으로 대량의 트래픽이 몰리는 상황이 벌어졌습니다. 이로 특정 POD에 CPU가 크게 상승해 트랜잭션을 처리하지 못 하고 지연이 발생되는 상황이었습니다.

당시 해당 상황에서 와탭의 EKS POD 모니터링 대시보드를 아주 잘 활용하여 해결했습니다. 해당 대시보드 각 POD 컨테이너별 자원 상황을 실시간으로 확인할 수 있어 직관적으로 모니터링이 가능할 수 있었습니다. 또한 각 임계 설정을 설정할 수 있어, 조건에 맞게 알람이 발생해 관련 실무 담당자가 바로 확인할 수 있도록 해 줘 큰 도움이 되었습니다. 또한 통계 지표를 활용해 해당 시점에 문제가 되었던 특정 URL 확인할 수 있었고, 해당 URL을 추후 이슈 발생시 제어가 바로 가능하게끔 조치할 수 있었습니다.

두 번째는 연간 약 2회 정도 진행하는 대규모 이벤트 기간에 발생한 이슈였습니다. 일주일 정도의 기간 동안 진행되는 이벤트로, 해당 기간 동안 대량의 쿠폰을 고객에게 발급하는데요. 고객이 보유한 쿠폰이 많아지면서 상품 결제시 최대 할인가 적용 로직에 큰 부하가 발생했습니다. 이로 할인가 적용 관련 POD에 OOM이 발생하는 상황이 벌어졌습니다. 이 이슈에서 저희는 와탭의 Heap 모니터링을 사용했습니다. 이슈 시점과 평소를 비교해 주는 그래프를 확인해 보니, 문제가 되었던 부분은 SQL 패치건수가 크게 증가한 것이었습니다. 장애 시점에 SQL 패치건수와 현재 SQL 패치건수를 비교 모니터링 하여 동일 이슈가 발생하지 않게끔 대응할 수 있었습니다. 또한 각각의 컨테이너별 힙메모리 임계 설정을 통해 OOM 조짐이 보이면 바로 조치할 수 있도록 설정하여 지금까지 유용하게 사용하고 있습니다.

Management : 와탭 고객 지원 서비스와 향후 계획

향후 와탭을 어떻게 이용하실 예정인가요?

앞서 든 예시 이외에도 MSA로 구조 전환 후 다양한 이슈를 겪고 있습니다. 이는 MSA로 바뀌며 한 트랜잭션에 여러 개의 서비스의 연결되어 있고, 잠재된 위험 요소들이 산재하고 있게 되었기 때문입니다. 단순히 APM 대시보드로 이슈만 감지하는 게 아닌 여러 복잡도가 높아진 아키텍처에서 다양한 분석을 해야 하는 경우가 많아지고 있습니다. 이는 단순 모니터링에서 옵저버빌리로 나아가야하는 미션이 주어진 것입니다. 앞으로 롯데온이 옵저버빌리티로 나아가기 위해 와탭에 수집된 메트릭을 모두 활용하고, 적극적으로 가시성을 확보하기 위해 노력하고 있습니다. 현재도 와탭 엔지니어분들과 협업해 추가적인 메트릭을 활용할 수 있도록 하고 있습니다.

와탭 모니터링 솔루션을 사용해야 하는 이유에 대해 말씀해 주세요.

저명한 경영학자인 피터드러커가 말한 "측정할 수 없으면, 관리할 수 없다."라고 말했습니다. 단순 품질경영을 관리하기 위한 모니터링에서, 더 나아가 옵저버빌리티를 적용하기 위해서는 최대한 데이터를 수집해 적재적소에 활용해야만 합니다. 이러한 옵저버빌리티를 확보하고 활용하기 위해 와탭의 모니터링 솔루션은 반드시 필요합니다.

서비스 성능관리는 와탭 애플리케이션 모니터링으로!
와탭 무료로 시작하기

지금 바로
와탭을 경험해 보세요.