
복지포인트와 식대, 건강검진 등 다양한 복지 서비스를 제공하는 현대이지웰은 국내 기업 복지 시장 점유율 50%에 육박하는 대한민국 대표 ‘기업 복지 플랫폼’으로, 수많은 기업 임직원들이 매일 해당 플랫폼을 통해 복지 혜택을 이용합니다.
서비스 이용자가 많은 만큼 장애나 지연은 곧바로 이용 경험 저하로 이어집니다. 따라서 시스템의 안정성과 보안은 현대이지웰이 중요하게 관리하는 과제입니다.
현대이지웰은 3년 전 기존 베어메탈 기반 온프레미스 환경을 클라우드와 쿠버네티스, MSA 기반으로 전환하는 ‘차세대 시스템 프로젝트’를 추진했습니다. 인프라 구조가 복잡해지면서 기존에 분산되어 있던 모니터링 체계도 하나로 통합해야 했으며, 그 과정에서 와탭(WhaTap)으로 통합 모니터링을 구축했습니다.
이번 인터뷰에서는 인프라팀에서 솔루션 검토부터 구축과 운영까지 전 과정을 이끈 허형민 책임을 만나, 와탭을 선택한 기준과 도입 과정, 클라우드 전환 이후 달라진 운영 방식에 대해 들어봤습니다.

안녕하세요, 현대이지웰 테크본부 인프라팀에서 IT 운영을 담당하고 있는 허형민입니다. 현대이지웰에서 근무한 지는 올해로 7년이 됐습니다. 차세대 프로젝트를 통해 시스템을 클라우드로 전환한 이후에는 클라우드 서버와 EKS 기반 쿠버네티스 환경을 주로 관리하고 있습니다. 주요 시스템이 클라우드 환경에 모여 있어 네트워크와 데이터베이스 영역도 상시로 지원하고 있습니다.
차세대 프로젝트를 시작한 2023년부터 검토했습니다. 여러 도구로 분산되어 있던 모니터링 환경을 통합적으로 확인할 수 있는 솔루션을 찾는 과정에서 와탭을 알게 됐습니다.
RFP 제안서를 검토해 보니 여러 수행사가 해당 프로젝트에 와탭을 제안했습니다. 처음에는 APM(애플리케이션 성능 모니터링) 용도로만 검토했지만, 와탭이 제공하는 기능 범위를 확인하면서 통합 모니터링을 도입하는 방향으로 확대했습니다.

모니터링 도구가 영역별로 분산되어 있었습니다. 자바(Java) APM은 국내의 A 솔루션을 주로 사용했고, 일부 시스템에는 오픈소스인 스카우터(Scouter)를 사용했습니다. 데이터베이스는 또 다른 국내 B 솔루션을 각각 구축해 사용했으며, OS 영역은 별도 솔루션 없이 IDC에서 자체 개발한 오픈소스 모니터링 도구를 활용했습니다.
문제는 각 도구가 분리되어 있어, 시스템 전체의 연관 관계를 한 번에 확인하기 어렵다는 점이었습니다. OS 정보를 확인하려면 IDC에 연락해 자료를 받아야 했고, APM은 WAS에 따라 솔루션 A와 스카우터를 각각 확인한 뒤 관련 지점을 직접 찾아야 했습니다. DB 도구에서는 데이터베이스 영역만 볼 수 있어 애플리케이션이나 인프라에서 어떤 문제가 발생했는지 파악하기 어려웠습니다.
결국, 장애나 성능 문제가 발생하면 여러 도구를 따로 확인하고, 각 팀과 정보를 주고받아야 했기 때문에 운영 과정에서 상당한 피로가 있었습니다.

차세대 프로젝트의 시작점은 베어메탈 기반 온프레미스 환경을 전면적인 클라우드 환경으로 전환하는 것이었습니다. 기존에는 서버를 중심으로 운영 환경을 확인했다면, 클라우드 전환 이후에는 컨테이너와 쿠버네티스를 중심으로 봐야 했습니다. 여기에 MSA를 적용하면서 시스템 복잡도도 훨씬 높아졌습니다.
하지만, 기존 모니터링 시스템으로는 쿠버네티스 영역을 확인할 수 없었습니다. OS 영역도 불가능하고, 볼 수 있는 건 자바 쪽 정도였습니다. 이러한 구조로는 클라우드 환경을 안정적으로 운영하기 어렵다고 판단했습니다. 와탭을 검토해 보니 쿠버네티스부터 자바 APM, IaaS(Infrastructure as a Service), 로그까지 하나의 플랫폼에서 확인할 수 있었습니다. 이를 바탕으로 와탭 도입을 결정하게 되었습니다.
네, 몇몇 외산 모니터링 솔루션도 함께 검토했습니다. 마침 자회사에서 외산 솔루션을 사용하고 있어 제가 직접 방문해 운영 환경을 살펴보기도 했습니다. 기능이나 비용 측면에서는 충분히 검토할 만한 솔루션이었지만, 실제 운영과 커스터마이징, 기술 지원 측면에서는 와탭이 저희 환경에 더 적합하다고 판단했습니다.
차세대 프로젝트를 약 3년에 걸쳐 진행해야 했기 때문에 구축 기간 동안 안정적으로 지원받을 수 있는지도 중요했습니다. 이러한 요소를 종합적으로 검토한 결과 와탭이 저희 요구사항에 더 가까웠습니다.
개인적으로 와탭이라는 솔루션은 이전부터 알고 있었습니다. 그룹사 내부에서도 와탭을 사용하고 있었고, 클라우드로 전환하는 계열사들이 와탭을 많이 도입하는 분위기였습니다. 그래서 한섬이나 현대홈쇼핑에서 실제로 와탭을 운영하는 담당자들에게 직접 사용 경험을 물어봤고, 전반적으로 긍정적인 답변을 받았습니다.
특히 DB 영역은 기존에 국내의 B솔루션을 오랫동안 사용해 왔기 때문에 와탭으로 대체해도 문제가 없는지를 중요하게 확인했습니다. 두 솔루션을 비교해 본 결과, 주요 지표와 분석 결과에서 큰 차이가 없다는 것을 확인했고 이를 바탕으로 최종 검토를 마쳤습니다.
요청 사항을 빠르게 처리해 주신 점이 가장 기억에 남습니다. 일정이 촉박하고 까다로운 기술 지원 요청이 많았는데도 신속하고 정확하게 대응해 주셨습니다.
“일주일 뒤에 적용해야 하는데, 그전까지 설치하고 모두 연동해 주실 수 있나요?” 같은 급한 요청도 있었습니다. 그때마다 통합 모니터링 환경을 빠르게 구성해 주셔서 오픈 전 약 6개월 동안 시스템을 충분히 점검하고 활용할 수 있었습니다.
.png)
가장 큰 변화는 장애 대응 방식이 사후 대응에서 사전 예방으로 바뀐 것입니다.
예전에는 장애가 발생한 뒤에야 원인을 확인하고 조치하는 방식이었습니다. 지금은 각각의 모니터링이 아니라 하나의 통합 가시성으로 보기 때문에 EKS에서 문제가 발생하면 관련 DB 상태까지 바로 확인할 수 있고, 어느 파드(Pod)에 문제가 있는지와 어떻게 조치해야 하는지를 사전에 파악할 수 있습니다. 그 결과 실제 장애로 이어지는 경우가 많이 줄었습니다.
실제로, 서비스 오픈 전 와탭을 통해 지연 쿼리를 찾아내고 튜닝했습니다. DB 커넥션 이슈도 와탭으로 확인해 문제가 발생한 파드를 찾아 정리했습니다. 기존처럼 분산된 솔루션을 그대로 사용했다면 개별 시스템의 상태만 확인했을 겁니다. 특히 테스트 과정에서만 간헐적으로 발생하는 지연 쿼리는 발견하기 어려웠을 것이고, 실제 고객 트래픽이 유입된 이후 장애로 이어졌을 수 있습니다.
와탭을 통해 사전 점검을 하니 차세대 시스템을 큰 장애 없이 오픈할 수 있었습니다. 실무진의 운영 편의성을 높인 것은 물론, 고객에게 안정적인 서비스 경험을 제공하고 서비스 신뢰도를 확보했다는 점에서도 의미가 컸습니다. 경영진 역시 차세대 시스템을 안정적으로 오픈한 결과를 높게 평가했습니다.

차세대 이전 환경 대비 약 50% 이상 빠르고, 가시성을 갖추고, 장애를 예방할 수 있는 수준을 목표치로 잡았는데, 제가 보기에 목표했던 수준까지 모두 달성한 것 같습니다. 시스템 상태도 잘 보이고, 문제도 명확하게 확인할 수 있습니다.
그리고 클라우드 비용 측면에서도 효과가 분명합니다. 와탭 지표를 활용해 자원을 조정한 결과, 도입 이후 월 약 3천만 원 이상의 클라우드 비용 절감 효과를 얻고 있습니다.
자원 조정의 기준을 잡는 데 와탭 지표를 많이 활용했습니다. CPU·메모리 평균 사용량 한 달 치를 보고, 1~2%만 쓰는데 굳이 8코어나 16코어를 놔둘 필요는 없으니, 이런 자원의 사양을 실제 사용량에 맞게 조정했습니다. 디스크나 AIOps 관련 알림도 설정해 두고, 이상 징후를 확인하면서 자원을 증감하고 있습니다.
팀 간 소통이 훨씬 수월해졌습니다. 쿠버네티스 프로젝트명과 부하, 파드 증가 수, 쿼리 상태가 하나의 화면에 함께 나오기 때문에 문제가 예상되면 개발팀 담당자에게 바로 확인을 요청할 수 있습니다.
개발팀 담당자도 제가 보고 있는 화면을 동시에 확인할 수 있기 때문에 상황을 일일이 설명하지 않아도 됩니다. 같은 데이터를 보면서 문제를 파악하고 빠르게 조치할 수 있습니다.
예전에는 “이 부분이 문제인 것 같다”고 설명하고 근거를 전달하는 데만 시간이 걸렸습니다. 그 과정에서 문제가 장애로 번지거나 대응이 늦어지는 경우도 있었습니다. 지금은 애플리케이션 담당자와 운영 담당자 사이의 커뮤니케이션 부담이 크게 줄었습니다.


현대이지웰의 사례는 단순히 모니터링 도구 교체에 대한 이야기가 아니라, 베어메탈 기반 온프레미스 환경을 클라우드, 쿠버네티스, MSA로 전환하는 차세대 프로젝트에서 분산되어 있던 인프라, 애플리케이션, DB 가시성을 하나로 통한한 과정을 말해주고 있습니다.
이를 통해 현대이지웰은 장애가 발생한 뒤 대응하는 조직에서, 이상 징후를 사전에 발견하고 장애를 예방하는 조직으로 전환했습니다. 또한, 통합된 지표를 바탕으로 자원을 조정해 월 약 3천만 원 이상의 클라우드 비용을 절감하고, 개발팀과 운영팀이 같은 데이터를 보며 협업할 수 있는 환경을 마련했습니다.
쿠버네티스 전환을 앞두고 분산된 모니터링 환경으로 인해 고민하는 기업이나, 전자금융업처럼 높은 수준의 안정성과 보안 기준이 필요한 환경에서 통합 가시성을 확보하고자 하는 기업이라면 충분히 참고할 만한 사례입니다.
현대이지웰처럼 클라우드 전환과 통합 모니터링을 함께 고민하고 있다면?
.png)