비용 10억 원 절감, 장애 대응 속도 2배 향상된 현대엔지니어링의 '통합 모니터링' 전환기

“서버를 왜 늘려야 하나요?”
“경험상 늘리는 게 안전합니다.”

현대엔지니어링 ICT팀의 자원 증설 논의는 종종 이런 대화로 시작되곤 했습니다. 당시에는 자원 증설의 필요성을 명확한 수치와 지표로 설명할 수 있는 공통의 기준과 데이터가 충분히 마련되어 있지 않았기 때문입니다.

이러한 상황은 장애 대응 지연, 불필요한 비용 증가, 부서 간 소모적인 논쟁으로 이어졌습니다. ICT팀은 이 문제를 개인의 판단이나 커뮤니케이션의 한계가 아니라, 운영 전반을 통합적으로 바라볼 수 있는 체계의 부재로 정의했습니다. 그리고 그 해법으로 통합 모니터링 기반의 운영 구조 전환을 선택했습니다.

이번 글에서는 현대엔지니어링 경영지원본부 ICT팀 김동현 매니저와의 인터뷰를 통해 당시 현대엔지니어링은 어떤 문제와 과제에 직면했고, 이를 어떻게 데이터 중심의 운영 체계로 해결해 나갔는지를 자세히 알아보겠습니다.

김동현 매니저는 사내 IT 인프라 및 운영 시스템의 안정성 확보를 비롯해 모니터링 체계 구축, DevOps 및 자동화 프로세스 기획을 담당하고 있습니다. 이번 통합 모니터링 체계 구축 프로젝트를 주도했으며, 애플리케이션·서버·컨테이너 모니터링과 ITSM 연동을 통한 운영 효율화에 집중하고 있습니다.

현대엔지니어링 경영지원사업부 ICT팀 김동현 매니저 — *현대엔지니어링 경영지원본부 ICT팀 김동현 매니저*

‍

———————

ICT 기반 스마트 운영을 강화하는 현대엔지니어링

현대엔지니어링은 플랜트, 건축, 자산 등 다양한 영역에서 종합 엔지니어링 솔루션을 제공하며, 전 세계를 무대로 사업을 전개하는 글로벌 기업입니다. 최근에는 ICT 기반의 스마트 운영을 강화하며 전사적인 디지털 전환을 적극 추진하고 있습니다.

———————

‍

도입 배경

Q. 와탭을 도입하기 전, 기술적으로 또는 운영상 어떤 어려움을 겪으셨나요?

이전 모니터링 환경은 서버, 애플리케이션, 컨테이너가 개별 도구로 파편화되어 운영되는 구조였습니다.

이로 인해 장애 발생 시 개별 시스템을 순차적으로 확인해야 했고, 서비스 전반의 흐름과 영향 범위를 한눈에 파악하기 어려운 구조였습니다. 실제로 장애 원인 분석에 수 시간이 소요되는 경우도 적지 않았으며, 이 과정에서 서비스 중단이 길어져 사용자 불만으로 이어지기도 했습니다.

또한, 기존 환경은 단순 임계치 기반의 에러 알람 중심이어서 장애가 발생한 이후에야 이를 인지하는 경우가 대부분이었습니다. 사전 징후를 감지하거나 선제적으로 대응하기에는 한계가 있었고, 오픈소스(Zabbix 등) 기반 모니터링 도구의 유지·관리 부담까지 더해지면서 운영 환경이 고도화될수록 안정적인 품질을 유지하기 어려웠습니다.

과거 일부 외산 솔루션을 도입해 중요 시스템 약 200대에 제한적으로 모니터링을 적용하기도 했습니다. 그러나 해당 솔루션은 가공된 형태의 고정된 웹 화면으로만 데이터를 제공한다는 한계가 있었습니다. 실무자가 다른 시각의 데이터나 새로운 지표를 확인하려면 별도의 화면 개발을 요청해야 했고, 실제 반영까지 오랜 시간이 소요되어 즉각적인 원인 파악이 어려웠습니다.

특히 서버 리소스 운영 측면에서는 객관적인 데이터 부족이 가장 큰 과제였습니다. CPU나 메모리 증설 여부를 판단할 명확한 기준이 없다 보니 논의는 경험과 직관에 의존하게 되었고, 동일한 주제를 두고 반복적인 논쟁이 이어지는 상황이 발생했습니다.

‍

Q. 이러한 한계는 조직과 서비스 운영에 어떤 영향을 미쳤나요?

모니터링 체계의 한계는 서비스 안정성과 운영 효율성에 직접적인 영향을 미쳤습니다.

장애 대응 시간이 길어질수록 고객 불만이 증가했고, 내부 업무 일정과 운영 프로세스에도 차질이 발생했습니다. 운영 인력은 반복적인 장애 분석과 원인 추적에 많은 시간을 투입해야 했으며, 그 결과 성능 개선이나 자동화 등 고부가가치 업무에 집중하기 어려운 구조였습니다.

또한, 서버 용량 산정과 자원 증설 관련 의사결정이 지연되면서 필요 이상의 보수적 증설이 이루어지거나, 반대로 적시에 조치하지 못하는 상황도 발생했습니다. 이는 운영 리스크와 비용 부담을 동시에 키우는 요인으로 작용했습니다.

ICT팀은 이러한 문제의 본질을 개별 시스템이나 인력의 한계가 아니라, 운영 전반을 통합적으로 바라볼 수 있는 솔루션이 없어 찾게 되었습니다.

인터뷰 중인 현대엔지니어링 경영지원사업부 ICT팀 김동현 매니저 — *인터뷰 중인 현대엔지니어링 경영지원본부 ICT팀 김동현 매니저*

‍

Q. 수많은 솔루션 중 왜 와탭(WhaTap)을 선택하셨나요?

이러한 배경 속에서 현대엔지니어링 ICT팀은 신규 모니터링 솔루션을 검토하던 과정에서 와탭을 접하게 되었습니다. 외산 솔루션과 국내 솔루션을 함께 비교, 검토하며 PoC를 통해 실제 운영 환경에서 기능과 안정성, 지원 수준을 직접 검증했습니다.

여러 대안을 검토한 끝에 와탭을 선택한 주요 이유는 다음과 같습니다.

첫째, 풀스택 모니터링을 단일 플랫폼에서 제공한다는 점입니다. APM, 서버, 로그, 쿠버네티스 환경까지 하나의 화면에서 통합 관리할 수 있어 운영 효율을 크게 높일 수 있었습니다.

*APM, 서버, 로그, 쿠버네티스 환경까지 하나의 화면에서 통합 관리하는 와탭(WhaTap)*

‍

둘째, 높은 비용 효율성입니다. 외산 솔루션 대비 총소유비용(TCO)이 현저히 낮아 예산 측면에서도 합리적인 선택이었습니다. 비용 시뮬레이션 결과 글로벌 솔루션은 와탭 대비 연간 비용이 약 2~3배 높게 책정되었습니다.

또한, 국내 기술 지원 조직을 통한 맞춤형 지원 역시 중요한 차별화 요소였습니다. 이전 솔루션 사용 시 한국 지사 외 본사 확인을 거쳐야 해 대응이 지연되는 경우가 많았으나, 와탭은 국내 기업으로서 즉각적인 기술 지원과 맞춤형 대응이 가능했습니다.

이로 인해 ITSM 연동, 알림톡·SMS 기반 알림 자동화 등 기존 운영 프로세스와 자연스럽게 연계할 수 있었던 점 또한 최종 도입 결정에 결정적인 역할을 했습니다.

‍

Q. 실제 도입 과정에서 기술 지원은 어떤 역할을 했나요?

도입 및 정착 과정에서 제공된 밀착 기술 지원은 현대엔지니어링 ICT팀에 큰 도움이 되었습니다. 10명 규모의 ICT팀에서 DevOps 및 SRE 역할을 단독으로 담당하는 1인 실무자가 전사 모니터링 체계를 구축해야 하는 상황에서 프로젝트 부담은 상당히 큰 편이었습니다.

하지만, 9월 PoC를 시작으로 이듬해 4월 구축이 완료되기까지 약 1년에 걸친 과정 동안 와탭 엔지니어들의 지속적인 지원이 이어졌습니다. 전담 엔지니어와 사내 메신저(Teams), 이메일을 통해 직접 소통하며 즉각적인 피드백을 주고받을 수 있었고, 대시보드 구성과 사용자 교육까지 함께 진행되었습니다.

단순한 솔루션 설치를 넘어 조직 전반에 ‘모니터링 문화’를 정착시키는 과정에서 이러한 기술 지원은 1인 실무자의 업무 부담을 크게 줄여주는 역할을 했습니다.

‍

도입 배경 요약

분산된 모니터링 체계로 인한 전사 가시성 부족
에러 중심 알람 구조의 한계 → 장애 조기 인지 어려움
기존 오픈소스(Zabbix 등) 유지보수 역량 부족으로 인한 대응지연
글로벌 및 기존 솔루션 대비 비용 효율성 확보 필요

‍

문제 해결

Q. 도입 이후 가장 먼저 체감된 변화는 무엇이었나요?

와탭 도입 이후 가장 먼저 체감된 변화는 장애 대응 속도의 개선이었습니다. 장애 발생 시 카카오톡과 이메일로 즉시 알림을 수신하고, 히트맵과 트랜잭션 추적을 통해 문제 지점과 원인을 빠르게 확인할 수 있게 되었습니다. 그 결과 과거 수 시간이 소요되던 원인 분석 시간이 크게 단축되었으며, 평균 대응 시간은 이전 대비 50% 이상 감소했습니다.

서버 리소스 운영 방식에도 변화가 나타났습니다. 실시간 메트릭을 기반으로 CPU·메모리 사용 추이를 분석하며 자원 증설 여부를 데이터 중심으로 판단하게 되었고, 경험이나 직관에 의존하던 논의는 자연스럽게 사라졌습니다. 이에 따라 부서 간 합의 과정과 의사결정 속도 역시 한층 개선되었습니다.

‍

Q. 운영 방식은 어떻게 달라졌나요?

모니터링 범위는 전 서버와 애플리케이션을 넘어 쿠버네티스와 로그 영역까지 확대되었고, 이를 통해 서비스 관점의 통합 가시성을 확보할 수 있었습니다.

또한, ITSM 연동으로 장애 알림과 티켓 발행이 자동화되면서 인시던트 등록부터 이력 관리까지의 흐름이 하나의 체계로 일관되게 연결되었습니다.

이러한 자동화 환경을 통해 운영팀은 반복적인 수작업에서 벗어나 성능 개선과 안정성 고도화와 같은 보다 전략적인 업무에 집중할 수 있는 기반을 마련하게 되었습니다.

‍

Q. 이 과정에서 가장 도움이 된 와탭의 기능이 있을까요?

가장 큰 효과를 낸 기능은 조건 기반 임계치 설정을 통한 장애 예방과 조기 대응입니다. 와탭은 단순한 임계치 초과 알람이 아니라, 시스템 메트릭과 패턴을 함께 분석해 보다 현실적인 기준을 설정할 수 있도록 지원합니다.

특히, 히트맵 패턴 경고와 이상치 탐지 경고 기능을 활용해 CPU 사용률 95% 이상, 메모리 사용률 90% 이상, I/O Wait 60% 이상과 같은 시스템별 임계치를 정교하게 설정했습니다. 여기에 히스테리시스(Deadband)와 지속 시간 조건을 적용해 일시적인 스파이크로 인한 불필요한 알람을 최소화했습니다.

*과거 패턴 기반 성능 예측으로 이상 징후를 자동 감지·알림하는, 이상치 탐지 알림*

‍

이러한 설정을 통해 장애 발생 이전에 이상 징후를 인지하고 선제 대응이 가능해졌으며, 결과적으로 장애 빈도와 운영팀 부담을 동시에 줄이는 효과를 거둘 수 있었습니다.

또한, 기존 솔루션이 고정된 화면만을 제공해 분석에 제약이 있었던 것과 달리, 와탭의 ‘플렉스 보드(Flex Board)’를 통해 이러한 한계도 해소되었습니다.

실무자는 유연한 대시보드 환경을 활용해 ‘서버의 특정 프로세스가 시간대별로 얼만큼의 메모리를 점유하고 있는지’와 같이 세밀한 이벤트 조건을 직접 설정하고, 입맛에 맞게 대시보드를 구성할 수 있게 되었습니다. 원할 때마다 필요한 지표를 즉각적으로 커스텀하여 볼 수 있는 환경은 분석 속도와 운영 편의성을 극대화했습니다.

*APM, 서버, 로그, 쿠버네티스 등 사용자가 원하는 데이터를 기반으로 대시보드를 구성하여 통합 관리할 수 있는 와탭의 플렉스 보드(Felx Board) 화면*

‍

도입 제품 및 범위 요약

‍‍애플리케이션 APM: Java, .NET 등 약 130여 개 업무 시스템 모니터링
인프라 모니터링: 서버, 쿠버네티스, URL, ICMP Ping, 로그 및 메트릭 실시간 수집
알림 연동: 이메일, UMS(SMS/알림톡), ITSM 티켓 자동 발행
부가 기능: Autoway(NETS SSO) 계정 연동, 사용자 권한 관리, 브라우저 모니터링(예정)

‍

핵심 성과

Q. 도입 이후 정량적, 정성적으로 어떤 성과가 있었나요?

와탭 도입 이후 가장 명확하게 나타난 성과는 장애 대응 시간의 단축입니다. 알림 자동화와 히트맵·트랜잭션 기반 분석을 통해 평균 장애 대응 시간은 이전 대비 50% 이상 단축되었습니다. 또한, 기존에 사용했던 외산 모니터링 솔루션 대비 약 10억 원 규모의 비용 절감 효과를 달성하며 실질적인 재무 성과도 확인할 수 있었습니다.

정성적 측면에서는 운영 방식이 장애 대응 중심에서 예방 중심 구조로 전환되었습니다. 반복적인 장애 처리 부담이 줄어들면서 운영팀의 업무 만족도가 높아졌고, 보다 안정적인 운영 환경이 정착되었습니다.

더 나아가 IT 운영 조직이 단순 지원 부서를 넘어 데이터 기반으로 비즈니스 안정성을 뒷받침하는 조직으로 인식되기 시작하면서, 사내 신뢰도 역시 함께 개선되었습니다. 이러한 변화는 DevOps 문화 확산의 기반이 되었습니다.

특히 IT 조직 내 고질적인 ‘블레임 게임(Blame Game)’이 사실상 사라진 점이 가장 큰 정성적 변화로 꼽힙니다. 과거에는 시스템에 문제가 생기면 명확한 근거 없이 ‘인프라 문제 아니냐’며 네트워크나 서버 팀을 탓하는 경우가 잦았습니다.

하지만, 와탭 도입 후에는 모든 부서가 동일한 대시보드 화면을 띄워놓고 회의를 진행하게 되었습니다. Teams 메신저나 이메일로 와탭 스냅샷을 공유하며 “이 구간에서 메모리 스파이크가 발생했다”는 식으로 객관적인 지표를 중심으로 논의가 이루어지면서, 감정적 소모 없이 원인을 규명하고 해결하는 문화가 자리 잡았습니다.

‍

Q. 실제 업무 프로세스에 어떤 변화가 있었나요?

도입 이전에는 장애 발생 시 운영자가 직접 서버에 접속해 로그와 시스템 상태를 개별적으로 확인해야 했습니다. 현재는 통합 대시보드에서 서비스 전반의 상태를 즉시 파악하고 대응할 수 있습니다. 예를 들어 특정 애플리케이션의 응답 지연이 발생할 경우 트랜잭션 추적을 통해 병목 구간을 빠르게 식별하고 즉각적인 조치가 가능합니다.

또한, 장애로 이어질 가능성이 있는 이벤트는 ITSM 내 인시던트로 자동 등록되어 일관된 프로세스로 관리되고 있습니다. 이를 통해 장애 이력 관리와 시스템 가용성 확보가 한층 체계화되었습니다.

‍

핵심 성과 요약‍

분산 추적(APM)으로 트랜잭션 가시성 확보
서버·애플리케이션·쿠버네티스·URL 통합 대시보드 구현
ITSM 티켓 자동 발행 및 UMS(알림톡·SMS) 실시간 알림으로 대응 프로세스 자동화
기존 대비 약 30% 수준의 비용으로 운영 환경 구축
성능 저하 조기 감지 및 선제 대응 체계 확립
표준 메트릭 기반 데이터 중심 의사결정 환경 구축

‍

향후 목표

Q. 향후 목표와 운영 고도화 방향이 궁금합니다.

WhaTap을 기반으로 현대엔지니어링 ICT팀은 장기적으로 운영 자동화 고도화(AIOps)와 DevOps 문화 정착을 주요 목표로 설정하고 있습니다. 장애 발생 이후 대응에 머무르지 않고, 장애를 사전에 예측하고 자원을 효율적으로 최적화할 수 있는 운영 체계 구축에 초점을 두고 있습니다.

특히 이러한 역량을 글로벌 프로젝트 환경까지 확장해, 대규모 인프라에서도 중단 없는 안정적인 IT 운영을 구현하는 것이 중장기 목표입니다. 이를 통해 ICT 운영이 단순 지원 기능을 넘어, 현장 프로젝트와 비즈니스 확장을 뒷받침하는 핵심 기반 역할을 수행하도록 발전시켜 나갈 계획입니다.

‍

마무리

이번 사례는 와탭을 통해 분산된 모니터링 환경과 경험 중심의 운영 방식에서 벗어나, 데이터 기반 통합 운영 체계로 전환한 과정을 보여줍니다. 통합 가시성 확보, 장애 대응 속도 개선, 비용 절감이라는 정량적 성과를 넘어 IT 운영이 조직 내 신뢰받는 의사결정의 기반으로 자리 잡았다는 점이 핵심입니다.

이는 단순한 모니터링 도구 도입 사례를 넘어, 운영 방식과 조직 문화까지 함께 진화한 전환 사례로서 대규모 인프라를 운영하는 기업들에게 실질적인 참고 모델이 될 수 있습니다.

현대엔지니어링처럼 분산된 가시성을 하나의 통합 관제로, 그리고 비용 절감까지 고려하고 있다면? 👉도입 문의하기