
안녕하세요! AI 네이티브 옵저버빌리티 플랫폼, 와탭랩스입니다.
지난 11월 21일 금요일, 코엑스에서 약 500여 명의 운영자와 개발자분들과 함께 WhaTap Observe Summit 2025를 성공적으로 마무리했습니다. 이번 Summit은 “Observability와 AI, 새로운 IT 운영의 미래를 열다”라는 주제로 진행되었으며, 다양한 업계 리더들이 미래 IT 운영에 대한 인사이트를 공유했습니다.
이번 레터에서는, 그 중에서도 특히 주목할 만한 두 개의 주요 세션을 선정해 핵심 인사이트를 정리했습니다. 앞으로도 Summit에서 다뤄진 다양한 내용을 뉴스레터, 블로그, 유튜브 등 여러 채널을 통해 소개드릴 예정입니다. AI 시대의 IT 운영 흐름을 읽는 데 도움이 될 핵심 인사이트를 놓치지 않고 확인해보세요.
.png)
와탭랩스 CTO 김성조님의 키노트에서는 와탭이 지난 10년간 통합 모니터링 분야를 개척해 온 과정과 다가오는 AI 시대에 옵저버빌리티가 나아가야 할 방향에 대한 인사이트가 제시되었습니다. Part 1은 지난 10년의 여정, Part 2는 앞으로의 10년, 이렇게 두 가지 축으로 구성되었습니다. 핵심 내용을 아래에 정리해 드립니다.
와탭은 모바일 앱을 포함한 경량 서버 모니터링 SaaS로 여정을 시작했습니다. 운영 인력이 제한적인 스타트업도 언제 어디서든 서버 장애를 신속하게 감지하고 대응할 수 있도록 지원한다는 목표에서 출발했습니다.
초기에는 오픈 소스(Zabbix)를 활용하여 서비스를 운영하며 기능을 확장했지만, 모니터링 대상 서버가 약 2만 대 수준으로 증가하면서 성능과 운영 측면에서 여러 한계를 경험했습니다. 이에 와탭은 오픈 소스의 한계를 인식하고, 대용량 분산 처리가 가능하며 스케일 아웃이 용이한 자체 백엔드 플랫폼을 구축하는 방향으로 전환했습니다.
와탭은 자체 백엔드 플랫폼을 기반으로 APM(Application Performance Monitoring) 서비스를 런칭했으며, 단일 소스 코드를 사용하여 SaaS뿐만 아니라 온프레미스 형태로도 동시에 서비스를 제공하는 전략을 채택했습니다. 그러나 초기 시장에는 SaaS 여부보다는 개별 기능의 유무에 초점이 맞춰져 있었기 때문에 시장 확대는 예상보다 더디게 진행됐습니다.
.png)
온프레미스 도입 레퍼런스를 확보한 이후, 와탭은 APM에 이어 DB 모니터링(DPM)까지 서비스 영역을 확장하며 AP 서버와 DB를 함께 관리하려는 기업 요구에 대응했습니다. 하지만 당시 고객들은 APM, DB 모니터링을 각각 별도의 포인트 솔루션 단위로 도입하는 경향이 강해, 와탭의 통합형 전략은 각 분야의 전문 솔루션과 일대일 비교되는 도전 과제를 안고 있었습니다.
이러한 상황에서 와탭은 쿠버네티스(K8s)에 주목했습니다. 국내외 관련 툴이 전무하던 시기 와탭은 컨테이너 모니터링에 APM을 결합하는 차별화 전략을 시도했습니다. 이 과정에서 약 1년~1.5년간의 개발 끝에 '컨테이너 맵(Container Map)'이라는 독자적인 컨셉을 구축하며 시장을 선도하기 시작했습니다.

이후 컨테이너 환경에서 로그(Log) 모니터링 수요가 빠르게 증가하자, 자체 로그 엔진을 개발하여 메트릭스(Metrics), 트레이스(Trace), 로그(Log)를 모두 아우르는 옵저버빌리티(Observability) 체계를 완성했습니다.
이 플랫폼을 기반으로 와탭은 Istio, Redis, Kafka 등 광범위한 클라우드 네이티브 기술 스택과 OpenTelemetry, Prometheus 같은 오픈소스 생태계까지 통합적으로 수용하며 커버리지를 지속적으로 확장했습니다. 동시에 통합 모니터링에 대한 수요 증가에 발맞춰 브라우저 및 모바일 EUM(End User Monitoring), 네트워크 장비 모니터링, AI 시대의 핵심 인프라인 GPU 모니터링까지 지원 영역를 확대했습니다.
현재 와탭은 브라우저, 모바일, 애플리케이션, 서버, DB, 쿠버네티스, 네트워크(NMS), GPU까지 전체 기술 스택을 하나의 플랫폼에서 모니터링하는 국내 유일의 엔드 투 엔드(End-to-End) 통합 모니터링 솔루션으로 인정받고 있습니다.

이제는 클라우드나 SaaS 대신 ‘AI’가 새로운 기술 패러다임의 중심입니다. AI는 더 이상 단순한 개발 보조 도구가 아니라, 협업하는 동료 개발자가 되고 있으며 코드 작성, 시스템 설계, 문서 자동 생성, 그리고 특히 반복적 업무가 많은 테스트 코드 작성(TDD)까지 해결해 주면 개발 생산성을 폭발적으로 증대시키고 있습니다.
AI의 확산은 아키텍처 변화에도 직접적인 영향을 미칩니다. AI 도움으로 MSA 구현이 쉬워지면서 서비스 단위는 더 잘게 나뉘고, 시스템 전체의 복잡성은 기하급수적으로 증가할 것입니다. 수천 대 규모의 인프라가 수만 개의 개체(entity) 단위로 분리되는 환경에서 운영자가 이러한 복잡성을 직접 감당하는 건 사실상 불가능합니다.
따라서 옵저버빌리티 역시 AI 기반 접근(AIOps)으로 전환될 수밖에 없습니다. AI는 방대한 데이터에서 상관관계를 찾아내고, 패턴을 인식하며, 장애 원인을 빠르게 추론하는 데 필수적인 역할을 수행합니다.
하지만 AIOps 적용에는 난관이 있습니다. 로그와 트레이스의 데이터 사이즈가 너무 커서 이를 GPU 기반 AI 모델에 직접 적용하면 감당할 수 없는 비용이 발생합니다. 또한, 현재 AI(LLM)는 텍스트 분석에 강하지만, 모니터링 데이터의 주류인 시계열(수치 기반) 데이터 분석에는 상대적으로 약하다는 특성이 있습니다.
와탭은 이러한 문제를 해결하기 위해 데이터 레이크인 OpsLake를 개발하고 있습니다. OpsLake는 로그·메트릭·트레이스 등 모든 관측 데이터를 원시 형태부터 가공 데이터까지 저장하고, AI 모델이 이를 분석할 수 있도록 정제하는 데이터 브릿지 역할을 수행합니다.

대용량 분석은 오브젝트 스토리지, 실시간 비교는 Redis 캐시, 장기 패턴·경계값 관리는 MySQL 등 멀티 스토리지 구조를 적용했으며, AI가 생성한 인사이트·이상 탐지·예측 결과까지 저장해 보고·알림·운영 자동화에 활용할 수 있습니다. 이를 통해 OpsLake는 앞으로 AI-Driven Observability의 실행 허브로 자리 잡게 됩니다.
와탭은 이미 End-to-End 추적, 보고서 생성, 통합 이벤트 관리, 토폴로지 뷰 등 완성도 높은 통합 옵저버빌리티 기능을 제공하고 있습니다. 그러나 클라우드·컨테이너·SaaS·엣지로 확장되는 IT 환경과 기업 내부의 복잡한 비즈니스 구조는 더욱 높은 수준의 지능화된 운영을 요구하고 있습니다.
와탭은 단순 사용성 보조나 1차적 분석을 넘어, AI가 대규모 옵저버빌리티 데이터를 직접 해석하고 현재 상태를 판단하며, 문제 원인까지 추적하는 운영 지능화를 구현할 예정입니다. 지난 10년이 클라우드와 함께한 성장의 시기였다면, 앞으로의 10년은 AI와 함께 고객 시스템을 더 똑똑하고 안정적으로 만드는 여정이며, 와탭은 이를 통해 기업 전체를 관통하는 Next-Level Observability를 실현하고자 합니다.
이번 발표를 통해 김성조 CTO님은 와탭이 지난 10년간 서버 모니터링 SaaS에서 출발해 APM, DPM, 쿠버네티스, 로그, 네트워크, RUM, GPU까지 영역을 확장하며 국내 유일의 End-to-End 통합 모니터링 플랫폼으로 자리잡은 여정을 공유했습니다.
이어 AI가 개발 방식과 시스템 구조를 근본적으로 변화시키는 시대에는 옵저버빌리티 역시 AI 기반 구조로 재편될 수밖에 없다고 강조했습니다. 와탭은 OpsLake를 중심으로 메트릭스·트레이스·로그 데이터를 AI가 직접 해석할 수 있는 형태로 정제·통합하여 상관관계 분석, 이상 탐지, 원인 추론까지 지능화된 운영을 구현하고자 합니다. 이를 통해 향후 10년, AI가 운영을 주도하는 AI 기반 차세대 옵저버빌리티 플랫폼으로의 도약을 목표로 하고 있습니다.

AWS 임성현님의 발표는 기술 조직, 특히 실무 개발자와 운영 담당자가 비즈니스 이해관계자(의사결정자)를 효과적으로 설득하고, 조직의 수익 성장에 기여할 수 있는 실질적 방안을 제시합니다. 핵심 메시지는 장애 대응을 넘어 ‘비즈니스 옵저버빌리티’를 확보함으로써 기술 활동이 비즈니스 성과로 직접 연결되도록 하는 데 있습니다.
비즈니스 옵저버빌리티(Business Observability)는 기술적 징후를 비즈니스 언어로 해석하는 능력을 의미합니다. 단순히 CPU 80% 초과 같은 기술 지표를 확인하는 것이 아니라, 그로 인해 실제로 무엇이 얼마나 손실되는지(예를 들어 500건 주문 실패, 2,500만 원 손실)를 정량적으로 이해하는 데 핵심이 있습니다.
이 관점은 손실·리스크를 측정하는 Negative Metric(매출 손실, 고객 이탈, 서비스 중단 비용)과 성장·기회를 측정하는 Positive Metric(전환율 개선, 매출 증가율)을 모두 활용합니다. 특히 Negative Metric을 통한 손실 방지는 즉각적인 ROI를 제공하기 때문에 경영진 설득과 예산 확보에 가장 강력한 근거가 됩니다.
이를 위해 필요한 원칙 세 가지는 1) 고객 입장에서 불편이 발생한 지점을 측정하고, 2) 중요도에 따라 우선순위를 정하며, 3) 실시간으로 비즈니스 임팩트를 계산하는 것입니다.

이커머스 사례에서는 월 거래액과 평균 주문 금액 같은 실제 비즈니스 지표를 기반으로 크리티컬 패스(Critical Path)를 정의하고, 단계별 Negative Metric을 통해 장애 발생 시 손실을 어떻게 정량적활 수 있는지 소개합니다.
지면 관계상 본문에 다 싣지 못한 상세 내용은 별도 PDF로 정리해두었습니다. 이커머스 사례의 전체 스토리부터 즉시 적용 가능한 '4주 액션 플랜', GenAI 시대를 위한 대비책(Structured Logging과 동적 대시보드)까지 이어서 확인하실 수 있습니다.
오늘 레터에서는 WhaTap Observe Summit 2025의 두 가지 핵심 세션 내용을 요약해 전달드렸습니다. 내용과 관련해 궁금한 점이나 의견이 있으시다면 아래 링크를 통해 남겨주세요. 와탭 레터는 앞으로도 최신 IT 운영 트렌드와 현장에서 발견한 의미 있는 인사이트를 담아 매월 찾아뵙겠습니다. 감사합니다.