
온누리스토어는 온누리약국 체인을 모체로 한 D2C 헬스케어 커머스 플랫폼으로, 해외 유망 헬스케어 브랜드의 국내 유통과 자체 브랜드(PB) 상품 개발을 동시에 전개하며 빠르게 성장하고 있습니다. 특히, 특정 시간대에 트래픽이 집중되는 공동구매, 특가 이벤트 등 공격적인 마케팅을 전개하는 구조상 서비스 안정성은 곧 매출과 직결되는 핵심 경쟁 요소입니다.
그러나 AWS ECS 기반 컨테이너 환경에서 운영되던 기존 시스템은 지속적인 OOM(Out Of Memory) 문제와 트래픽 급증 시 발생하는 DB 락 웨이팅으로 인해 반복적인 서버 다운을 겪고 있었습니다. 문제의 정확한 원인을 특정하기 어려운 상황에서 인스턴스 사이즈를 상향하는 방식으로 대응하다 보니, 고사양 인프라가 비효율적인 코드와 구조적 병목을 가리는 임시방편으로 작동하고 있었고, 그 결과 클라우드 비용은 점점 증가하는 구조가 고착화되고 있었습니다.
온누리스토어는 이러한 추측 기반의 오버프로비저닝 운영에서 벗어나기 위해 와탭(WhaTap)을 도입하였습니다.
트랜잭션 분석과 메모리 추세, 힙덤프 기능을 통해 병목 구간과 메모리 누수의 근본 원인을 식별하고 구조를 개선함으로써 서비스 성능을 안정화하는 동시에 인프라 스케일다운을 달성하였습니다. 그 결과, 단순한 장애 대응 수준을 넘어 데이터 기반의 최적화 체계로 전환하는 계기를 마련하였습니다.
본 사례는 성능 이슈를 단순한 인프라 증설로 대응하는 방식에서 벗어나, 소프트웨어 구조를 정밀하게 진단·개선함으로써 비용 효율성과 서비스 안정성을 동시에 확보한 전환 사례입니다. 온누리스토어의 구체적인 도입 배경과 문제 해결 과정을 온누리스토어 개발팀 김종인 팀장과의 인터뷰를 통해 살펴보겠습니다.
김종인 팀장은 2024년 온누리스토어에 합류하여 개발팀을 리딩하고 있습니다. 주요 업무로는 스토어 커머스 전반의 서버 및 백엔드 운영, 데브옵스(DevOps) 환경 관리, 그리고 최근 새롭게 시작한 AI/LLM 기반 신규 프로젝트를 총괄 리딩하고 있습니다.
———————
온누리약국을 기반으로 성장한 헬스케어 커머스 플랫폼, 온누리스토어
온누리약국 체인을 기반으로 성장한 온누리스토어는 D2C 헬스케어 커머스 플랫폼을 운영하고 있습니다. 현재 약 80명 규모의 직원이 근무하고 있으며, 자사 브랜드(PB) 상품뿐만 아니라 차일드라이프(어린이 영양제), 테라브레스(구강청결제) 등 해외 유명 브랜드를 수입해 브랜딩 및 유통하는 커머스 사업이 주요 매출원입니다.

———————
와탭 도입 이전, 온누리스토어는 지속적인 OOM(Out Of Memory) 문제와 트래픽 급증 시 발생하는 DB 락 웨이팅(Lock Waiting)으로 인해 서버가 비정상 종료되고 재기동되는 상황을 반복적으로 겪고 있었습니다.
특히 공동구매(공구)와 같은 이벤트성 프로모션이 진행될 때마다 트래픽이 급격히 증가하면서 서비스 중단 위험이 상시 존재하는 구조였습니다. 초기 개발 단계에서 구조적 완성도가 충분히 정교하지 못했던 영향으로 하루 평균 10건 내외의 메이저 에러가 발생했으며, 이는 안정적인 서비스 운영을 저해하는 핵심 리스크로 작용하고 있었습니다.
당시 백엔드에는 N사, 프론트엔드에는 S사 같은 외산 모니터링 솔루션을 사용하고 있었습니다. 그러나 소규모 조직 특성상 높은 러닝 커브를 감수하며 세부 설정을 정교하게 튜닝하기에는 현실적인 제약이 있었습니다.
또한, 서비스 전반을 조망할 수 있는 통합 지표가 부족해 장애 발생 시 근본 원인을 즉시 파악하기 어려웠고, 결국 AWS ECS 서버에 직접 접속해 컨테이너 로그를 수동으로 확인해야만 상황을 추론할 수 있는 비효율적인 구조가 이어졌습니다.
이로 인해 근본 원인을 해결하기보다는 인스턴스 사양을 상향하는 방식으로 대응하는 관성이 형성되었습니다. 원인을 특정하지 못한 채 고사양 인스턴스를 유지하는 오버프로비저닝 구조가 고착되었고, 클라우드 비용은 지속적으로 증가했습니다.
특히 개발 인력이 2명에 불과했던 시기에는 추가 자원 확보를 적극적으로 요청하기 어려워 운영 부담과 비용 비효율이 동시에 누적되는 상황이었습니다.
이전 직장에서 와탭을 경험했던 전임 팀장님의 추천이 계기가 되었습니다. 실무 활용 경험에 기반한 제안이었기에 도입에 대한 신뢰도가 높았고, 현재 조직의 운영 환경에도 충분히 적합하다고 판단했습니다.
선택의 가장 큰 이유는 비용 효율성과 통합 운영 가능성이었습니다. 기존에는 두 가지 외산 솔루션을 각각 도입·운영하며 별도의 비용을 지출하고 있었지만, 유사한 수준의 예산으로 와탭 하나로 통합 운영이 가능했습니다.
현재는 와탭을 통해 APM, 브라우저, RDS 모니터링을 단일 플랫폼에서 통합 관리하고 있으며, 하나의 화면에서 전체 서비스 흐름을 파악할 수 있는 환경을 구축했습니다.
가장 인상적이었던 점은 ‘직관성’과 ‘낮은 러닝 커브’였습니다. 외산 솔루션은 기능은 많지만 사용자가 직접 커스터마이징해야 하는 영역이 많아 초기 학습 부담이 높은 편입니다. 반면 와탭은 첫 화면에서 제공되는 대시보드, 트랜잭션, 히트맵만으로도 주요 성능과 에러 지표를 대부분 파악할 수 있어 저희 같은 소규모 조직에서도 효율적으로 활용할 수 있었습니다.

도입 초기에는 지표 해석이 익숙하지 않았지만, 와탭의 실시간 채팅 상담과 담당자의 방문 교육이 큰 도움이 되었습니다. 본사가 국내에 있어 대응 속도가 빠르고, 이후에도 필요한 자료와 가이드를 지속적으로 제공하는 등 밀착 지원이 인상적이었습니다.
메모리 누수(OOM)와 DB 락 웨이팅 문제를 모두 해결할 수 있었습니다. 와탭 도입 직후 메모리 추세선을 통해 가비지 컬렉션(GC) 이후에도 메모리가 정상적으로 회수되지 않는 패턴을 확인했고, 이를 통해 메모리 누수 가능성을 빠르게 파악했습니다. 이후 힙덤프를 생성해 분석한 결과 특정 라이브러리가 원인임을 3일 만에 식별하고 제거할 수 있었습니다.

이와 함께 트랜잭션 추적 기능을 통해 주문 관련 API 구간에서 지연이 발생하고 있음을 확인했습니다. 병목 구간을 정밀 분석한 뒤 RDBMS 중심 구조에서 Redis 기반 캐시 구조로 의존성을 분산시켜 DB 락 웨이팅 문제를 근본적으로 해소했습니다.

서버가 비정상 종료되던 근본 원인을 해결하면서 CPU와 메모리 사용량이 눈에 띄게 안정화되었습니다. 문제 해소 이후 기존 인스턴스 사양이 과도했다는 점을 명확히 인지하게 되었고, 이에 따라 본격적인 스케일다운을 진행해 비용을 크게 절감할 수 있었습니다.
또한 특정 브라우저(인스타그램 인앱 브라우저 등) 환경에서 발생하던 프론트엔드 오류 역시 브라우저 모니터링을 통해 사전에 확인하고, 방어 코드를 적용해 사용자 영향도를 최소화할 수 있게 되었습니다.
트랜잭션 분석, 히트맵, 메모리 추세선, 힙덤프 생성 기능이 핵심적인 역할을 했습니다. 이 기능들을 통해 병목 지점과 구조적 문제를 데이터 기반으로 식별하고, 단기간 내 개선 조치를 실행할 수 있었습니다.

와탭 도입 이후 정량적 성과가 매우 뚜렷합니다. 불필요하게 컸던 인스턴스를 줄이면서 ECS 서버 단독 비용은 50% 이상, 전체 AWS 클라우드 비용은 23%나 절감했습니다. 또한, 과거 하루 평균 10건씩 쏟아지던 메이저 에러는 현재 주 1건 미만 수준으로 크게 감소했습니다.
정성적인 변화도 분명했습니다. 개발팀의 운영 스트레스가 크게 줄고 생산성이 향상되었습니다. 과거에는 장애 발생 시 클라우드 환경에 직접 접속해 도커 로그를 일일이 확인해야 했지만, 이제는 해당 시간대의 와탭 트랜잭션만 확인하면 병목과 에러 지점이 바로 타겟팅되기 때문입니다.
가장 큰 장점으로는 단연 ‘직관성’을 꼽을 수 있습니다. 새로운 팀원이 합류하더라도 러닝 커브가 완만해 약 일주일 정도면 주요 화면을 이해하고 분석에 활용할 수 있을 정도입니다. 별도의 복잡한 커스터마이징 없이도 필요한 핵심 지표를 한눈에 파악할 수 있다는 점이 특히 만족스럽습니다.
현재 MSA 기반으로 신규 LLM 서비스를 구축하는 프로젝트를 진행하고 있습니다. 와탭에서 향후 LLM 전용 모니터링 제품을 출시할 예정인 것으로 알고 있으며, 도입이 가능하다면 해당 기능을 활용해 거대 언어 모델의 응답 품질을 튜닝하고, 데이터 흐름을 시각적으로 분석할 수 있는 환경까지 고도화하는 것이 장기적인 목표입니다. 이를 통해 AI 기반 신규 서비스 운영에서도 안정성과 가시성을 동시에 확보하고자 합니다.
와탭은 다른 기업에도 적극 추천할 수 있는 솔루션입니다. 실제로 향후 다른 조직에서 개발 리딩을 맡게 되더라도 적합한 모니터링 환경이 없다면 와탭을 다시 도입할 계획입니다. 빠른 고객 지원과 직관적인 사용 경험은 다른 어떤 솔루션과 비교해도 경쟁력이 높다고 판단합니다.
특히, 이커머스처럼 특정 시간대에 트래픽이 집중되는 산업군에 매우 적합합니다. 다수 사용자가 동시에 재고 등 동일 데이터에 접근할 때 발생하는 임계 구간이나 락 웨이팅 문제는 원인 파악이 쉽지 않은데, 와탭의 히트맵과 트랜잭션 추적 기능을 활용하면 병목 지점을 빠르고 정확하게 시각적으로 확인할 수 있기 때문입니다.

이번 사례는 단순히 모니터링 도구를 교체한 사례가 아닙니다. 온누리스토어는 와탭을 통해 추측에 의존한 오버프로비저닝 운영에서 벗어나, 트랜잭션과 메모리 데이터를 기반으로 한 구조적 개선 중심의 운영 체계로 전환했습니다.
그 결과 트래픽 병목을 해소하고 OOM 및 락 웨이팅 문제를 근본적으로 해결했으며, ECS 서버 비용 50% 이상 절감, 전체 AWS 클라우드 비용 23% 절감이라는 명확한 정량적 성과를 달성했습니다. 장애 발생 빈도 역시 하루 평균 10건 수준에서 주 1건 미만으로 감소하며 운영 안정성이 실질적으로 개선되었습니다.
특히 의미 있는 지점은, 성능 문제를 더 큰 인프라로 덮는 방식이 아니라 소프트웨어 구조를 정밀하게 진단하고 최적화함으로써 비용과 안정성을 동시에 확보했다는 점입니다. 이는 트래픽 변동성이 큰 이커머스 환경에서 모니터링이 단순한 관제 수단을 넘어 매출 손실을 방어하고, 마케팅 활동을 안정적으로 뒷받침하는 전략적 인프라로 기능할 수 있음을 보여줍니다.
온누리스토어 사례는 데이터 기반 운영이 조직의 경쟁력을 어떻게 강화하는지를 보여주는 실질적인 참고 모델이라 할 수 있습니다.