CPU의 성능 지표는 서버의 성능을 의미하는 척도로 사용합니다. IT 관련 솔루션들은 서버의 성능에 따른 가격체계를 가지는 경우가 많은데, 이런 경우 대부분 CPU의 코어를 기준으로 가격을 책정하는 것도 같은 이유입니다. CPU의 사용률이 일정 이상을 넘어가면 서비스에 영향을 주기 시작하므로 모든 CPU 값에는 임계 값을 설정해야 합니다. 임계 값은 보통 경고와 심각으로 나누어서 주게 되는데, 경고는 향후 일어날 일을 미리 감지하기 위한 용도이고 심각은 즉시 조치를 취해야 하는 경우를 산정하여 설정하게 됩니다. 하드웨어를 추가로 구매하거나 CPU를 사용하는 애플리케이션의 성능을 조정하는 등의 방법을 통해 문제를 해결해야 합니다.
임계 값을 어떻게 설정해야 할지 고민을 하는 경우가 많은데, 이는 실제 운영을 통해 알아 나가야 합니다. 참고가 되는 글을 소개합니다. 어떤 시스템이 잘 운영되는 시스템일까요?
위에 화면은 와탭에서 제공하는 CPU 임계 값 설정화면입니다. 일반적으로 CPU의 임계 값을 설정할 때는 지속시간을 함께 지정해야 합니다. 예를 들어 지속시간이 1분으로 잡혔다면 CPU가 해당 임계 값을 1분 이상 유지한 경우에 경고 또는 위험으로 인지하겠다는 의미입니다. CPU의 사용률은 순간적으로 급격히 높아질 수도 있기 때문에 모든 임계 값들은 지속시간을 가지고 있도록 설계하는 것이 일반적입니다. 이 또한 직접 시스템을 운영하면서 수정해 나가야 합니다.
메모리를 모니터링하면 서버의 메모리 사용량이 임계치를 넘어갈 경우 알림을 받을 수 있습니다. 메모리에 대한 디테일한 구분은 OS에 따라 달라질 수 있는데, 일반적으로 버퍼 및 캐시 메모리를 포함하여 메모리의 사용량을 체크하게 됩니다. 메모리의 사용량이 너무 빨리 소모되거나 또는 지속적으로 사용량이 떨어지지 않는다면 해야 이슈에 대한 대책을 세워야 합니다.
와탭의 서버 모니터링에서는 메모리의 사용량과 SWAP 메모리의 사용량 모두에 임계 값을 설정할 수 있습니다. 일반적인 경우 SWAP 메모리는 50% 이상 사용되지 않는 것이 좋지만 이 또한 시스템 구성에 따라서 다를 수 있습니다.
Disk I/O는 네트워크 드라이브를 사용하는 경우 꼭 확인해야 하는 모니터링 요소입니다. 디스크의 읽는 속도, 쓰기 속도, 대기열, 대기시간의 비율 등을 모니터링 합니다.
디스크의 사용량을 모니터링에서는 디스크 사용량의 임계 설정을 통해 시스템의 하드 드라이브 사용량이 임계 값에 도달했을 때 알림을 받을 수 있습니다. 디스크 공간이 남지 않을 경우 애플리케이션의 오류, 데이터 손실, 서비스 중지 등의 치명적인 문제가 발생하게 됩니다.
와탭에서는 DISK I/O의 Busy time(대기 시간의 비율)과 DISK 사용량에 임계 값을 설정할 수 있습니다. 간단한 설정을 통해 핵심 지표에 대한 수치를 관리합니다.
네트워크 모니터링에서는 네트워크 인터페이스의 입출력 트래픽 속도와 오류 패킷 등을 모니터링할 수 있습니다. 네트워크에서 발생하는 문제는 찾기도 어렵고 시간이 지나서는 증명하기 힘들 수도 있습니다.
와탭에서는 입출력 트래픽의 합을 임계 값으로 설정하도록 되어 있는데 이는 사용성의 편의를 최대한으로 높이기 위한 방편입니다. 트래픽과 PPS(Packet Per Second) 둘 다 외부의 과도한 입출력을 체크하는 용도입니다.
이외에도 프로세스 모니터링, 로그 모니터링, 이벤트 모니터링도 서버를 운영하고 문제를 해결하는 데 도움이 되지만 정말 개발만 해야 하는 상황이라면 위에 4가지 요소는 평소 체크할 수 있도록 모니터링 시스템을 구축하길 바랍니다.