AI·GPU

2026-04-21

에이전틱 AI 시대, 옵저버빌리티와 하네스 엔지니어링

현대 IT 환경에서 시스템 상태를 정확히 파악하고 문제를 선제적으로 해결하는 옵저버빌리티(Observability)의 중요성은 나날이 커지고 있습니다. 특히 AI 기술이 급격히 발전하면서, 정해진 데이터를 수집하고 임계치 알람을 제공하던 수동적 모니터링을 넘어, AI가 스스로 이상 징후를 진단하고 해결책을 제시하는 '지능형 모니터링'으로 패러다임이 전환되고 있습니다.

이번 글에서는 AI 모델의 진화 과정을 단계별로 살펴보고, 스스로 사고하고 행동하는 '에이전틱 AI(Agentic AI)'와 모니터링 시스템의 상관관계를 분석합니다. 이를 바탕으로 와탭(WhaTap)과 같은 옵저버빌리티 플랫폼이 나아가야 할 기술적 진화 방향에 대해 논의해 보겠습니다.

‍

AI 모델 진화 단계: 생성 → 추론 → 행동

먼저 AI 모델이 어떤 단계를 거쳐 현재까지 진화해 왔는지 이해할 필요가 있습니다. 초기의 생성형 AI는 ChatGPT처럼 인간의 언어를 이해하고 자연스럽게 대화할 수 있는 형태에서 출발했습니다. 이 시기의 AI는 방대한 지식을 바탕으로 질문에 답하는 대화 파트너 역할을 수행했습니다.

ChatGPT로 대표되는 생성형 AI 1단계를 설명하는 인포그래픽. 인간의 언어를 이해하고 대화하는 초기 AI 모델의 특징을 시각화한 이미지

이후 AI는 두 번째 진화 단계로 접어들며, 단순한 문장 생성을 넘어 복잡한 문제를 논리적 사고를 통해 풀어내는 '추론 능력'이 탑재되기 시작했습니다.

"AI 진화의 두 번째 단계인 추론형 AI를 설명하는 인포그래픽. 단순 문장 생성을 넘어 논리적 사고로 복잡한 문제를 해결하는 AI 모델의 특징을 시각화한 이미지"

그리고 현재, AI는 주어진 질문에 수동적으로 답변하는 한계를 넘어 스스로 목표를 향해 행동하는 에이전틱 AI(Agentic AI) 단계로 진입했습니다. 에이전틱 AI란 스스로 목표를 설정하고 계획을 수립하며, 외부 도구를 활용해 자율적으로 행동하는 차세대 AI 시스템을 의미합니다.

AI 진화의 세 번째 단계인 에이전틱 AI(Agentic AI)를 설명하는 인포그래픽. 스스로 목표를 설정하고 계획을 수립하며 외부 도구를 활용해 자율적으로 행동하는 차세대 AI 시스템을 시각화한 이미지

‍

에이전틱 AI의 실제 사례: Claude Code

클로드 코드(Claude Code)는 에이전틱 AI의 대표적인 사례로, 과거 AI 모델들과 실전 활용도에서 확연한 차이를 보여줍니다.

과거 GPT 모델 시대에는 코드에 버그가 발생하면 AI가 수정 방향이나 대체 코드만 제시할 뿐이었습니다. 제시된 코드를 복사해 실제 환경에서 테스트하고 적용하는 작업은 온전히 인간 엔지니어의 몫이었습니다.

반면 현재의 에이전틱 AI는 특정 문제가 주어지면 스스로 여러 도구를 사용합니다. 코드베이스 전체를 읽고 파악한 뒤, 여러 파일에 걸쳐 변경 사항을 계획·실행하며, 직접 테스트를 수행해 코드를 검증합니다. 테스트가 실패하면 에러 메시지를 분석하고 코드를 수정한 뒤 모든 테스트가 통과할 때까지 이 과정을 반복합니다.

더 나아가 배포 후 에러가 발생해도 사람에게 보고하고 지시를 기다리는 것이 아니라, CI 파이프라인을 모니터링하며 스스로 원인을 분석하고 수정 커밋까지 수행하여 목표가 완수될 때까지 독립적으로 작업합니다.

에이전틱 AI 기반 코딩 툴 Claude Code의 작동 방식을 보여주는 이미지. 코드베이스 분석, 다중 파일 수정, 테스트 실행, CI 파이프라인 모니터링까지 자율적으로 수행하는 에이전트 워크플로우를 설명하는 다이어그램 — 이미지 출처: 진짜 AI 에이전트형 코딩 툴 Claude-Code

‍

멀티 에이전트 구조와 오케스트레이션 개념

에이전틱 AI의 발전은 필연적으로 '오케스트레이션 에이전트(Orchestration Agent)'라는 새로운 개념을 탄생시켰습니다.

오케스트레이션 에이전트는 교향악단의 지휘자처럼 상황을 종합적으로 판단하여 적절한 도구를 사용하는 최상위 관리자 역할을 수행합니다. 이 지휘자 아래에는 코딩, 데이터베이스 검색, 보안 점검 등 특정 도메인에 특화된 여러 서브 에이전트들이 배치되어 작업을 지시받습니다.

복잡한 업무가 주어지면 이를 각 분야의 전문 에이전트들에게 적절히 분배함으로써, 전체 시스템의 문제 해결 속도와 효율성을 극대화합니다. 이러한 멀티 에이전트 오케스트레이션 체계는 LangGraph, AutoGen, CrewAI 등 다양한 오픈소스 프레임워크를 통해 구현되고 있으며, GitHub를 중심으로 관련 프로젝트들이 활발히 성장하고 있습니다.

다만 이러한 AI 시스템 구조를 실제 기업 환경에 적용하기에는 아직 한계가 있습니다. 특히 기업 고객이 의사결정에 활용할 만큼 신뢰할 수 있는 성능을 보장하려면, 새로운 차원의 기술적 접근이 필요합니다.

‍

하네스 엔지니어링 등장 배경

엔터프라이즈 환경에서 AI 에이전트 결과물의 무결성과 신뢰성을 보장하기 위해 2026년 초 새롭게 등장한 핵심 개념이 '하네스 엔지니어링(Harness Engineering)'입니다.

하네스 엔지니어링의 위상을 이해하려면, 그 하위 계층인 프롬프트 엔지니어링과 컨텍스트 엔지니어링의 역할과 한계를 먼저 살펴봐야 합니다. 중요한 점은 이 세 가지가 순차적 대체 관계가 아니라, 각각 다른 범위를 담당하며 상위 계층이 하위를 포함하는 누적적 구조라는 것입니다.

‍

프롬프트 vs 컨텍스트 엔지니어링

프롬프트 엔지니어링은 현재 와탭 내부에 탑재된 AI 챗봇(어시스턴스) 등에서 주로 활용되는 방식입니다.

이 방식은 사용자의 질문에 대해 쿠버네티스(Kubernetes) 매뉴얼 등 방대한 문서를 기반으로 정확하고 유용한 답변을 제공하는 데 강점을 가집니다. 이는 개별 대화 턴에서 AI의 응답 품질을 최적화하는 기법으로, 문서 기반 질의응답 시나리오에서 큰 가치를 발휘합니다.

여기서 한 걸음 더 나아간 영역이 컨텍스트 엔지니어링입니다.

컨텍스트 엔지니어링 환경에서는 AI가 사용자가 보고 있는 화면(예: 와탭의 컨테이너 맵)이 어떤 화면인지, 어떤 기능이 포함되어 있는지, 사용자의 실제 데이터와 어떻게 연동되는지에 대한 '맥락(Context)'까지 함께 인지한 상태에서 답변하게 됩니다.

이 단계로 확장되면 사용자가 모니터링 데이터를 일일이 복사해 AI에게 설명할 필요 없이, 현재 상황에 딱 맞는 피드백을 즉시 받을 수 있어 업무 효율이 한층 더 향상됩니다.

구분	프롬프트 엔지니어링	컨텍스트 엔지니어링
핵심 개념	개별 대화 턴의 AI 응답 품질을 최적화	화면·데이터의 맥락(Context)까지 함께 인지
사용자 입력	질문 + 필요한 맥락을 직접 설명	질문만 입력 (맥락은 AI가 자동 인지)
제공 가치	문서 기반의 정확한 답변	현재 상황에 딱 맞는 피드백

‍

컨텍스트 엔지니어링의 한계와 리스크

그러나 컨텍스트 엔지니어링 역시 복잡한 엔터프라이즈 모니터링 환경에서는 한계를 드러냅니다.

AI에게 입력되는 컨텍스트의 정보량이 방대해질수록, 언어 모델은 정보 압축 과정이나 메모리 한계로 인해 정보 손실을 겪으며, 사전에 설정된 규칙들을 모두 준수하지 못하는 현상이 발생합니다.

대표적인 예로, 와탭의 컨테이너 맵에 GPU 메트릭 데이터가 정상적으로 수집·출력되고 있음에도, AI가 맥락을 놓쳐 "해당 메트릭 데이터가 수집되지 않고 있는 것으로 보인다"는 할루시네이션을 발생시킨 사례가 있었습니다.

실제 모니터링과 인프라 운영 환경에서 AI가 제공하는 잘못된 정보는 장애 대응 지연이나 잘못된 의사결정으로 직결될 수 있으므로, 단순한 맥락 인지를 넘어서는 강력한 제어 장치가 필요합니다.

‍

하네스 엔지니어링: AI 제어 시스템의 핵심

바로 이 중대한 지점에서 하네스 엔지니어링의 진가가 본격적으로 발휘됩니다.

하네스(Harness)는 원래 말을 제어하기 위한 마구(고삐, 안장 등)에서 유래한 용어로, 강력하지만 예측 불가능한 존재를 올바른 방향으로 이끄는 장치라는 비유를 담고 있습니다. AI에서의 하네스 엔지니어링은 AI 모델이라는 강력한 엔진을 감싸는 전체 제어 시스템을 설계하는 분야입니다.

구체적으로 하네스 엔지니어링은 다음 요소들을 포괄합니다. 첫째, AI 에이전트가 접근할 수 있는 도구와 권한의 범위를 규정하는 아키텍처 경계. 둘째, 에이전트의 행동을 사전에 올바른 방향으로 유도하는 가이드(피드포워드 제어). 셋째, 행동 결과를 검증하고 오류 시 스스로 수정하도록 하는 센서(피드백 루프). 넷째, 인간이 에이전트의 행동을 실시간으로 관찰할 수 있는 관찰성(Observability) 레이어.

이를 통해 AI가 최종 결과를 사용자에게 내놓기 전에 내부 피드백 루프를 거치며, 스스로 판단의 오류 여부를 교차 검증합니다. 내부 점검에서 논리적 오류가 발견될 경우, AI가 원인을 파악하고 개선된 답변을 다시 도출하도록 유도하여 정확도를 크게 향상시킬 수 있습니다.

실제 사례로, OpenAI의 Codex 팀은 하네스 엔지니어링 원칙을 적용하여 100만 줄이 넘는 프로덕션 애플리케이션을 인간이 직접 코드를 작성하지 않고 AI 에이전트만으로 구축하는 데 성공했습니다. 이는 모델 자체의 성능보다 그것을 감싸는 하네스 시스템의 설계가 얼마나 중요한지를 보여주는 사례입니다.

하네스 엔지니어링(Harness Engineering)의 구조를 설명하는 다이어그램. AI 모델이라는 핵심 엔진을 감싸는 제어 시스템으로, 아키텍처 경계·가이드(피드포워드)·검증 센서(피드백 루프)·관찰성 레이어의 네 가지 구성 요소를 시각화한 이미지 — 이미지 출처: RevFactory 블로그, <하네스 엔지니어링>

‍

와탭의 전략적 진화 방향

이러한 에이전틱 AI 기술의 진화 속에서, 와탭은 앞으로 어떤 방향으로 진화해 나갈 수 있을까요?

와탭은 이미 프롬프트 엔지니어링 기반의 문서 검색 AI 챗봇을 성공적으로 구현하며, AI 기반 모니터링의 첫 단계를 견고히 다져왔습니다.

와탭 컨테이너 맵 옆에서 AI 챗봇이 '어떤 화면인지 명시되지 않았다'며 일반 문서 기반으로 답변하는 스크린샷

이러한 기반 위에서 지능형 모니터링을 한 단계 더 고도화하기 위해서는, 컨텍스트 엔지니어링을 통해 사용자 화면과 데이터의 실시간 맥락을 AI에 제공하는 단계로 확장되고, 나아가 하네스 엔지니어링 기반의 전체 제어 시스템을 갖추는 방향으로 발전해 나갈 수 있습니다.

와탭 컨테이너 맵을 AI 챗봇이 스스로 인지하고, 해당 화면의 기능과 구성 요소를 구체적으로 설명해 주는 스크린샷

궁극적으로 와탭은 미래의 에이전틱 시스템 내에서 최상위 오케스트레이션 지휘자의 명령을 받아 모니터링 도메인을 전담하는 옵저버빌리티 특화 서브 에이전트로서의 독보적인 위치를 확립할 수 있습니다.

사용자가 운용하는 상위 시스템 아래에 와탭의 AI 에이전트가 유기적으로 배치되어, 인프라 상태를 24시간 감시하고 이상 징후를 스스로 진단하는 구조를 완성해 나갈 수 있습니다. 이를 위해 와탭은 하네스 엔지니어링 기반의 자체 검증 로직(도구 접근 권한 관리, 행동 가이드, 결과 검증 센서, 인간 운영자를 위한 관찰성 레이어)을 체계적으로 확장해 나감으로써, 더욱 신뢰할 수 있는 모니터링 결과를 제공하는 선도적 위치를 굳건히 할 수 있을 것입니다.

‍

결론: 옵저버빌리티의 패러다임 전환

결론적으로, 에이전틱 AI와 옵저버빌리티 플랫폼의 결합은 단순한 편의성 개선을 넘어 IT 인프라 운영의 본질을 바꿀 혁신입니다.

하네스 엔지니어링을 통해 신뢰성과 자동화 역량을 갖춘 와탭의 AI 서브 에이전트 시스템이 완성된다면, 엔지니어들의 반복적인 인프라 관리 업무를 대체하고 보완하는 핵심 인프라로 기능하게 될 것입니다. 에이전틱 AI와 옵저버빌리티가 함께 이끌어갈 지능화된 IT 생태계의 미래가 기대됩니다.

김재영

Agent Developer, WhaTap

와탭랩스 Infra팀에서 에이전트 개발자로 근무하고 있으며, GPU와 쿠버네티스 모니터링을 담당하고 있습니다.