예측 불가능한 토큰 비용
모델·프롬프트 길이·응답 크기에 따라
건당 비용은 최대 10배까지 차이 납니다.
실패한 요청에도 토큰 비용은 발생합니다.
보이지 않는 품질 리스크
정상 응답(HTTP 200) 뒤에 숨은 할루시네이션은 브랜드 신뢰도 하락과 사업 손실로 직결됩니다. 2024년 추정 손실액은 $67.4B에 달합니다.
평균에 가려진 성능 저하
평균 응답 시간은 정상이지만,
일부 사용자만 겪는 p99 지연은 보이지 않습니다. 호출 맥락이 사라지면 재현조차 불가능합니다.
멀티모델·인프라 운영 복잡성
LLM 서비스는 여러 모델, 여러 API, GPU 인프라, 쿠버네티스 환경과 운영되는 경우가 많습니다. 이때 자원 상태를 따로 보면 원인 파악이 늦어질 수 있습니다.