note pilot, production pm 10min

AI 서비스 운영 지표 (KPI) 설계

AI 서비스는 일반 소프트웨어와 다릅니다. 성능·품질·비용·사용성 4영역 KPI 체계와 단계별 목표 설정 방법, 알림 전략을 정리했습니다.

Summary

AI 서비스의 운영 품질을 지속적으로 관리하려면 적절한 KPI를 설계하고 모니터링해야 한다. 이 문서는 AI 서비스에 특화된 KPI를 4가지 영역(성능, 품질, 비용, 사용성)으로 분류하고, 측정 방법과 목표 설정 가이드를 제공한다.

When to Use

  • Pilot/Production 단계에서 운영 대시보드를 구축할 때
  • AI 서비스의 SLA(서비스 수준 계약)를 정의할 때
  • 정기 운영 리뷰 지표를 선정할 때
  • 문제 상황을 조기에 탐지하기 위한 알림을 설정할 때

Problem

일반 서비스 KPI만으로 부족한 이유

AI 서비스는 일반 소프트웨어와 다른 몇 가지 특성이 있습니다.

  • 출력 품질이 변동한다 (같은 입력, 다른 출력)
  • 비용이 사용량에 비례한다 (토큰 기반 과금)
  • 품질 드리프트가 발생한다 (시간이 지나면서 품질 변화)
  • 사용자 피드백이 중요하다 (주관적 품질 판단)

Framework: 4영역 KPI 체계

┌─────────────────────────────────────────────────┐
│                 AI 서비스 KPI                   │
├──────────────┬──────────────┬──────────────┬────┤
│    성능      │     품질     │     비용     │사용성│
│ Performance  │   Quality    │     Cost     │ UX │
├──────────────┼──────────────┼──────────────┼────┤
│ 레이턴시     │ 정확도       │ 토큰 비용    │ 만족도│
│ 에러율       │ 환각률       │ 요청당 비용  │ 채택률│
│ 처리량       │ 관련성 점수  │ 월간 총비용  │ 이탈률│
│ 가용성       │ 안전성       │ 비용 효율성  │ NPS  │
└──────────────┴──────────────┴──────────────┴────┘

영역별 KPI 상세

1. 성능 지표 (Performance)

KPI정의측정 방법권장 목표
레이턴시 P50중앙값 응답 시간타임스탬프 측정< 1초
레이턴시 P95상위 95% 응답 시간타임스탬프 측정< 3초
레이턴시 P99상위 99% 응답 시간타임스탬프 측정< 5초
에러율실패 요청 비율에러 카운트 / 전체 요청< 1%
처리량단위 시간당 처리 요청요청 수 / 시간서비스별 상이
가용성서비스 정상 운영 시간 비율업타임 / 전체 시간> 99.9%

알림 설정 예시

  • 레이턴시 P95 > 5초 → 경고
  • 에러율 > 5% (5분간) → 긴급

2. 품질 지표 (Quality)

KPI정의측정 방법권장 목표
정확도정답/사실에 부합하는 비율골든셋 평가, RAG 검증> 90%
관련성 점수질문에 적절히 답변한 비율LLM-as-Judge> 4.0/5.0
환각률허위 정보 생성 비율팩트체크, HaluCheck< 5%
완결성필요한 정보를 모두 포함한 비율체크리스트 평가> 85%
안전성유해 콘텐츠 생성 비율콘텐츠 필터0%
일관성동일 질문 동일 의미 응답 비율반복 테스트> 95%

알림 설정 예시

  • 일간 품질 점수 < 80% → 경고
  • 환각 탐지 → 즉시 알림
  • 유해 콘텐츠 탐지 → 긴급

3. 비용 지표 (Cost)

KPI정의측정 방법권장 관리
요청당 비용평균 요청 1건 처리 비용총 비용 / 요청 수예산 대비 관리
토큰당 비용토큰 1개당 평균 비용총 비용 / 총 토큰벤더 단가 기준
일간 비용일별 총 AI 비용API 비용 + 인프라 비용일 예산 내
월간 비용월별 총 AI 비용일간 비용 합계월 예산 내
비용 효율성가치 대비 비용ROI, 절감액/비용> 100%

비용 관리 계산

요청당 비용 = (입력 토큰 × 입력 단가) + (출력 토큰 × 출력 단가)

예시 (GPT-4o):
- 입력: 500 토큰 × $2.50/1M = $0.00125
- 출력: 1,000 토큰 × $10.00/1M = $0.01
- 요청당 비용: $0.01125

알림 설정 예시

  • 일간 비용 > 예산의 150% → 경고
  • 월간 비용 > 예산의 80% → 주의
  • 요청당 비용 급증 → 조사 필요

4. 사용성 지표 (User Experience)

KPI정의측정 방법권장 목표
사용자 만족도응답에 대한 만족 비율👍/👎 피드백> 85%
NPS추천 의향 점수설문 조사> 30
채택률대상 사용자 중 실사용 비율활성 사용자 / 대상> 70%
리텐션재사용률재방문 사용자 비율> 60%
에스컬레이션율인간 에이전트 연결 비율에스컬레이션 / 전체< 30%
세션당 대화 수평균 대화 턴 수총 턴 / 세션 수도메인별 상이

알림 설정 예시

  • 만족도 < 70% (주간) → 경고
  • 에스컬레이션율 > 50% → 품질 검토 필요

KPI 대시보드 구성

실시간 모니터링 화면

┌─────────────────────────────────────────────────────────┐
│  AI Service Health Dashboard                             │
├─────────────┬─────────────┬─────────────┬───────────────┤
│  Latency    │  Error Rate │  Quality    │  Cost Today   │
│  P95: 1.2s  │    0.3%     │   87%       │   $234.56     │
│  ● Green    │  ● Green    │  ● Green    │  ● Yellow     │
├─────────────┴─────────────┴─────────────┴───────────────┤
│  [실시간 요청 수 그래프]                                 │
│  ████████████████████░░░░ 1,234 req/min                 │
├─────────────────────────────────────────────────────────┤
│  Recent Alerts                                           │
│  • 14:32 - Cost spike detected (+40%)                   │
│  • 12:15 - Latency P95 exceeded threshold               │
└─────────────────────────────────────────────────────────┘

주간 리포트 구성

섹션포함 내용
요약주요 KPI 현황, 전주 대비 변화
성능레이턴시 추이, 에러 분석
품질품질 점수 추이, 환각 케이스
비용비용 추이, 예산 대비 현황
사용자만족도, 피드백 분석
액션개선 필요 항목, 다음 주 계획

목표 설정 가이드

단계별 KPI 목표

KPIPoCPilotProduction
레이턴시 P95< 5초< 3초< 2초
에러율< 10%< 5%< 1%
품질 점수> 70%> 80%> 90%
환각률< 15%< 10%< 5%
가용성95%99%99.9%
만족도> 70%> 80%> 85%

도메인별 가중치

도메인성능품질비용사용성
고객 서비스30%30%20%20%
의료/법률20%50%10%20%
이커머스25%25%30%20%
내부 도구20%35%25%20%

알림 전략

심각도 레벨

레벨조건대응
Critical서비스 장애, 유해 콘텐츠즉시 대응, 서비스 중단 검토
Warning품질 저하, 비용 초과당일 내 조사
Info일상적 변동주간 리뷰에서 검토

알림 채널

심각도채널
CriticalSlack + PagerDuty + 이메일
WarningSlack + 이메일
Info대시보드 표시

관련 도구

용도도구
모니터링Datadog, Grafana, CloudWatch
로깅ELK Stack, Splunk, Datadog Logs
알림PagerDuty, OpsGenie, Slack
품질 평가LangSmith, Evidently AI, 자체 구축
비용 추적벤더 대시보드, 자체 계산