note pilot, production pm 10min

AI 서비스 운영 지표 (KPI) 설계

AI 서비스는 일반 소프트웨어와 다릅니다. 성능·품질·비용·사용성 4영역 KPI 체계와 단계별 목표 설정 방법, 알림 전략을 정리했습니다.

#KPI #METRICS #MONITORING #OPERATIONS #운영

Summary

AI 서비스의 운영 품질을 지속적으로 관리하려면 적절한 KPI를 설계하고 모니터링해야 한다. 이 문서는 AI 서비스에 특화된 KPI를 4가지 영역(성능, 품질, 비용, 사용성)으로 분류하고, 측정 방법과 목표 설정 가이드를 제공한다.

When to Use

Pilot/Production 단계에서 운영 대시보드를 구축할 때
AI 서비스의 SLA(서비스 수준 계약)를 정의할 때
정기 운영 리뷰 지표를 선정할 때
문제 상황을 조기에 탐지하기 위한 알림을 설정할 때

Problem

일반 서비스 KPI만으로 부족한 이유

AI 서비스는 일반 소프트웨어와 다른 몇 가지 특성이 있습니다.

출력 품질이 변동한다 (같은 입력, 다른 출력)
비용이 사용량에 비례한다 (토큰 기반 과금)
품질 드리프트가 발생한다 (시간이 지나면서 품질 변화)
사용자 피드백이 중요하다 (주관적 품질 판단)

Framework: 4영역 KPI 체계

┌─────────────────────────────────────────────────┐
│                 AI 서비스 KPI                   │
├──────────────┬──────────────┬──────────────┬────┤
│    성능      │     품질     │     비용     │사용성│
│ Performance  │   Quality    │     Cost     │ UX │
├──────────────┼──────────────┼──────────────┼────┤
│ 레이턴시     │ 정확도       │ 토큰 비용    │ 만족도│
│ 에러율       │ 환각률       │ 요청당 비용  │ 채택률│
│ 처리량       │ 관련성 점수  │ 월간 총비용  │ 이탈률│
│ 가용성       │ 안전성       │ 비용 효율성  │ NPS  │
└──────────────┴──────────────┴──────────────┴────┘

영역별 KPI 상세

1. 성능 지표 (Performance)

KPI	정의	측정 방법	권장 목표
레이턴시 P50	중앙값 응답 시간	타임스탬프 측정	< 1초
레이턴시 P95	상위 95% 응답 시간	타임스탬프 측정	< 3초
레이턴시 P99	상위 99% 응답 시간	타임스탬프 측정	< 5초
에러율	실패 요청 비율	에러 카운트 / 전체 요청	< 1%
처리량	단위 시간당 처리 요청	요청 수 / 시간	서비스별 상이
가용성	서비스 정상 운영 시간 비율	업타임 / 전체 시간	> 99.9%

알림 설정 예시

레이턴시 P95 > 5초 → 경고
에러율 > 5% (5분간) → 긴급

2. 품질 지표 (Quality)

KPI	정의	측정 방법	권장 목표
정확도	정답/사실에 부합하는 비율	골든셋 평가, RAG 검증	> 90%
관련성 점수	질문에 적절히 답변한 비율	LLM-as-Judge	> 4.0/5.0
환각률	허위 정보 생성 비율	팩트체크, HaluCheck	< 5%
완결성	필요한 정보를 모두 포함한 비율	체크리스트 평가	> 85%
안전성	유해 콘텐츠 생성 비율	콘텐츠 필터	0%
일관성	동일 질문 동일 의미 응답 비율	반복 테스트	> 95%

알림 설정 예시

일간 품질 점수 < 80% → 경고
환각 탐지 → 즉시 알림
유해 콘텐츠 탐지 → 긴급

3. 비용 지표 (Cost)

KPI	정의	측정 방법	권장 관리
요청당 비용	평균 요청 1건 처리 비용	총 비용 / 요청 수	예산 대비 관리
토큰당 비용	토큰 1개당 평균 비용	총 비용 / 총 토큰	벤더 단가 기준
일간 비용	일별 총 AI 비용	API 비용 + 인프라 비용	일 예산 내
월간 비용	월별 총 AI 비용	일간 비용 합계	월 예산 내
비용 효율성	가치 대비 비용	ROI, 절감액/비용	> 100%

비용 관리 계산

요청당 비용 = (입력 토큰 × 입력 단가) + (출력 토큰 × 출력 단가)

예시 (GPT-4o):
- 입력: 500 토큰 × $2.50/1M = $0.00125
- 출력: 1,000 토큰 × $10.00/1M = $0.01
- 요청당 비용: $0.01125

알림 설정 예시

일간 비용 > 예산의 150% → 경고
월간 비용 > 예산의 80% → 주의
요청당 비용 급증 → 조사 필요

4. 사용성 지표 (User Experience)

KPI	정의	측정 방법	권장 목표
사용자 만족도	응답에 대한 만족 비율	👍/👎 피드백	> 85%
NPS	추천 의향 점수	설문 조사	> 30
채택률	대상 사용자 중 실사용 비율	활성 사용자 / 대상	> 70%
리텐션	재사용률	재방문 사용자 비율	> 60%
에스컬레이션율	인간 에이전트 연결 비율	에스컬레이션 / 전체	< 30%
세션당 대화 수	평균 대화 턴 수	총 턴 / 세션 수	도메인별 상이

알림 설정 예시

만족도 < 70% (주간) → 경고
에스컬레이션율 > 50% → 품질 검토 필요

KPI 대시보드 구성

실시간 모니터링 화면

┌─────────────────────────────────────────────────────────┐
│  AI Service Health Dashboard                             │
├─────────────┬─────────────┬─────────────┬───────────────┤
│  Latency    │  Error Rate │  Quality    │  Cost Today   │
│  P95: 1.2s  │    0.3%     │   87%       │   $234.56     │
│  ● Green    │  ● Green    │  ● Green    │  ● Yellow     │
├─────────────┴─────────────┴─────────────┴───────────────┤
│  [실시간 요청 수 그래프]                                 │
│  ████████████████████░░░░ 1,234 req/min                 │
├─────────────────────────────────────────────────────────┤
│  Recent Alerts                                           │
│  • 14:32 - Cost spike detected (+40%)                   │
│  • 12:15 - Latency P95 exceeded threshold               │
└─────────────────────────────────────────────────────────┘

주간 리포트 구성

섹션	포함 내용
요약	주요 KPI 현황, 전주 대비 변화
성능	레이턴시 추이, 에러 분석
품질	품질 점수 추이, 환각 케이스
비용	비용 추이, 예산 대비 현황
사용자	만족도, 피드백 분석
액션	개선 필요 항목, 다음 주 계획

목표 설정 가이드

단계별 KPI 목표

KPI	PoC	Pilot	Production
레이턴시 P95	< 5초	< 3초	< 2초
에러율	< 10%	< 5%	< 1%
품질 점수	> 70%	> 80%	> 90%
환각률	< 15%	< 10%	< 5%
가용성	95%	99%	99.9%
만족도	> 70%	> 80%	> 85%

도메인별 가중치

도메인	성능	품질	비용	사용성
고객 서비스	30%	30%	20%	20%
의료/법률	20%	50%	10%	20%
이커머스	25%	25%	30%	20%
내부 도구	20%	35%	25%	20%

알림 전략

심각도 레벨

레벨	조건	대응
Critical	서비스 장애, 유해 콘텐츠	즉시 대응, 서비스 중단 검토
Warning	품질 저하, 비용 초과	당일 내 조사
Info	일상적 변동	주간 리뷰에서 검토

알림 채널

심각도	채널
Critical	Slack + PagerDuty + 이메일
Warning	Slack + 이메일
Info	대시보드 표시

용도	도구
모니터링	Datadog, Grafana, CloudWatch
로깅	ELK Stack, Splunk, Datadog Logs
알림	PagerDuty, OpsGenie, Slack
품질 평가	LangSmith, Evidently AI, 자체 구축
비용 추적	벤더 대시보드, 자체 계산

Summary

When to Use

Problem

일반 서비스 KPI만으로 부족한 이유

Framework: 4영역 KPI 체계

영역별 KPI 상세

1. 성능 지표 (Performance)

2. 품질 지표 (Quality)

3. 비용 지표 (Cost)

4. 사용성 지표 (User Experience)

KPI 대시보드 구성

실시간 모니터링 화면

주간 리포트 구성

목표 설정 가이드

단계별 KPI 목표

도메인별 가중치

알림 전략

심각도 레벨

알림 채널

관련 도구

Related