Summary
AI 서비스의 운영 품질을 지속적으로 관리하려면 적절한 KPI를 설계하고 모니터링해야 한다. 이 문서는 AI 서비스에 특화된 KPI를 4가지 영역(성능, 품질, 비용, 사용성)으로 분류하고, 측정 방법과 목표 설정 가이드를 제공한다.
When to Use
- Pilot/Production 단계에서 운영 대시보드를 구축할 때
- AI 서비스의 SLA(서비스 수준 계약)를 정의할 때
- 정기 운영 리뷰 지표를 선정할 때
- 문제 상황을 조기에 탐지하기 위한 알림을 설정할 때
Problem
일반 서비스 KPI만으로 부족한 이유
AI 서비스는 일반 소프트웨어와 다른 몇 가지 특성이 있습니다.
- 출력 품질이 변동한다 (같은 입력, 다른 출력)
- 비용이 사용량에 비례한다 (토큰 기반 과금)
- 품질 드리프트가 발생한다 (시간이 지나면서 품질 변화)
- 사용자 피드백이 중요하다 (주관적 품질 판단)
Framework: 4영역 KPI 체계
┌─────────────────────────────────────────────────┐
│ AI 서비스 KPI │
├──────────────┬──────────────┬──────────────┬────┤
│ 성능 │ 품질 │ 비용 │사용성│
│ Performance │ Quality │ Cost │ UX │
├──────────────┼──────────────┼──────────────┼────┤
│ 레이턴시 │ 정확도 │ 토큰 비용 │ 만족도│
│ 에러율 │ 환각률 │ 요청당 비용 │ 채택률│
│ 처리량 │ 관련성 점수 │ 월간 총비용 │ 이탈률│
│ 가용성 │ 안전성 │ 비용 효율성 │ NPS │
└──────────────┴──────────────┴──────────────┴────┘
영역별 KPI 상세
| KPI | 정의 | 측정 방법 | 권장 목표 |
|---|
| 레이턴시 P50 | 중앙값 응답 시간 | 타임스탬프 측정 | < 1초 |
| 레이턴시 P95 | 상위 95% 응답 시간 | 타임스탬프 측정 | < 3초 |
| 레이턴시 P99 | 상위 99% 응답 시간 | 타임스탬프 측정 | < 5초 |
| 에러율 | 실패 요청 비율 | 에러 카운트 / 전체 요청 | < 1% |
| 처리량 | 단위 시간당 처리 요청 | 요청 수 / 시간 | 서비스별 상이 |
| 가용성 | 서비스 정상 운영 시간 비율 | 업타임 / 전체 시간 | > 99.9% |
알림 설정 예시
- 레이턴시 P95 > 5초 → 경고
- 에러율 > 5% (5분간) → 긴급
2. 품질 지표 (Quality)
| KPI | 정의 | 측정 방법 | 권장 목표 |
|---|
| 정확도 | 정답/사실에 부합하는 비율 | 골든셋 평가, RAG 검증 | > 90% |
| 관련성 점수 | 질문에 적절히 답변한 비율 | LLM-as-Judge | > 4.0/5.0 |
| 환각률 | 허위 정보 생성 비율 | 팩트체크, HaluCheck | < 5% |
| 완결성 | 필요한 정보를 모두 포함한 비율 | 체크리스트 평가 | > 85% |
| 안전성 | 유해 콘텐츠 생성 비율 | 콘텐츠 필터 | 0% |
| 일관성 | 동일 질문 동일 의미 응답 비율 | 반복 테스트 | > 95% |
알림 설정 예시
- 일간 품질 점수 < 80% → 경고
- 환각 탐지 → 즉시 알림
- 유해 콘텐츠 탐지 → 긴급
3. 비용 지표 (Cost)
| KPI | 정의 | 측정 방법 | 권장 관리 |
|---|
| 요청당 비용 | 평균 요청 1건 처리 비용 | 총 비용 / 요청 수 | 예산 대비 관리 |
| 토큰당 비용 | 토큰 1개당 평균 비용 | 총 비용 / 총 토큰 | 벤더 단가 기준 |
| 일간 비용 | 일별 총 AI 비용 | API 비용 + 인프라 비용 | 일 예산 내 |
| 월간 비용 | 월별 총 AI 비용 | 일간 비용 합계 | 월 예산 내 |
| 비용 효율성 | 가치 대비 비용 | ROI, 절감액/비용 | > 100% |
비용 관리 계산
요청당 비용 = (입력 토큰 × 입력 단가) + (출력 토큰 × 출력 단가)
예시 (GPT-4o):
- 입력: 500 토큰 × $2.50/1M = $0.00125
- 출력: 1,000 토큰 × $10.00/1M = $0.01
- 요청당 비용: $0.01125
알림 설정 예시
- 일간 비용 > 예산의 150% → 경고
- 월간 비용 > 예산의 80% → 주의
- 요청당 비용 급증 → 조사 필요
4. 사용성 지표 (User Experience)
| KPI | 정의 | 측정 방법 | 권장 목표 |
|---|
| 사용자 만족도 | 응답에 대한 만족 비율 | 👍/👎 피드백 | > 85% |
| NPS | 추천 의향 점수 | 설문 조사 | > 30 |
| 채택률 | 대상 사용자 중 실사용 비율 | 활성 사용자 / 대상 | > 70% |
| 리텐션 | 재사용률 | 재방문 사용자 비율 | > 60% |
| 에스컬레이션율 | 인간 에이전트 연결 비율 | 에스컬레이션 / 전체 | < 30% |
| 세션당 대화 수 | 평균 대화 턴 수 | 총 턴 / 세션 수 | 도메인별 상이 |
알림 설정 예시
- 만족도 < 70% (주간) → 경고
- 에스컬레이션율 > 50% → 품질 검토 필요
KPI 대시보드 구성
실시간 모니터링 화면
┌─────────────────────────────────────────────────────────┐
│ AI Service Health Dashboard │
├─────────────┬─────────────┬─────────────┬───────────────┤
│ Latency │ Error Rate │ Quality │ Cost Today │
│ P95: 1.2s │ 0.3% │ 87% │ $234.56 │
│ ● Green │ ● Green │ ● Green │ ● Yellow │
├─────────────┴─────────────┴─────────────┴───────────────┤
│ [실시간 요청 수 그래프] │
│ ████████████████████░░░░ 1,234 req/min │
├─────────────────────────────────────────────────────────┤
│ Recent Alerts │
│ • 14:32 - Cost spike detected (+40%) │
│ • 12:15 - Latency P95 exceeded threshold │
└─────────────────────────────────────────────────────────┘
주간 리포트 구성
| 섹션 | 포함 내용 |
|---|
| 요약 | 주요 KPI 현황, 전주 대비 변화 |
| 성능 | 레이턴시 추이, 에러 분석 |
| 품질 | 품질 점수 추이, 환각 케이스 |
| 비용 | 비용 추이, 예산 대비 현황 |
| 사용자 | 만족도, 피드백 분석 |
| 액션 | 개선 필요 항목, 다음 주 계획 |
목표 설정 가이드
단계별 KPI 목표
| KPI | PoC | Pilot | Production |
|---|
| 레이턴시 P95 | < 5초 | < 3초 | < 2초 |
| 에러율 | < 10% | < 5% | < 1% |
| 품질 점수 | > 70% | > 80% | > 90% |
| 환각률 | < 15% | < 10% | < 5% |
| 가용성 | 95% | 99% | 99.9% |
| 만족도 | > 70% | > 80% | > 85% |
도메인별 가중치
| 도메인 | 성능 | 품질 | 비용 | 사용성 |
|---|
| 고객 서비스 | 30% | 30% | 20% | 20% |
| 의료/법률 | 20% | 50% | 10% | 20% |
| 이커머스 | 25% | 25% | 30% | 20% |
| 내부 도구 | 20% | 35% | 25% | 20% |
알림 전략
심각도 레벨
| 레벨 | 조건 | 대응 |
|---|
| Critical | 서비스 장애, 유해 콘텐츠 | 즉시 대응, 서비스 중단 검토 |
| Warning | 품질 저하, 비용 초과 | 당일 내 조사 |
| Info | 일상적 변동 | 주간 리뷰에서 검토 |
알림 채널
| 심각도 | 채널 |
|---|
| Critical | Slack + PagerDuty + 이메일 |
| Warning | Slack + 이메일 |
| Info | 대시보드 표시 |
관련 도구
| 용도 | 도구 |
|---|
| 모니터링 | Datadog, Grafana, CloudWatch |
| 로깅 | ELK Stack, Splunk, Datadog Logs |
| 알림 | PagerDuty, OpsGenie, Slack |
| 품질 평가 | LangSmith, Evidently AI, 자체 구축 |
| 비용 추적 | 벤더 대시보드, 자체 계산 |