Evaluation
AI/LLM 품질 평가 기준과 측정 방법론
note pilot 10min
AI 서비스 운영 지표 (KPI) 설계
AI 서비스는 일반 소프트웨어와 다릅니다. 성능·품질·비용·사용성 4영역 KPI 체계와 단계별 목표 설정 방법, 알림 전략을 정리했습니다.
#KPI#METRICS#MONITORING
playbook poc 20min
LLM 품질 평가 기준 설계
기존 벤치마크(MMLU)는 이미 포화 상태. 2026년 기준 엔터프라이즈 LLM 품질 평가를 위한 자동 평가·LLM-as-Judge·인간 평가 하이브리드 파이프라인 설계 방법.
#EVALUATION#QUALITY#METRICS