Agent Lab Agent LabAgent Lab
  • Agent Lab Agent LabAgent Lab
  • AI for Work
  • Resources
  • Articles
  • Tags
    • github
    • linkedin
  • github
  • linkedin

Evaluation

AI/LLM 품질 평가 기준과 측정 방법론

note pilot 10min

AI 서비스 운영 지표 (KPI) 설계

AI 서비스는 일반 소프트웨어와 다릅니다. 성능·품질·비용·사용성 4영역 KPI 체계와 단계별 목표 설정 방법, 알림 전략을 정리했습니다.

#KPI#METRICS#MONITORING
playbook poc 20min

LLM 품질 평가 기준 설계

기존 벤치마크(MMLU)는 이미 포화 상태. 2026년 기준 엔터프라이즈 LLM 품질 평가를 위한 자동 평가·LLM-as-Judge·인간 평가 하이브리드 파이프라인 설계 방법.

#EVALUATION#QUALITY#METRICS
Agent Lab Agent LabAgent Lab

AI PO building services with LLM agents.

  • github
  • linkedin

Content

  • AI for Work
  • Resources
  • Articles
  • Tags

Legal

  • About
  • Terms
  • Privacy Policy

Connect

  • github
  • linkedin

© 2025 SeokMo Gu. All rights reserved.