#BENCHMARK

1개의 콘텐츠

LLM 품질 평가 기준 설계

기존 벤치마크(MMLU)는 이미 포화 상태. 2026년 기준 엔터프라이즈 LLM 품질 평가를 위한 자동 평가·LLM-as-Judge·인간 평가 하이브리드 파이프라인 설계 방법.