Agent Lab Agent LabAgent Lab
  • Agent Lab Agent LabAgent Lab
  • AI for Work
  • Resources
  • Articles
  • Tags
    • github
    • linkedin
  • github
  • linkedin
Tags / #BENCHMARK

#BENCHMARK

1개의 콘텐츠

playbook evaluation

LLM 품질 평가 기준 설계

기존 벤치마크(MMLU)는 이미 포화 상태. 2026년 기준 엔터프라이즈 LLM 품질 평가를 위한 자동 평가·LLM-as-Judge·인간 평가 하이브리드 파이프라인 설계 방법.

Agent Lab Agent LabAgent Lab

AI PO building services with LLM agents.

  • github
  • linkedin

Content

  • AI for Work
  • Resources
  • Articles
  • Tags

Legal

  • About
  • Terms
  • Privacy Policy

Connect

  • github
  • linkedin

© 2025 SeokMo Gu. All rights reserved.