최근 몇 년 사이 대형 언어 모델(LLM, Large Language Model)의 발전 속도는 눈부시다. OpenAI, Google, Anthropic 등 주요 기업들이 경쟁적으로 새로운 모델을 출시하며, 이제 LLM은 단순한 기술을 넘어 다양한 산업과 업무의 중심으로 자리 잡았다. 이러한 변화 속에서 모델의 성능을 정확하고 신뢰성 있게 평가하는 체계는 필수 요소로 부상했다. 기존에는 주로 사람 평가자를 통해 LLM의 응답 품질을 […]