LLM이 생성하는 텍스트를 잘 활용하기 위해서 고려해야하는 다양한 측면들을 사람의 관점에서 살펴보고, 텍스트 요약과 수정 등의 주제를 예시로 어떻게 상호작용할 수 있는지를 다룬 튜토리얼
" LLM이 생성한 텍스트를 어떻게 평가할 것인가? "
" LLM이 생성한 텍스트를 사용자들에게 어떻게 단순화하여 제공할 것인가?
전통적인 평가방식 N개의 단어가 연속적으로 묶인 N-gram을 단위로 다양한 Metric을 구성하는 방법.
EX) 생성된 텍스트에서 얼마나 많은 N-gram들이 정답에 포함되는가를 측정하는 BLEU Score나 생성된 텍스트와 정답 텍스트 간 N-gram이 겹치는 정도를 측정하는 ROUGE Score가 대표적입니다. 하지만 N-gram 기반의 평가 방식은 단어의 숭서 변경, 치환 등 텍스트 변형에 민감하고 Semantic한 정보를 충분히 담지 못한다는 한계가 있다.
BERT의 등장 이후 임베딩을 활용한 Metric이 제안된 평가 방식
Reference문장의 BERT Embedding Vector와 평가하고자 하는 문장의 Vector를 사용해 코사인 유사도를 계산하여 산출
기존 N-gram 기반 방법론 보다 Semantic 정보를 잘 이해하지만, Context와 Task-specific한 맥락을 충분히 고려하지 못하는 한계가 남아 있다.
어떤 텍스트가 더 나은 결과인지 Human Feedback을 통해 Reward Model(RM)을 학습.
이렇게 학습된 모델은 임의의 텍스트가 사람에게서 어느 정도의 점수를 받을 수 있는지 추론이 가능.
* 이미지 1
사람들의 Absolute-rating 데이터를 활용해 RM을 학습한 뒤, Response를 여러 측면에서 평가할 수 있도록 추가된 Regeression, Gating Layer를 학습해 다양한 Objective에서도 Human Preference를 잘 반영할 수 있도록 설계되었다.
** 참고
LG AI 연구원이 발표한 논문 "Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models"[2]도 소개되었다. 해당 연구에서는 두 응답을 비교하는 Pairwise Ranking과 응답 한 개의 점수를 매기는 Direct Assessment를 동시에 활용하도록 평가 LM을 구성하고, 이를 통해 GPT-4와 같은 Reference LLM 및 Human Preference와의 Correlation을 크게 높였습니다.
LLM이 평가 주최가 되는 것 "LLM-as-a-judge"
|| LLM이 사고 및 추론 과정을 생성할 수 있기 때문에 RM 기반 방법론보다 이해하기 이해하기 쉽다.
대표적으로 MT-Bench 방법론이 있다.
2개의 Turn으로 LLM에게 질문을 던지고 답변을 받은 뒤, 평가하고자 하는 LLM의 답변을 Baseline LLM의 답변과 함께 GPT-4와 같은 Judge LLM에게 넘겨주어 Target LLM 답변 점수를 측정하도록 한다. 이 과정에서 MT-Bench는 Pairewise Comparison, Singel Answer Grading, Reference-guided Grading을 모두 수행해 종합적인 측면에서의 점수로 환산한다.
이러한 방식은 사람이 직접 평가하지 않아 Scalable하고 , 평가한 이유를 LLM이 설명하기 때문에 설명하기 쉽다는 장점을 가진다. 그러나 LLM 이 평가하기 때문에 의도하지 않은 편향이 발생할 수 있다는 한계도 있다. LLM은 보통 길고 자세한 답변을 선호하기 때문에 간단명료한 답변이 적합한 상황에서도 이를 선택하지 않거나, 평가할 텍스트가 Prompt 내 위치하는 곳에 따라 결과가 바뀌기도 하며, 스스로가 생성한 답변이 주어지면 이를 더 선호하는 경향을 보인다.
Prompt 내 위치를 번갈아 바꿔 평가한다거나 여러 모델을 Judge로 활용해 평가하는 방법으로 편향을 완화할 수 있지만, LLM의 태생적인 편향으로 인해 발생하는 문제를 완전히 제거할 수는 없다. 이처럼 언어 모델을 평가하는 방법은 단순히 해결될 수 없고 지속적으로 발전해 나아가고 있는 상황이다.
https://lgresearch.ai/blog/view?seq=473
[ACL 2024] LLM 연구의 최신 트렌드와 주요 인사이트 - LG AI Research BLOG
ACL 2024 Tutorials, LLM 최신 연구 동향
www.lgresearch.ai
감정 분석 논문 || RNTN Model... (1) | 2025.03.20 |
---|---|
CNN 쉽게 알아보기 (0) | 2025.03.07 |