상세 컨텐츠

본문 제목

LG ACL || Automatic and Human-AI Interactive Text Generation

AI_관련_논문리뷰

by HAKIIM 2025. 3. 16. 18:41

본문

 

 

 

LLM이 생성하는 텍스트를 잘 활용하기 위해서 고려해야하는 다양한 측면들을 사람의 관점에서 살펴보고, 텍스트 요약과 수정 등의 주제를 예시로 어떻게 상호작용할 수 있는지를 다룬 튜토리얼

 

" LLM이 생성한 텍스트를 어떻게 평가할 것인가? "
" LLM이 생성한 텍스트를 사용자들에게 어떻게 단순화하여 제공할 것인가?

 

 

| 텍스트의 퀄리티를 평가하는 방식

전통적인 평가방식 N개의 단어가 연속적으로 묶인 N-gram을 단위로 다양한 Metric을 구성하는 방법.

EX) 생성된 텍스트에서 얼마나 많은 N-gram들이 정답에 포함되는가를 측정하는 BLEU Score나 생성된 텍스트와 정답 텍스트 간 N-gram이 겹치는 정도를 측정하는 ROUGE Score가 대표적입니다. 하지만 N-gram 기반의 평가 방식은 단어의 숭서 변경, 치환 등 텍스트 변형에 민감하고 Semantic한 정보를 충분히 담지 못한다는 한계가 있다.

 

BERT-Score

BERT의 등장 이후 임베딩을 활용한 Metric이 제안된 평가 방식

Reference문장의 BERT Embedding Vector와 평가하고자 하는 문장의 Vector를 사용해 코사인 유사도를 계산하여 산출

기존 N-gram 기반 방법론 보다 Semantic 정보를 잘 이해하지만, Context와 Task-specific한 맥락을 충분히 고려하지 못하는 한계가 남아 있다.

 

RLHF

어떤 텍스트가 더 나은 결과인지 Human Feedback을 통해 Reward Model(RM)을 학습.

이렇게 학습된 모델은 임의의 텍스트가 사람에게서 어느 정도의 점수를 받을 수 있는지 추론이 가능.

 

이미지 1. Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts에서 Reward Model의 구조 [1]

 

 

* 이미지 1

사람들의 Absolute-rating 데이터를 활용해 RM을 학습한 뒤, Response를 여러 측면에서 평가할 수 있도록 추가된 Regeression, Gating Layer를 학습해 다양한 Objective에서도 Human Preference를 잘 반영할 수 있도록 설계되었다.

 

** 참고

LG AI 연구원이 발표한 논문 "Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models"[2]도 소개되었다. 해당 연구에서는 두 응답을 비교하는 Pairwise Ranking과 응답 한 개의 점수를 매기는 Direct Assessment를 동시에 활용하도록 평가 LM을 구성하고, 이를 통해 GPT-4와 같은 Reference LLM 및 Human Preference와의 Correlation을 크게 높였습니다.

 

이미지 2. Prometheus 2의 평가 방식 개요 [2]

 

 

LLM이 평가 주최가 되는 것 "LLM-as-a-judge"

|| LLM이 사고 및 추론 과정을 생성할 수 있기 때문에 RM 기반 방법론보다 이해하기 이해하기 쉽다.

대표적으로 MT-Bench 방법론이 있다.

 

2개의 Turn으로 LLM에게 질문을 던지고 답변을 받은 뒤, 평가하고자 하는 LLM의 답변을 Baseline LLM의 답변과 함께 GPT-4와 같은 Judge LLM에게 넘겨주어 Target LLM 답변 점수를 측정하도록 한다. 이 과정에서 MT-Bench는 Pairewise Comparison, Singel Answer Grading, Reference-guided Grading을 모두 수행해 종합적인 측면에서의 점수로 환산한다.

 

이러한 방식은 사람이 직접 평가하지 않아 Scalable하고 , 평가한 이유를 LLM이 설명하기 때문에 설명하기 쉽다는 장점을 가진다. 그러나 LLM 이 평가하기 때문에 의도하지 않은 편향이 발생할 수 있다는 한계도 있다.  LLM은 보통 길고 자세한 답변을 선호하기 때문에 간단명료한 답변이 적합한 상황에서도 이를 선택하지 않거나, 평가할 텍스트가 Prompt 내 위치하는 곳에 따라 결과가 바뀌기도 하며, 스스로가 생성한 답변이 주어지면 이를 더 선호하는 경향을 보인다.

Prompt 내 위치를 번갈아 바꿔 평가한다거나 여러 모델을 Judge로 활용해 평가하는 방법으로 편향을 완화할 수 있지만, LLM의 태생적인 편향으로 인해 발생하는 문제를 완전히 제거할 수는 없다. 이처럼 언어 모델을 평가하는 방법은 단순히 해결될 수 없고 지속적으로 발전해 나아가고 있는 상황이다.

 

 

 

 

 

https://lgresearch.ai/blog/view?seq=473

 

[ACL 2024] LLM 연구의 최신 트렌드와 주요 인사이트 - LG AI Research BLOG

ACL 2024 Tutorials, LLM 최신 연구 동향

www.lgresearch.ai

 

'AI_관련_논문리뷰' 카테고리의 다른 글

감정 분석 논문 || RNTN Model...  (1) 2025.03.20
CNN 쉽게 알아보기  (0) 2025.03.07

관련글 더보기