본문 바로가기

NLP

[이론 공부] NLP 성능평가 Metric : 2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

저번 BLEU와 같이 Quality평가 지표 중 Supervised - Word based 의 특징을 가지는 ROUGE를 탐구해보고자 합니다.

 

BLEU는 주로 기계번역, 자동요약 task에 활용되는 평가지표입니다. (특히 요약)

Supervised라는 의미는, 사람이 번역한 문장을 답으로 제시하여, 기계번역(예측문장) - 사람번역(정답문장) 문장의 유사도를 측정하는 방법입니다.

Word based라는 의미는, ROUGE가 연속된 단어 뭉치를 활용하는 n-gram 일치도를 기반으로 유사도를 측정하기 때문입니다.

 

ROUGE의 값은 0 ~ 1 사이에 있고, 1에 가까울 수록 성능이 좋다는 것을 의미합니다.

 

BLEU도 n-gram을 활용하지만, BLEUn-gram Precision, ROUGEn-gram Recall을 활용한다는 점이 차이점입니다.

 

두 가지의 글에서 설명이 잘 되어 있어서 링크를 첨부합니다.

아래 글에서 Precision과 Recall에 개념에 따른 BLEU와 ROUGE의 차이, 의의를 잘 설명해두었습니다.

 

[Metrics] ROUGE score, text 생성 타스크 평가 지표

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기

yumdata.tistory.com

 

ROUGE를 활용한 여러가지 지표들이 있습니다.

자세한 예시는 아래 링크에서 확인 가능합니다.

 

[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation

ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https

supkoon.tistory.com

 

 

1. ROUGE-N

문장 간 중복되는 n-gram을 비교하는 지표입니다.

$$ROUGE - N = \frac{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count_{match}\left ( gram_{n} \right ) }{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count\left ( gram_{n} \right )}$$

 

2. ROUGE-L(Longest Common Subsequence)

가장 긴 Squence의 Recall을 구하는 지표입니다.

LCS(Longest Common Subsequence)기법을 활용하여 연속되지 않은 Sequence라도 매칭되는 값을 측정해서 n-gram보다 유연하게 적용이 가능합니다.

 

3. ROUGE-W(Weighted Longest Common Subsequence)

ROUGE-L에서 연속된 Sequence가 있는 경우 가중치를 주는 지표입니다.

 

4. ROUGE-S(Skip-Bigram Co-Occurrence Statistic)

연속되지 않더라도 2개 단어 pair가 겹치는 횟수를 기준으로 측정합니다.

 

5. ROUGE-SU: Extension of ROUGE-S

ROUGE-S는 단어 쌍 순서까지 겹치는 경우에만 일치하는 것으로 측정하므로, 해당 단어가 출현한 것만으로도 측정되도록 하기 위해 unigram을 추가하여 측정합니다.

 

 

장점

  • 계산이 간단하고 빠르며, 직관적입니다.
  • 정량적 비교가 가능합니다.
  • 다양한 변형이 가능합니다.

 

한계점

  • 요약에 기존 요약과 다른 다양한 언어가 사용된 경우 성능이 낮다고 평가할 가능성이 있습니다.(같은 단어 일치만 보기 때문에)  
  • "자동차-차량"과 같은 동의어에 대한 처리가 어렵습니다.(둘이 다른 단어로 인식) (-> 동의어 dictionary를 활용하는 방법도 있다고 합니다)
  • 형태소 분석이 필요한 언어에서는 적용이 어려울 수 있습니다.

 

이러한 한계점으로 인해 다른 지표들과 함께 사용하는 경우가 많다고 합니다.

 

*참고 문서

 

NLP 메트릭 톺아보기

기초부터 톺아보는 NLP 학습기

velog.io

 

[Metrics] ROUGE score, text 생성 타스크 평가 지표

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기

yumdata.tistory.com

 

ROUGE: A Package for Automatic Evaluation of Summaries

Chin-Yew Lin. Text Summarization Branches Out. 2004.

aclanthology.org

 

 

[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation

ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https

supkoon.tistory.com

 

[NLP]Rouge score - Summarization의 평가 Metric

Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가

velog.io