[이론 공부] NLP 성능평가 Metric : 2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
저번 BLEU와 같이 Quality평가 지표 중 Supervised - Word based 의 특징을 가지는 ROUGE를 탐구해보고자 합니다.
BLEU는 주로 기계번역, 자동요약 task에 활용되는 평가지표입니다. (특히 요약)
Supervised라는 의미는, 사람이 번역한 문장을 답으로 제시하여, 기계번역(예측문장) - 사람번역(정답문장) 문장의 유사도를 측정하는 방법입니다.
Word based라는 의미는, ROUGE가 연속된 단어 뭉치를 활용하는 n-gram 일치도를 기반으로 유사도를 측정하기 때문입니다.
ROUGE의 값은 0 ~ 1 사이에 있고, 1에 가까울 수록 성능이 좋다는 것을 의미합니다.
BLEU도 n-gram을 활용하지만, BLEU는 n-gram Precision, ROUGE는 n-gram Recall을 활용한다는 점이 차이점입니다.
두 가지의 글에서 설명이 잘 되어 있어서 링크를 첨부합니다.
아래 글에서 Precision과 Recall에 개념에 따른 BLEU와 ROUGE의 차이, 의의를 잘 설명해두었습니다.
[Metrics] ROUGE score, text 생성 타스크 평가 지표
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기
yumdata.tistory.com
ROUGE를 활용한 여러가지 지표들이 있습니다.
자세한 예시는 아래 링크에서 확인 가능합니다.
[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation
ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https
supkoon.tistory.com
1. ROUGE-N
문장 간 중복되는 n-gram을 비교하는 지표입니다.
$$ROUGE - N = \frac{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count_{match}\left ( gram_{n} \right ) }{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count\left ( gram_{n} \right )}$$
2. ROUGE-L(Longest Common Subsequence)
가장 긴 Squence의 Recall을 구하는 지표입니다.
LCS(Longest Common Subsequence)기법을 활용하여 연속되지 않은 Sequence라도 매칭되는 값을 측정해서 n-gram보다 유연하게 적용이 가능합니다.
3. ROUGE-W(Weighted Longest Common Subsequence)
ROUGE-L에서 연속된 Sequence가 있는 경우 가중치를 주는 지표입니다.
4. ROUGE-S(Skip-Bigram Co-Occurrence Statistic)
연속되지 않더라도 2개 단어 pair가 겹치는 횟수를 기준으로 측정합니다.
5. ROUGE-SU: Extension of ROUGE-S
ROUGE-S는 단어 쌍 순서까지 겹치는 경우에만 일치하는 것으로 측정하므로, 해당 단어가 출현한 것만으로도 측정되도록 하기 위해 unigram을 추가하여 측정합니다.
장점
- 계산이 간단하고 빠르며, 직관적입니다.
- 정량적 비교가 가능합니다.
- 다양한 변형이 가능합니다.
한계점
- 요약에 기존 요약과 다른 다양한 언어가 사용된 경우 성능이 낮다고 평가할 가능성이 있습니다.(같은 단어 일치만 보기 때문에)
- "자동차-차량"과 같은 동의어에 대한 처리가 어렵습니다.(둘이 다른 단어로 인식) (-> 동의어 dictionary를 활용하는 방법도 있다고 합니다)
- 형태소 분석이 필요한 언어에서는 적용이 어려울 수 있습니다.
이러한 한계점으로 인해 다른 지표들과 함께 사용하는 경우가 많다고 합니다.
*참고 문서
NLP 메트릭 톺아보기
기초부터 톺아보는 NLP 학습기
velog.io
[Metrics] ROUGE score, text 생성 타스크 평가 지표
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기
yumdata.tistory.com
ROUGE: A Package for Automatic Evaluation of Summaries
Chin-Yew Lin. Text Summarization Branches Out. 2004.
aclanthology.org
[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation
ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https
supkoon.tistory.com
[NLP]Rouge score - Summarization의 평가 Metric
Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가
velog.io