2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
저번 BLEU와 같이 Quality평가 지표 중 Supervised - Word based 의 특징을 가지는 ROUGE를 탐구해보고자 합니다.
BLEU는 주로 기계번역, 자동요약 task에 활용되는 평가지표입니다. (특히 요약)
Supervised라는 의미는, 사람이 번역한 문장을 답으로 제시하여, 기계번역(예측문장) - 사람번역(정답문장) 문장의 유사도를 측정하는 방법입니다.
Word based라는 의미는, ROUGE가 연속된 단어 뭉치를 활용하는 n-gram 일치도를 기반으로 유사도를 측정하기 때문입니다.
ROUGE의 값은 0 ~ 1 사이에 있고, 1에 가까울 수록 성능이 좋다는 것을 의미합니다.
BLEU도 n-gram을 활용하지만, BLEU는 n-gram Precision, ROUGE는 n-gram Recall을 활용한다는 점이 차이점입니다.
두 가지의 글에서 설명이 잘 되어 있어서 링크를 첨부합니다.
아래 글에서 Precision과 Recall에 개념에 따른 BLEU와 ROUGE의 차이, 의의를 잘 설명해두었습니다.
ROUGE를 활용한 여러가지 지표들이 있습니다.
자세한 예시는 아래 링크에서 확인 가능합니다.
1. ROUGE-N
문장 간 중복되는 n-gram을 비교하는 지표입니다.
$$ROUGE - N = \frac{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count_{match}\left ( gram_{n} \right ) }{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count\left ( gram_{n} \right )}$$
2. ROUGE-L(Longest Common Subsequence)
가장 긴 Squence의 Recall을 구하는 지표입니다.
LCS(Longest Common Subsequence)기법을 활용하여 연속되지 않은 Sequence라도 매칭되는 값을 측정해서 n-gram보다 유연하게 적용이 가능합니다.
3. ROUGE-W(Weighted Longest Common Subsequence)
ROUGE-L에서 연속된 Sequence가 있는 경우 가중치를 주는 지표입니다.
4. ROUGE-S(Skip-Bigram Co-Occurrence Statistic)
연속되지 않더라도 2개 단어 pair가 겹치는 횟수를 기준으로 측정합니다.
5. ROUGE-SU: Extension of ROUGE-S
ROUGE-S는 단어 쌍 순서까지 겹치는 경우에만 일치하는 것으로 측정하므로, 해당 단어가 출현한 것만으로도 측정되도록 하기 위해 unigram을 추가하여 측정합니다.
장점
- 계산이 간단하고 빠르며, 직관적입니다.
- 정량적 비교가 가능합니다.
- 다양한 변형이 가능합니다.
한계점
- 요약에 기존 요약과 다른 다양한 언어가 사용된 경우 성능이 낮다고 평가할 가능성이 있습니다.(같은 단어 일치만 보기 때문에)
- "자동차-차량"과 같은 동의어에 대한 처리가 어렵습니다.(둘이 다른 단어로 인식) (-> 동의어 dictionary를 활용하는 방법도 있다고 합니다)
- 형태소 분석이 필요한 언어에서는 적용이 어려울 수 있습니다.
이러한 한계점으로 인해 다른 지표들과 함께 사용하는 경우가 많다고 합니다.
*참고 문서
'NLP' 카테고리의 다른 글
[이론 공부] NLP 성능평가 Metric : 0. 개요, 1. BLEU(Bilingual Evaluation Understudy Score) (0) | 2024.08.11 |
---|