[이론 공부] NLP 성능평가 Metric : 2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

저번 BLEU와 같이 Quality평가 지표 중 Supervised - Word based 의 특징을 가지는 ROUGE를 탐구해보고자 합니다.

BLEU는 주로 기계번역, 자동요약 task에 활용되는 평가지표입니다. (특히 요약)

Supervised라는 의미는, 사람이 번역한 문장을 답으로 제시하여, 기계번역(예측문장) - 사람번역(정답문장) 문장의 유사도를 측정하는 방법입니다.

Word based라는 의미는, ROUGE가 연속된 단어 뭉치를 활용하는 n-gram 일치도를 기반으로 유사도를 측정하기 때문입니다.

ROUGE의 값은 0 ~ 1 사이에 있고, 1에 가까울 수록 성능이 좋다는 것을 의미합니다.

BLEU도 n-gram을 활용하지만, BLEU는 n-gram Precision, ROUGE는 n-gram Recall을 활용한다는 점이 차이점입니다.

두 가지의 글에서 설명이 잘 되어 있어서 링크를 첨부합니다.

아래 글에서 Precision과 Recall에 개념에 따른 BLEU와 ROUGE의 차이, 의의를 잘 설명해두었습니다.

[Metrics] ROUGE score, text 생성 타스크 평가 지표

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기

yumdata.tistory.com

ROUGE를 활용한 여러가지 지표들이 있습니다.

자세한 예시는 아래 링크에서 확인 가능합니다.

[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation

ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https

supkoon.tistory.com

1. ROUGE-N

문장 간 중복되는 n-gram을 비교하는 지표입니다.

$$ROUGE - N = \frac{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count_{match}\left ( gram_{n} \right ) }{\sum_{S\in \left\{Reference\,Summaries \right\}}\sum_{gram_{n}\in S}Count\left ( gram_{n} \right )}$$

2. ROUGE-L(Longest Common Subsequence)

가장 긴 Squence의 Recall을 구하는 지표입니다.

LCS(Longest Common Subsequence)기법을 활용하여 연속되지 않은 Sequence라도 매칭되는 값을 측정해서 n-gram보다 유연하게 적용이 가능합니다.

3. ROUGE-W(Weighted Longest Common Subsequence)

ROUGE-L에서 연속된 Sequence가 있는 경우 가중치를 주는 지표입니다.

4. ROUGE-S(Skip-Bigram Co-Occurrence Statistic)

연속되지 않더라도 2개 단어 pair가 겹치는 횟수를 기준으로 측정합니다.

5. ROUGE-SU: Extension of ROUGE-S

ROUGE-S는 단어 쌍 순서까지 겹치는 경우에만 일치하는 것으로 측정하므로, 해당 단어가 출현한 것만으로도 측정되도록 하기 위해 unigram을 추가하여 측정합니다.

장점

계산이 간단하고 빠르며, 직관적입니다.
정량적 비교가 가능합니다.
다양한 변형이 가능합니다.

한계점

요약에 기존 요약과 다른 다양한 언어가 사용된 경우 성능이 낮다고 평가할 가능성이 있습니다.(같은 단어 일치만 보기 때문에)
"자동차-차량"과 같은 동의어에 대한 처리가 어렵습니다.(둘이 다른 단어로 인식) (-> 동의어 dictionary를 활용하는 방법도 있다고 합니다)
형태소 분석이 필요한 언어에서는 적용이 어려울 수 있습니다.

이러한 한계점으로 인해 다른 지표들과 함께 사용하는 경우가 많다고 합니다.

*참고 문서

NLP 메트릭 톺아보기

기초부터 톺아보는 NLP 학습기

velog.io

[Metrics] ROUGE score, text 생성 타스크 평가 지표

yumdata.tistory.com

ROUGE: A Package for Automatic Evaluation of Summaries

Chin-Yew Lin. Text Summarization Branches Out. 2004.

aclanthology.org

[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation

supkoon.tistory.com

[NLP]Rouge score - Summarization의 평가 Metric

Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가

velog.io

저작자표시 비영리 변경금지

'NLP' 카테고리의 다른 글

[이론 공부] NLP 성능평가 Metric : 0. 개요, 1. BLEU(Bilingual Evaluation Understudy Score) (0)	2024.08.11

sparkling

[이론 공부] NLP 성능평가 Metric : 2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

*참고 문서

'NLP' 카테고리의 다른 글

티스토리툴바

[이론 공부] NLP 성능평가 Metric : 2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

*참고 문서

'NLP' 카테고리의 다른 글

'NLP' Related Articles

티스토리툴바