MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

Machine Learning/MLLM 2024. 8. 17. 22:50

Can Multimodal Large Language Models (MLLMs) effectively serve as judges in multimodal domains, and how closely do their evaluations align with human preferences?
-> MLLM의 평가 능력을 평가 (Meta-evaluation)

1. Introduction

Inspiration: LLM-as-a-Judge

https://arxiv.org/abs/2306.05685 / https://arxiv.org/html/2403.02839v1

Overview

MLLM이 다양한 modality에서 판단하는 능력을 평가
다음과 같은 3가지 형태의 판단에 대한 MLLM의 능력을 평가
- Scroing Evaluuation
- Pair Comaprison
- Batch Ranking
이 과정에서 MLLM을 통한 평가에 존재하는 다음과 같은 문제들을 발견함
- Diverse bias
- Hallucinatory Responses
- Inconsistnecy

→ MLLM-as-a-judge에 대한 추가적인 연구 필요함

MLLM Evaluation

Assessing the effectiveness of MLLMs remains challenging
- Limitations of traditional metrics ( text-based exact matches, embedding distances )
생성된 출력의 rich context를 포착하지 못함

MLLM은 multimodal domain에서 judge로서 효과적으로 사용될 수 있는가? 또 MLLM의 평가는 인간의 선호와 얼마나 유사한가?

Extensive Study

Dataset

14개의 데이터셋 / 4,414개의 image-instructions 데이터 확보

Model ( 6 Respone model / 11 Judge(evaluation) Model )

MLLM 6개를 사용해 각 명령에 대한 응답 생성
- GPT-4V (OpenAI, 2023), Gemini (GeminiTeam, 2023), LLaVA-1.5-13b, LLaVA-1.6-34b (Liu et al., 2023d), CogVLM (Wang et al., 2023c), Qwen-VL-Max (Bai et al., 2023a)
MLLM 11개를 사용하여 생성된 응답에 대한 세가지 평가 작업 진행
- GPT-4V and Gemini-Pro-1.0/1.5, CogVLM, LLaVA-1.5/1.6 family, and Qwen-VL family

Take-Aways

1. MLLM은 pair-comparison에서는 인간과 유사한 능력을 보여주지만, Score Evaluation 과 Batch Ranking (특히 추론작업) 에 있어서는 더 발전해야함
2. GPT-4V는 모든 task와 settings에서 다른 모델보다 일관되게 우수함
3. Hallucinations, Bias, Inconsistency는 MLLM을 사용한 평가에 있어 주된 도전 과제임

2. MLLM-as-a-Judge: A Benchmark to Access Vison-Language Judging Ability

3가지 step
1. Image-Instruction Pair Collection
2. MLLM Response Collection → image-instruction-response dataset
3. Comparison with Human Annotations

Judging Tasks

Scoring Evaluation
- 특정 기준에 따라 1-5점 사이의 점수를 매김
Pair Comparison
- 두 개의 response를 비교하여 더 좋은 응답을 선택
- 아래 논문을 참고하여 동점(tie) option을 포함함
  https://aclanthology.org/2023.emnlp-main.798/
  -> Pair comparison은 동점 처리에 대한 약점을 가지고 있어 동점 보정 절차를 메트릭에 도입, 이렇게 하면 순위 기반 평가가 보다 공정해진다함
Batch Ranking
- 다수의 응답을 Quality 순으로 정렬

2.1. Step 1: Image-Instruction Pair Collection

4,414 image-text pair
자유 형식 응답(free-form response)에 맞춰 image-intsruction pair로 조정

2.2. Step 2: MLLM Response Collection

GPT-4V, Gemini, LLaVa, Qwen-VL-Max, LLaVa-1.6-34b, CogVLM
17,000 응답 생성
- 너무 짧거나 보안 규정을 준수하지 않는 응답 제외 (GPT-4V, Gemini)

2.3. Step 3: Comparison with Human Annotations

Human Labeling과 비교 (저자 6명이 시행)
이 도메인에 익숙하며, 성별/연령/교육 배경이 다양

3. Experiment Settings

3.1 설정

11 MLLM의 판단 성능을 평가
- GPT-4V (OpenAI, 2023), Gemini-Pro-Vision1.0 (GeminiTeam, 2023), LLaVA-1.5-13b, LLaVA-1.6-7b/13b/34b (Liu et al., 2023d), Qwen-VL-Plus/Max (Bai et al., 2023a) 및 CogVLM (Wang et al., 2023c)
Chiang & Lee의 Analyze-then-Judge 패러다임 적용
https://arxiv.org/abs/2310.05657
- 먼저 응답을 분석한 후 그 분석에 기반하여 판단을 내리도록 요청 (LLaVa 와 CogVLM 은 기능적 한계로 직접적으로 판단 출력)

multi-step CoT 평가
Vision 관련 평가
- w/o vision input
- replacing vision input with detailed description (GPT-4V as a expert)

3.2 Judging Metrics

Human Annotations과 비교
Scoring Evaluation
- Pearson Similarity

$$ r_{XY} = \frac{ \sum^n_i (X_i - \bar{X})(Y_i - \bar{Y}) }{ \sqrt{\sum^n_i (X_i - \bar{X})^2} \sqrt{\sum^n_i (Y_i - \bar{Y})^2} } $$

Pair Comparision → F1, Recall
Batch Evaluation
- Levenshtein Dsitance(Edit Distance)

3.3 Human Argreement in MLLM Judgment

유사성 평가 외에도 잠재적인 bias와 hallucination을 판단하기 위한 추가 평가
Human Agreement (yes or no)
Analysis Grading (1-5)
Hallucination Detection

3.4 참고자료 : Estabilished Definitions of vision and language Hallucination

https://arxiv.org/abs/2401.05561

https://arxiv.org/abs/2305.11747

4. Empirical Results and Analysis

4.1 MLLM Judgement vs Human Annoation

GPT-4V가 human annotation과 가장 가까움
Pair Comparison에서 전반적으로 평가가 인간과 비슷하며, Score와 Batch ranking은 인간과 차이가 있음
Analyze-then-Judge 세팅에서 GPT-4V는 더 긴 판단을 제공하는 경향이 있으며, 이는 long-term text에 대한 능력을 보여줌

4.1.1 Scoring Evaluation (Figure 4. right)

GPT-4V > Gemini > LLaVa, CogVLM
Gemini는 4점 근처의 점수를 할당하는 경향이 있음
- ‘High-score’ Bias훈련 데이터에서 긍정/부정 평가 지시문이 불균형한 경우 발생할 수 있음
  https://arxiv.org/abs/2310.14566
GPT-4V는 고르게 분포 + human과 비슷

4.1.2 Pair Comparision (Figure 4. left)

GPT-4v
- w/ tie → 0.636 / w.o tie → 0.773
- 대부분 데이터에서 0.8이 넘는 일치를 보여줌
Gemini, LLaVa, CogVLM은 승자를 명확하게 하는 경향이 있음
- 훈련 과정에서 동정 상황이 부족하여 생긴 bias로 보임
GPT는 인간과 유사한 빈도로 동점을 줌

4.1.3. Batch Ranking

GPT가 평균 0.361로 가장 높지만, 모든 MLLM이 개선의 여지가 큼
CogVLM은 전체 순위를 제공하지 못함
LLaVA는 예시 프롬프트에 있는 판단을 복제하는 경향이 있음

4.2 MLLM Judging Consistency

6번의 반복 테스트를 통해 Judging Consistency 를 체크
MCC = 6번해서 절반 초과가 동일한 판단을하고, 그 판단이 정확한 경우의 비율
GPT-4V가 모든 경우에서 Gemini보다 우세하지만, Scroing과 Batch 에서 역시 낮은 점수를 보임

4.3 Human Agreement

GPT-4V가 모든 설정에서 70%의 human agreement를 기록 → pair 기준 약 79%
Gemini도 Pair기준으로는 72%
- LLM은 Pair에서 좋은 성능을 보임
- https://arxiv.org/abs/2306.05685

Scoring 에서 Mean Absolute Deviation(MAD) 메트릭을 도입
- 개별 점수와 평균 간의 MAD값을 측정
- GPT-4V 가 quality 평가에서 더 낮은 변동을 보임 → 더 일관되고 신뢰할 수 있는 판단을 내림
Batch Ranking: 두 모델 모두 일치도가 감소
- 특히 Math & Graphics 에서 이러한 경향을 보임

4.4 Multi-steps CoT Do Not Enhance Performance

CoT를 통한 추가 Step이 환각을 크게 줄여주지만, human agreement와 가깝게 해주는 건 아님
오히려 여러 데이터셋에서 판단 성능이 저하되는 모습을 보임 Gemini에서 두드러짐
CoT에서 이전 체인에서 환각이 존재할 경우 최종 판단 자체에 문제가 생길 가능성이 높아짐

4.5 Vision Perception Benefits MLLM Judging

2가지 접근법을 테스트
1. 비전 정보를 완전히 생략
2. 비전 정보에 대한 Detailed Description을 대신 제공
3. ( LLaMA-70b, Mixtral8x7b-v0.1, GPT-3.5 로 description 생성)
Detailed Description이 있을 경우 성능이 크게 향상
Pair w.o. Tie의 경우에는 오히려 비전 데이터가 있는 경우(0.773) 보다 비전에 대한 description (0.878)을 쓰는게 더 나았음
MLLM은 사람과 같은 판단을 할 능력이 부족하지만, LLM이 multi-modal task에서 description을 통해 판단할 가능성이 있음을 시사

4.6. Bias and Hallucination

4.6.1. Egocentric Bias

자기 중심 편향
모델은 자신의 응답에 더 높은 점수를 주는 경향이 있음
GPT-4V는 자기중심성이 강하며 Gemini는 균일한 점수 분포를 유지 (더 공정함)
GPT-4V 는 사전 정의된 ethical guideline에 근거한 판단을 하여, privacy 관련 질문에 높은 점수를 주는 경향이 있음

4.6.2. Position Bias

모델은 특정 위치의 답변을 선호하는 경향이 있음
https://arxiv.org/abs/2307.03172
- 학습 데이터에서 정답이 시작이나 끝에 배치되는 경우가 많기 때문

Figure 4를 보면 LLaVA와 CogVLM이 답에 상관없이 특정 위치의 답변을 선호한다는걸 알수 있음
- 이는 복잡한 instruction을 이해하는 능력이 제한적이기 때문임
- 예를들어, Batch Ranking에서 예시 프롬프트의 정답이 ABCD일 경우 LLaVA는 88.2%의 응답에서 이를 그대로 사용함 → 다만 이와 같은 편향은 예시를 다양하게 하여 줄일수 있음

4.6.3. Length Bias

모델은 간결하고 정확한 답변보다 긴 답변을 선호하는 경향이 있음
그림 6: 더 긴 컨텐츠에 높은 점수를 줌
GPT-4를 사용해 원래 의도를 유지한 채로 답변의 의미적인 length를 늘리는 실험(GPT-4V-Verbosity) 진행

4.6.4. Hallucination Detection and Mitigation

Batch Ranking에서 Scoring, Pair 보다 환각이 더 자주 발생함
CoT 접근법을 통해 Analyze-then-Judge 전에 추론 단계를 추가
- 이 과정에서 환각을 효과적으로 줄임, 특히 이미지 관련 정보 포함 작업에서 큰 개선을 보임
- 특히 longer text에서 detailed reasoning step이 환각을 줄이는데 효과적임

4.7 Scaling Law for MLLM-as-a-Judge

LLaVa-1.6-34b, Qwen-VL-Max 가 더 좋은 성능을 보여줌 -> Scaling Law 잘 동작

5. Future Directions

Multimodal RLHF/DPO

논문에서 제공하는 데이터셋에 선호도를 포함한 annotation이 있으므로 학습 데이터로 쓰면 좋을듯

Exploring the upper bound of MLLM-as-a-Judge

CoT 프롬프트 외에도 Multi-agent debating과 같은 정교한 프레임워크가 존재함 → 이를 통해 판단 정확도를 높일 수 있을듯
https://arxiv.org/abs/2308.07201
모델의 bias를 해결하는 것도 중요 ex) Pair, BatchRanking 에서 위치 편향 해결도 개선이 필요함

Human-in-the-loop approach

판단 일관성과 신뢰도 향상을 위한 방안이 될 수있음
- 반복된 판단에서 절반 이상이 다를 경우 consistency check를 위한 사람의 개입이 필요할 수 있음
- 출력 형식이 다르거나 결과가 명확하지 않은 경우 수동으로 확인하기

→ 프로세스 개선의 여지 존재

6. Conclusion

We advocate for additinal efforts dedicated to supporting the continuous development of MLLM as judge

Appendix

GPT-4V hyperparameters

top-p 0.9 / max-tokens 2048 / temperature 0.9

GPT-4V Json Mode

Json 형식으로 출력을 구조화
응답을 분할(compartmentalize)하는 경향이 있어 자연스러운 흐름이 저해될 수 있음

Human Agreement Bias Checking

Human Agreement (yes or no) → variance 적음
Analysis Grading (1-5) → 차이가 존재함
- 개별적인 인식 차이 및 내재된 bias
- 하지만 전체 annotation의 integrity을 크게 훼손하지는 않음
Hallucination Detection
- 놀라운 일치도(concensus)를 보여줌
- desicion tree를 사용하여 일관성을 확보할 수 있었음

'Machine Learning > MLLM' 카테고리의 다른 글

Human Feedback is not Gold Standard (0)	2024.11.28
FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS (0)	2024.11.28
Video Recap: Recursive Captioning for Hour-Long Videos (0)	2024.08.17
Video Understanding Paper Summary (Data 중심) (0)	2024.08.17
EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria (0)	2024.08.17

ABOUT ME