-
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language BenchmarkMachine Learning/MLLM 2024. 8. 17. 22:50
Can Multimodal Large Language Models (MLLMs) effectively serve as judges in multimodal domains, and how closely do their evaluations align with human preferences?
-> MLLM의 평가 능력을 평가 (Meta-evaluation)1. Introduction
Inspiration: LLM-as-a-Judge
https://arxiv.org/abs/2306.05685 / https://arxiv.org/html/2403.02839v1
Overview
- MLLM이 다양한 modality에서 판단하는 능력을 평가
- 다음과 같은 3가지 형태의 판단에 대한 MLLM의 능력을 평가
- Scroing Evaluuation
- Pair Comaprison
- Batch Ranking
- 이 과정에서 MLLM을 통한 평가에 존재하는 다음과 같은 문제들을 발견함
- Diverse bias
- Hallucinatory Responses
- Inconsistnecy
→ MLLM-as-a-judge에 대한 추가적인 연구 필요함
MLLM Evaluation
- Assessing the effectiveness of MLLMs remains challenging
- Limitations of traditional metrics ( text-based exact matches, embedding distances )
- 생성된 출력의 rich context를 포착하지 못함
MLLM은 multimodal domain에서 judge로서 효과적으로 사용될 수 있는가? 또 MLLM의 평가는 인간의 선호와 얼마나 유사한가?
Extensive Study
Dataset
- 14개의 데이터셋 / 4,414개의 image-instructions 데이터 확보
Model ( 6 Respone model / 11 Judge(evaluation) Model )
- MLLM 6개를 사용해 각 명령에 대한 응답 생성
- GPT-4V (OpenAI, 2023), Gemini (GeminiTeam, 2023), LLaVA-1.5-13b, LLaVA-1.6-34b (Liu et al., 2023d), CogVLM (Wang et al., 2023c), Qwen-VL-Max (Bai et al., 2023a)
- MLLM 11개를 사용하여 생성된 응답에 대한 세가지 평가 작업 진행
- GPT-4V and Gemini-Pro-1.0/1.5, CogVLM, LLaVA-1.5/1.6 family, and Qwen-VL family
Take-Aways
1. MLLM은 pair-comparison에서는 인간과 유사한 능력을 보여주지만, Score Evaluation 과 Batch Ranking (특히 추론작업) 에 있어서는 더 발전해야함
2. GPT-4V는 모든 task와 settings에서 다른 모델보다 일관되게 우수함
3. Hallucinations, Bias, Inconsistency는 MLLM을 사용한 평가에 있어 주된 도전 과제임2. MLLM-as-a-Judge: A Benchmark to Access Vison-Language Judging Ability
- 3가지 step
- Image-Instruction Pair Collection
- MLLM Response Collection → image-instruction-response dataset
- Comparison with Human Annotations
Judging Tasks
- Scoring Evaluation
- 특정 기준에 따라 1-5점 사이의 점수를 매김
- Pair Comparison
- 두 개의 response를 비교하여 더 좋은 응답을 선택
- 아래 논문을 참고하여 동점(tie) option을 포함함
https://aclanthology.org/2023.emnlp-main.798/
-> Pair comparison은 동점 처리에 대한 약점을 가지고 있어 동점 보정 절차를 메트릭에 도입, 이렇게 하면 순위 기반 평가가 보다 공정해진다함
- Batch Ranking
- 다수의 응답을 Quality 순으로 정렬
2.1. Step 1: Image-Instruction Pair Collection- 4,414 image-text pair
- 자유 형식 응답(free-form response)에 맞춰 image-intsruction pair로 조정
2.2. Step 2: MLLM Response Collection
- GPT-4V, Gemini, LLaVa, Qwen-VL-Max, LLaVa-1.6-34b, CogVLM
- 17,000 응답 생성
- 너무 짧거나 보안 규정을 준수하지 않는 응답 제외 (GPT-4V, Gemini)
2.3. Step 3: Comparison with Human Annotations
- Human Labeling과 비교 (저자 6명이 시행)
- 이 도메인에 익숙하며, 성별/연령/교육 배경이 다양
3. Experiment Settings
3.1 설정
- 11 MLLM의 판단 성능을 평가
- GPT-4V (OpenAI, 2023), Gemini-Pro-Vision1.0 (GeminiTeam, 2023), LLaVA-1.5-13b, LLaVA-1.6-7b/13b/34b (Liu et al., 2023d), Qwen-VL-Plus/Max (Bai et al., 2023a) 및 CogVLM (Wang et al., 2023c)
- Chiang & Lee의 Analyze-then-Judge 패러다임 적용
https://arxiv.org/abs/2310.05657- 먼저 응답을 분석한 후 그 분석에 기반하여 판단을 내리도록 요청 (LLaVa 와 CogVLM 은 기능적 한계로 직접적으로 판단 출력)
- multi-step CoT 평가
- Vision 관련 평가
- w/o vision input
- replacing vision input with detailed description (GPT-4V as a expert)
3.2 Judging Metrics
- Human Annotations과 비교
- Scoring Evaluation
- Pearson Similarity
$$ r_{XY} = \frac{ \sum^n_i (X_i - \bar{X})(Y_i - \bar{Y}) }{ \sqrt{\sum^n_i (X_i - \bar{X})^2} \sqrt{\sum^n_i (Y_i - \bar{Y})^2} } $$
- Pair Comparision → F1, Recall
- Batch Evaluation
- Levenshtein Dsitance(Edit Distance)
3.3 Human Argreement in MLLM Judgment
- 유사성 평가 외에도 잠재적인 bias와 hallucination을 판단하기 위한 추가 평가
- Human Agreement (yes or no)
- Analysis Grading (1-5)
- Hallucination Detection
3.4 참고자료 : Estabilished Definitions of vision and language Hallucination
https://arxiv.org/abs/2401.05561
https://arxiv.org/abs/2305.11747
4. Empirical Results and Analysis
4.1 MLLM Judgement vs Human Annoation
- GPT-4V가 human annotation과 가장 가까움
- Pair Comparison에서 전반적으로 평가가 인간과 비슷하며, Score와 Batch ranking은 인간과 차이가 있음
- Analyze-then-Judge 세팅에서 GPT-4V는 더 긴 판단을 제공하는 경향이 있으며, 이는 long-term text에 대한 능력을 보여줌
4.1.1 Scoring Evaluation (Figure 4. right)
- GPT-4V > Gemini > LLaVa, CogVLM
- Gemini는 4점 근처의 점수를 할당하는 경향이 있음
- ‘High-score’ Bias훈련 데이터에서 긍정/부정 평가 지시문이 불균형한 경우 발생할 수 있음
https://arxiv.org/abs/2310.14566
- ‘High-score’ Bias훈련 데이터에서 긍정/부정 평가 지시문이 불균형한 경우 발생할 수 있음
- GPT-4V는 고르게 분포 + human과 비슷
4.1.2 Pair Comparision (Figure 4. left)
- GPT-4v
- w/ tie → 0.636 / w.o tie → 0.773
- 대부분 데이터에서 0.8이 넘는 일치를 보여줌
- Gemini, LLaVa, CogVLM은 승자를 명확하게 하는 경향이 있음
- 훈련 과정에서 동정 상황이 부족하여 생긴 bias로 보임
- GPT는 인간과 유사한 빈도로 동점을 줌
4.1.3. Batch Ranking
- GPT가 평균 0.361로 가장 높지만, 모든 MLLM이 개선의 여지가 큼
- CogVLM은 전체 순위를 제공하지 못함
- LLaVA는 예시 프롬프트에 있는 판단을 복제하는 경향이 있음
4.2 MLLM Judging Consistency
- 6번의 반복 테스트를 통해 Judging Consistency 를 체크
- MCC = 6번해서 절반 초과가 동일한 판단을하고, 그 판단이 정확한 경우의 비율
- GPT-4V가 모든 경우에서 Gemini보다 우세하지만, Scroing과 Batch 에서 역시 낮은 점수를 보임
4.3 Human Agreement
- GPT-4V가 모든 설정에서 70%의 human agreement를 기록 → pair 기준 약 79%
- Gemini도 Pair기준으로는 72%
- LLM은 Pair에서 좋은 성능을 보임
- https://arxiv.org/abs/2306.05685
- Scoring 에서 Mean Absolute Deviation(MAD) 메트릭을 도입
- 개별 점수와 평균 간의 MAD값을 측정
- GPT-4V 가 quality 평가에서 더 낮은 변동을 보임 → 더 일관되고 신뢰할 수 있는 판단을 내림
- Batch Ranking: 두 모델 모두 일치도가 감소
- 특히 Math & Graphics 에서 이러한 경향을 보임
4.4 Multi-steps CoT Do Not Enhance Performance
- CoT를 통한 추가 Step이 환각을 크게 줄여주지만, human agreement와 가깝게 해주는 건 아님
- 오히려 여러 데이터셋에서 판단 성능이 저하되는 모습을 보임 Gemini에서 두드러짐
- CoT에서 이전 체인에서 환각이 존재할 경우 최종 판단 자체에 문제가 생길 가능성이 높아짐
4.5 Vision Perception Benefits MLLM Judging
- 2가지 접근법을 테스트
- 비전 정보를 완전히 생략
- 비전 정보에 대한 Detailed Description을 대신 제공
- ( LLaMA-70b, Mixtral8x7b-v0.1, GPT-3.5 로 description 생성)
- Detailed Description이 있을 경우 성능이 크게 향상
- Pair w.o. Tie의 경우에는 오히려 비전 데이터가 있는 경우(0.773) 보다 비전에 대한 description (0.878)을 쓰는게 더 나았음
- MLLM은 사람과 같은 판단을 할 능력이 부족하지만, LLM이 multi-modal task에서 description을 통해 판단할 가능성이 있음을 시사
4.6. Bias and Hallucination
4.6.1. Egocentric Bias
- 자기 중심 편향
- 모델은 자신의 응답에 더 높은 점수를 주는 경향이 있음
- GPT-4V는 자기중심성이 강하며 Gemini는 균일한 점수 분포를 유지 (더 공정함)
- GPT-4V 는 사전 정의된 ethical guideline에 근거한 판단을 하여, privacy 관련 질문에 높은 점수를 주는 경향이 있음
4.6.2. Position Bias
- 모델은 특정 위치의 답변을 선호하는 경향이 있음
https://arxiv.org/abs/2307.03172- 학습 데이터에서 정답이 시작이나 끝에 배치되는 경우가 많기 때문
- Figure 4를 보면 LLaVA와 CogVLM이 답에 상관없이 특정 위치의 답변을 선호한다는걸 알수 있음
- 이는 복잡한 instruction을 이해하는 능력이 제한적이기 때문임
- 예를들어, Batch Ranking에서 예시 프롬프트의 정답이 ABCD일 경우 LLaVA는 88.2%의 응답에서 이를 그대로 사용함 → 다만 이와 같은 편향은 예시를 다양하게 하여 줄일수 있음
4.6.3. Length Bias
- 모델은 간결하고 정확한 답변보다 긴 답변을 선호하는 경향이 있음
- 그림 6: 더 긴 컨텐츠에 높은 점수를 줌
- GPT-4를 사용해 원래 의도를 유지한 채로 답변의 의미적인 length를 늘리는 실험(GPT-4V-Verbosity) 진행
4.6.4. Hallucination Detection and Mitigation
- Batch Ranking에서 Scoring, Pair 보다 환각이 더 자주 발생함
- CoT 접근법을 통해 Analyze-then-Judge 전에 추론 단계를 추가
- 이 과정에서 환각을 효과적으로 줄임, 특히 이미지 관련 정보 포함 작업에서 큰 개선을 보임
- 특히 longer text에서 detailed reasoning step이 환각을 줄이는데 효과적임
4.7 Scaling Law for MLLM-as-a-Judge
- LLaVa-1.6-34b, Qwen-VL-Max 가 더 좋은 성능을 보여줌 -> Scaling Law 잘 동작
5. Future Directions
Multimodal RLHF/DPO
- 논문에서 제공하는 데이터셋에 선호도를 포함한 annotation이 있으므로 학습 데이터로 쓰면 좋을듯
Exploring the upper bound of MLLM-as-a-Judge
- CoT 프롬프트 외에도 Multi-agent debating과 같은 정교한 프레임워크가 존재함 → 이를 통해 판단 정확도를 높일 수 있을듯
https://arxiv.org/abs/2308.07201 - 모델의 bias를 해결하는 것도 중요 ex) Pair, BatchRanking 에서 위치 편향 해결도 개선이 필요함
Human-in-the-loop approach
- 판단 일관성과 신뢰도 향상을 위한 방안이 될 수있음
- 반복된 판단에서 절반 이상이 다를 경우 consistency check를 위한 사람의 개입이 필요할 수 있음
- 출력 형식이 다르거나 결과가 명확하지 않은 경우 수동으로 확인하기
→ 프로세스 개선의 여지 존재
6. Conclusion
We advocate for additinal efforts dedicated to supporting the continuous development of MLLM as judge
Appendix
GPT-4V hyperparameters
- top-p 0.9 / max-tokens 2048 / temperature 0.9
GPT-4V Json Mode- Json 형식으로 출력을 구조화
- 응답을 분할(compartmentalize)하는 경향이 있어 자연스러운 흐름이 저해될 수 있음
Human Agreement Bias Checking
- Human Agreement (yes or no) → variance 적음
- Analysis Grading (1-5) → 차이가 존재함
- 개별적인 인식 차이 및 내재된 bias
- 하지만 전체 annotation의 integrity을 크게 훼손하지는 않음
- Hallucination Detection
- 놀라운 일치도(concensus)를 보여줌
- desicion tree를 사용하여 일관성을 확보할 수 있었음
'Machine Learning > MLLM' 카테고리의 다른 글
Human Feedback is not Gold Standard (0) 2024.11.28 FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS (0) 2024.11.28 Video Recap: Recursive Captioning for Hour-Long Videos (0) 2024.08.17 Video Understanding Paper Summary (Data 중심) (0) 2024.08.17 EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria (0) 2024.08.17