ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
    Machine Learning/MLLM 2024. 8. 17. 22:50
    Can Multimodal Large Language Models (MLLMs) effectively serve as judges in multimodal domains, and how closely do their evaluations align with human preferences?
    -> MLLM의 평가 능력을 평가 (Meta-evaluation)

    1. Introduction

    Inspiration: LLM-as-a-Judge

    https://arxiv.org/abs/2306.05685  /  https://arxiv.org/html/2403.02839v1

    Overview

    • MLLM이 다양한 modality에서 판단하는 능력을 평가
    • 다음과 같은 3가지 형태의 판단에 대한 MLLM의 능력을 평가
      • Scroing Evaluuation
      • Pair Comaprison
      • Batch Ranking
    • 이 과정에서 MLLM을 통한 평가에 존재하는 다음과 같은 문제들을 발견함
      • Diverse bias
      • Hallucinatory Responses
      • Inconsistnecy

    → MLLM-as-a-judge에 대한 추가적인 연구 필요함

    MLLM Evaluation

    • Assessing the effectiveness of MLLMs remains challenging
      • Limitations of traditional metrics ( text-based exact matches, embedding distances )
    • 생성된 출력의 rich context를 포착하지 못함

    MLLM은 multimodal domain에서 judge로서 효과적으로 사용될 수 있는가? 또 MLLM의 평가는 인간의 선호와 얼마나 유사한가?

    Extensive Study

    Dataset

    • 14개의 데이터셋 / 4,414개의 image-instructions 데이터 확보

    Model ( 6 Respone model / 11 Judge(evaluation) Model )

    • MLLM 6개를 사용해 각 명령에 대한 응답 생성
      • GPT-4V (OpenAI, 2023), Gemini (GeminiTeam, 2023), LLaVA-1.5-13b, LLaVA-1.6-34b (Liu et al., 2023d), CogVLM (Wang et al., 2023c), Qwen-VL-Max (Bai et al., 2023a)
    • MLLM 11개를 사용하여 생성된 응답에 대한 세가지 평가 작업 진행
      • GPT-4V and Gemini-Pro-1.0/1.5, CogVLM, LLaVA-1.5/1.6 family, and Qwen-VL family

    Take-Aways

    1. MLLM은 pair-comparison에서는 인간과 유사한 능력을 보여주지만, Score Evaluation 과 Batch Ranking (특히 추론작업) 에 있어서는 더 발전해야함
    2. GPT-4V는 모든 task와 settings에서 다른 모델보다 일관되게 우수함
    3. Hallucinations, Bias, Inconsistency는 MLLM을 사용한 평가에 있어 주된 도전 과제임

    2. MLLM-as-a-Judge: A Benchmark to Access Vison-Language Judging Ability

    • 3가지 step
      1. Image-Instruction Pair Collection
      2. MLLM Response Collection → image-instruction-response dataset
      3. Comparison with Human Annotations

    Judging Tasks

    • Scoring Evaluation
      • 특정 기준에 따라 1-5점 사이의 점수를 매김
    • Pair Comparison
      • 두 개의 response를 비교하여 더 좋은 응답을 선택
      • 아래 논문을 참고하여 동점(tie) option을 포함함
        https://aclanthology.org/2023.emnlp-main.798/
        -> Pair comparison은 동점 처리에 대한 약점을 가지고 있어 동점 보정 절차를 메트릭에 도입, 이렇게 하면 순위 기반 평가가 보다 공정해진다함
    • Batch Ranking
      • 다수의 응답을 Quality 순으로 정렬


    2.1. Step 1: Image-Instruction Pair Collection

    • 4,414 image-text pair
    • 자유 형식 응답(free-form response)에 맞춰 image-intsruction pair로 조정

    2.2. Step 2: MLLM Response Collection

    • GPT-4V, Gemini, LLaVa, Qwen-VL-Max, LLaVa-1.6-34b, CogVLM
    • 17,000 응답 생성
      • 너무 짧거나 보안 규정을 준수하지 않는 응답 제외 (GPT-4V, Gemini)

    2.3. Step 3: Comparison with Human Annotations

    • Human Labeling과 비교 (저자 6명이 시행)
    • 이 도메인에 익숙하며, 성별/연령/교육 배경이 다양

     

     

    3. Experiment Settings

    3.1 설정

      • 11 MLLM의 판단 성능을 평가
        • GPT-4V (OpenAI, 2023), Gemini-Pro-Vision1.0 (GeminiTeam, 2023), LLaVA-1.5-13b, LLaVA-1.6-7b/13b/34b (Liu et al., 2023d), Qwen-VL-Plus/Max (Bai et al., 2023a) 및 CogVLM (Wang et al., 2023c)
      • Chiang & Lee의 Analyze-then-Judge 패러다임 적용
        https://arxiv.org/abs/2310.05657
        • 먼저 응답을 분석한 후 그 분석에 기반하여 판단을 내리도록 요청 (LLaVa 와 CogVLM 은 기능적 한계로 직접적으로 판단 출력)
    • multi-step CoT 평가
    • Vision 관련 평가
      • w/o vision input
      • replacing vision input with detailed description (GPT-4V as a expert)

    3.2 Judging Metrics

    • Human Annotations과 비교
    • Scoring Evaluation
      • Pearson Similarity

    $$ r_{XY} = \frac{ \sum^n_i (X_i - \bar{X})(Y_i - \bar{Y}) }{ \sqrt{\sum^n_i (X_i - \bar{X})^2} \sqrt{\sum^n_i (Y_i - \bar{Y})^2} } $$

    • Pair Comparision → F1, Recall
    • Batch Evaluation
      • Levenshtein Dsitance(Edit Distance)

     

    3.3 Human Argreement in MLLM Judgment

    • 유사성 평가 외에도 잠재적인 bias와 hallucination을 판단하기 위한 추가 평가
    • Human Agreement (yes or no)
    • Analysis Grading (1-5)
    • Hallucination Detection

    3.4 참고자료 : Estabilished Definitions of vision and language Hallucination

    https://arxiv.org/abs/2401.05561 

    https://arxiv.org/abs/2305.11747

    4. Empirical Results and Analysis

    4.1 MLLM Judgement vs Human Annoation

    • GPT-4V가 human annotation과 가장 가까움
    • Pair Comparison에서 전반적으로 평가가 인간과 비슷하며, Score와 Batch ranking은 인간과 차이가 있음
    • Analyze-then-Judge 세팅에서 GPT-4V는 더 긴 판단을 제공하는 경향이 있으며, 이는 long-term text에 대한 능력을 보여줌

    4.1.1 Scoring Evaluation (Figure 4. right)

    • GPT-4V > Gemini > LLaVa, CogVLM
    • Gemini는 4점 근처의 점수를 할당하는 경향이 있음
    • GPT-4V는 고르게 분포 + human과 비슷

    4.1.2 Pair Comparision (Figure 4. left)

    • GPT-4v
      • w/ tie → 0.636 / w.o tie → 0.773
      • 대부분 데이터에서 0.8이 넘는 일치를 보여줌
    • Gemini, LLaVa, CogVLM은 승자를 명확하게 하는 경향이 있음
      • 훈련 과정에서 동정 상황이 부족하여 생긴 bias로 보임
    • GPT는 인간과 유사한 빈도로 동점을 줌

    4.1.3. Batch Ranking

    • GPT가 평균 0.361로 가장 높지만, 모든 MLLM이 개선의 여지가 큼
    • CogVLM은 전체 순위를 제공하지 못함
    • LLaVA는 예시 프롬프트에 있는 판단을 복제하는 경향이 있음

     

    4.2 MLLM Judging Consistency

    • 6번의 반복 테스트를 통해 Judging Consistency 를 체크
    • MCC = 6번해서 절반 초과가 동일한 판단을하고, 그 판단이 정확한 경우의 비율
    • GPT-4V가 모든 경우에서 Gemini보다 우세하지만, Scroing과 Batch 에서 역시 낮은 점수를 보임

     

    4.3 Human Agreement

      • GPT-4V가 모든 설정에서 70%의 human agreement를 기록 → pair 기준 약 79%
      • Gemini도 Pair기준으로는 72%


    • Scoring 에서 Mean Absolute Deviation(MAD) 메트릭을 도입
      • 개별 점수와 평균 간의 MAD값을 측정
      • GPT-4V 가 quality 평가에서 더 낮은 변동을 보임 → 더 일관되고 신뢰할 수 있는 판단을 내림
    • Batch Ranking: 두 모델 모두 일치도가 감소
      • 특히 Math & Graphics 에서 이러한 경향을 보임

    4.4 Multi-steps CoT Do Not Enhance Performance

    • CoT를 통한 추가 Step이 환각을 크게 줄여주지만, human agreement와 가깝게 해주는 건 아님
    • 오히려 여러 데이터셋에서 판단 성능이 저하되는 모습을 보임 Gemini에서 두드러짐
    • CoT에서 이전 체인에서 환각이 존재할 경우 최종 판단 자체에 문제가 생길 가능성이 높아짐

    4.5 Vision Perception Benefits MLLM Judging

    • 2가지 접근법을 테스트
      1. 비전 정보를 완전히 생략
      2. 비전 정보에 대한 Detailed Description을 대신 제공
      3. ( LLaMA-70b, Mixtral8x7b-v0.1, GPT-3.5 로 description 생성)
    • Detailed Description이 있을 경우 성능이 크게 향상
    • Pair w.o. Tie의 경우에는 오히려 비전 데이터가 있는 경우(0.773) 보다 비전에 대한 description (0.878)을 쓰는게 더 나았음
    • MLLM은 사람과 같은 판단을 할 능력이 부족하지만, LLM이 multi-modal task에서 description을 통해 판단할 가능성이 있음을 시사

     

    4.6. Bias and Hallucination

    4.6.1. Egocentric Bias

    • 자기 중심 편향
    • 모델은 자신의 응답에 더 높은 점수를 주는 경향이 있음
    • GPT-4V는 자기중심성이 강하며 Gemini는 균일한 점수 분포를 유지 (더 공정함)
    • GPT-4V 는 사전 정의된 ethical guideline에 근거한 판단을 하여, privacy 관련 질문에 높은 점수를 주는 경향이 있음

     

    4.6.2. Position Bias

      • 모델은 특정 위치의 답변을 선호하는 경향이 있음
        https://arxiv.org/abs/2307.03172
        • 학습 데이터에서 정답이 시작이나 끝에 배치되는 경우가 많기 때문
    • Figure 4를 보면 LLaVA와 CogVLM이 답에 상관없이 특정 위치의 답변을 선호한다는걸 알수 있음
      • 이는 복잡한 instruction을 이해하는 능력이 제한적이기 때문임
      • 예를들어, Batch Ranking에서 예시 프롬프트의 정답이 ABCD일 경우 LLaVA는 88.2%의 응답에서 이를 그대로 사용함 → 다만 이와 같은 편향은 예시를 다양하게 하여 줄일수 있음

    4.6.3. Length Bias

    • 모델은 간결하고 정확한 답변보다 긴 답변을 선호하는 경향이 있음
    • 그림 6: 더 긴 컨텐츠에 높은 점수를 줌
    • GPT-4를 사용해 원래 의도를 유지한 채로 답변의 의미적인 length를 늘리는 실험(GPT-4V-Verbosity) 진행

    4.6.4. Hallucination Detection and Mitigation

    • Batch Ranking에서 Scoring, Pair 보다 환각이 더 자주 발생함
    • CoT 접근법을 통해 Analyze-then-Judge 전에 추론 단계를 추가
      • 이 과정에서 환각을 효과적으로 줄임, 특히 이미지 관련 정보 포함 작업에서 큰 개선을 보임
      • 특히 longer text에서 detailed reasoning step이 환각을 줄이는데 효과적임

    4.7 Scaling Law for MLLM-as-a-Judge

    • LLaVa-1.6-34b, Qwen-VL-Max 가 더 좋은 성능을 보여줌 -> Scaling Law 잘 동작

    5. Future Directions

    Multimodal RLHF/DPO

    • 논문에서 제공하는 데이터셋에 선호도를 포함한 annotation이 있으므로 학습 데이터로 쓰면 좋을듯

    Exploring the upper bound of MLLM-as-a-Judge

    • CoT 프롬프트 외에도 Multi-agent debating과 같은 정교한 프레임워크가 존재함 → 이를 통해 판단 정확도를 높일 수 있을듯
      https://arxiv.org/abs/2308.07201
    • 모델의 bias를 해결하는 것도 중요 ex) Pair, BatchRanking 에서 위치 편향 해결도 개선이 필요함

    Human-in-the-loop approach

    • 판단 일관성과 신뢰도 향상을 위한 방안이 될 수있음
      • 반복된 판단에서 절반 이상이 다를 경우 consistency check를 위한 사람의 개입이 필요할 수 있음
      • 출력 형식이 다르거나 결과가 명확하지 않은 경우 수동으로 확인하기

    → 프로세스 개선의 여지 존재

    6. Conclusion

    We advocate for additinal efforts dedicated to supporting the continuous development of MLLM as judge

    Appendix

    GPT-4V hyperparameters

    • top-p 0.9 / max-tokens 2048 / temperature 0.9


    GPT-4V Json Mode

    • Json 형식으로 출력을 구조화
    • 응답을 분할(compartmentalize)하는 경향이 있어 자연스러운 흐름이 저해될 수 있음

     

     

     

    Human Agreement Bias Checking

    • Human Agreement (yes or no) → variance 적음
    • Analysis Grading (1-5) → 차이가 존재함
      • 개별적인 인식 차이 및 내재된 bias
      • 하지만 전체 annotation의 integrity을 크게 훼손하지는 않음
    • Hallucination Detection
      • 놀라운 일치도(concensus)를 보여줌
      • desicion tree를 사용하여 일관성을 확보할 수 있었음

    댓글

Designed by Tistory.