-
FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETSMachine Learning/MLLM 2024. 11. 28. 19:47
https://arxiv.org/abs/2307.10928
1. Introduction
Evaluation the alignment of LLMs to human values is challenging
open-ended user instruction
1. composition of multiple abilities → single metric으로 평가하기엔 충분하지 않음
2. task-agnostic → task 별로 요구되는 능력이 다름.
Current State : Automatic metrics (Coarse-grained)
- accuracy, ROUGE / overall scoring ( preference 기반 )
- 서로 다른 skill, domain, difficulty를 대상으로 하고 있음
- GSM (Grade Scholl Math) 8K = logical correctness / TruthfulQA = truthfullness
- interpretabilit, realiability 가 제한됨
- task-wise analysis만 가능
FLASK: Fine-grained Language Model Evaluation based on Alignment SKill Sets
- 4 primary abilities / 12 fine-grained skills
- Logical Thinking
- Background Knowledege
- Problem Handling
- Alignment
- 1,740 evaluation instances
- Annotation
- relevant set of skills ( a skill set)
- domains
- difficulty level ( 1~5)
- Evaluation
- Evaluators : human or LLM
- Evaluators score ( 1~5 ) for each annotated skill
- based on reference answer & skill-specific rubrics
- FLASK-HARD
- 89 instacne
- even more fine-grained evaluation using instance-specific rubrics
2. RELATED WORKS
Holistic Evaluation of LLMs
Alignment of LLMs
3. FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION PROTOCOL
3.1 Skill Set Categorization
주요 능력 (Primary Ability) 세부 기술 (Skill) 정의 (Definition) 적용 예시 (Application) 논리적 사고 (Logical Thinking) 논리적 견고성 (Logical Robustness) 단계적 논리적 과정에서 논리적 모순을 피하고, 코딩 및 수학 문제에서 예외 케이스를 고려하며, 반례가 없는지 평가. 케이크 만드는 방법을 설명할 때, 단계가 일관되고 모순이 없어야 함. 논리적 정확성 (Logical Correctness) 결정론적 정답을 가진 지침에 대해 논리적으로 정확한 최종 답변을 제공하는지 평가. "2와 3의 합은 얼마인가?"라는 질문에 "5"라고 정확히 답변. 논리적 효율성 (Logical Efficiency) 응답의 논리가 불필요한 단계 없이 간결하고 효율적인지 평가. 코딩 작업에서는 시간 복잡성도 고려. 숫자 리스트 정렬 요청에 간결한 알고리즘과 설명 제공. 배경 지식 (Background Knowledge) 사실성 (Factuality) 필요한 경우 정확한 배경 지식을 제공하며, 정보의 신뢰성이나 출처를 명시. "해수면에서 물의 끓는점은?" 질문에 "100°C (212°F)"라고 답변. 상식 이해력 (Commonsense Understanding) 세계 개념을 정확히 해석하며 상식적 추론 또는 공간적 추론을 필요로 하는 지침에 적합한 결과를 제공. "얼음이 열에 노출되면 녹는다"는 상식을 인식. 문제 해결 능력 (Problem Handling) 이해력 (Comprehension) 명시적/암시적 지침의 요구를 충족하며, 복잡한 지침의 여러 요구사항에 적합한 정보를 제공. 특정 정책의 장단점을 평가하라는 요청에 장점과 단점을 모두 논의. 통찰력 (Insightfulness) 창의적이고 독창적인 응답을 제공하며, 기존 정보에 대한 새로운 관점이나 해석을 포함. 패션 트렌드에 대한 질문에 독창적인 스타일 조합 제안. 완전성 (Completeness) 응답이 충분히 설명되었는지 평가. 주제를 폭넓고 깊이 있게 다루며 세부 정보를 포함해야 함. 광합성 과정을 설명할 때 빛, 물, 이산화탄소의 역할을 포함. 메타인지 (Metacognition) 자신의 능력을 인지하며, 애매하거나 불확실한 지침에 대해 불확실성을 인정하고 한계를 명시. "잘 모르는 질문"에 "정확한 답변은 어렵지만 참고 자료를 제안"하는 응답. 사용자 일치 (User Alignment) 가독성 (Readability) 응답이 가독성과 일관성을 유지하며 잘 구조화되었는지 평가. 복잡한 주제를 설명할 때 논리적 설명과 적절한 단락 구분을 포함. 간결성 (Conciseness) 응답이 불필요한 정보를 포함하지 않고 간결하게 전달되었는지 평가. 용어 정의 요청에 명확하고 간단한 정의 제공. 무해성 (Harmlessness) 성별, 인종, 종교 등에 대한 편향 없이 응답하며, 사용자 안전에 대한 잠재적 위험을 피하도록 설계. 논쟁적 주제에 대해 중립적이고 근거 기반의 민감한 응답 제공. 3.2 Evaluation Data Construction
Process of constructing the evaluation data
- collecting input-output pairs from various datasets
- mutli task datasets + single task datasest ( at most 20 instances for diversity)
- modifiying the collected instances
- filtering based on length criteria ( ≤ 2048)
Metadata
- The essential skills to follow the instruction
- LM selects the top-3 essential skills
- Target domains
- Humanaities, Language, Culture, Health, History, Natural Science, Math, Social Science, Technology, Coding
- https://arxiv.org/abs/2210.07370
- Webb’s depth of Knowledge (DOK) https://eric.ed.gov/?id=ED414305
Recall 학생이 사실, 정보, 절차 또는 정의를 기억함. define, identify, name, select, state, order; one step Basic Application of Skill/Concept 학생이 정보, 개념적 지식 및 절차를 활용함. apply, choose, compute, employ, interpret, graph, modify, operate, plot, practice, solve, use; two or more steps Strategic Thinking 학생이 추론을 사용하고 계획이나 단계의 순서를 개발하며, 과정이 어느 정도 복잡함. compare, contrast, correlate, differentiate, discriminate, examine, infer, maximize, minimize, prioritize, subdivide, test Extended Thinking 학생이 조사를 수행하며, 문제나 작업의 여러 조건을 처리하는 데 시간이 필요함. (작업은 일반적으로 며칠 또는 몇 주가 걸림.) arrange, collect, construct, design, develop, formulate, organize, set up, prepare, plan, propose, create experiment and record data - NIH proficiency scale http://hr.nih.gov/working-nih/competencies/competencies-proficiency-scale
- One’s ability to demonstrate a competency on the jobDifficulty level of the instructions
- Metadata Correlation
- high corelation on a subset of 200 instances ( human labeler & EVAL LM )
- 95% skill / 81% domain / 0.774 pearson correlation difficulty
3.3 Evaluation Process
- evaluate based on
- evaluation instruction
- reference answer
- response of the target model
- pre-defined score rubric for each selected skill
- 각 skill에 대해 score(1~5) 부여, 평가시 모델은 CoT를 사용해 근거(rationale)를 생성
- 이후 skill, domain, difficulty별로 점수 집계
3.4 FLASK-HARD
- 89 instances ( annotated as exprt-level knowledge difficulty, 5)
- instance-specific score rubric for each skil
- 각각의 skill에 대해 5개의 subquestion(checklist)를 LM으로 생성후 사람이 제외
4. RELIABILITY OF FLASK
- measuring the correlation between human-based & model-based evaluation
- robustness to stylistic change of model-based evaluation
- models : GPT-3.5, BARD, VICUNA-13B, ALPACA-13B
- Evaluator
- Human labelers : majored in varouse filed ( cs, math, economics, … )
- Model : GPT-4
- 두 평가 방식이 높은 상관관계를 보임
- 공통적으로 ALPACA 가 가장 낮은 성능을 보임
- human은 central tendency bias를, 모델 기반 평가는 verbosity bias를 가짐
Fine-grainess leads to a high correlation between huamn & model
- reference answer, rationale, score rubric 제외 시 상관관계가 크게 감소, reference answer 의 영향이 가장 큼
Fine-grained evaluation mitigates the bias of model-based evaluation
- GPT-3.5로 더 verbose한 답변 생성 후 평가
- 더 정밀한 기준일 수록 robustness 도 향상됨
- instance-specific rubric은 스타일 변화에 가장 영향을 덜 받지만, 추가적인 annotation이 필요하여 cost 가 증가함
5. ANALSYSIS BASED ON AUTOMATIC EVALUATION ON FLASK
- Model 기반 평가를 중심으로 분석 진행
5.1 Open-source model VS Proprietary model
- GPT-3.5, VICUNA_13B, WIZARDLM-13B
- VICUNA와 WIAZARDLM은 GPT-3.5응답으로 학습된 모델
- Problem handling과 User Alignment 능력은 거의 비슷하지만, Logical Thinking과 Background Knowledge에서는 큰 차이 발생
- Math 및 Coding 도메인에서 차이가 큼
- 난이도 별로도 오픈소스 모델이 일관되게 낮은 성능을 보임
5.2 Some skills require larger model sizes.
- 분석 모델: TüLU 7B, 13B, 30B, 65B.
- 크기가 커지면 성능이 향상되지만, 폭은 skill 별로 다름
- Fast Improvement: logical robustness, correctness, efficiency
- Slow Improvement: Readability, Conciseness, Harmlessness
- 특정 skill은 일정 크기에서 성능 향상이 멈춤
- efficiency, conciseness : 30B / Insightfullness 13B / Metacognition 7B
5.3 FLASK-HARD (proprietary model, 독점 모델)
- GPT-3.5, BARD, CLAUDE, INSTRUCTGPT, GPT-4.
- Problem Handling : CLAUDE
- Logical Thinking : GPT 3.5
- FLASK-HARD : 모든 모델의 성능이 떨어짐
- instance-specific rubric 포함시 전체적인 점수가 더 떨어짐 → more strict 세팅
'Machine Learning > MLLM' 카테고리의 다른 글
EVALUATING LARGE LANGUAGE MODELS AT EVALUATING INSTRUCTION FOLLOWING (0) 2024.11.28 Human Feedback is not Gold Standard (0) 2024.11.28 MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark (0) 2024.08.17 Video Recap: Recursive Captioning for Hour-Long Videos (0) 2024.08.17 Video Understanding Paper Summary (Data 중심) (0) 2024.08.17