Machine Learning
-
EVALUATING LARGE LANGUAGE MODELS AT EVALUATING INSTRUCTION FOLLOWINGMachine Learning/MLLM 2024. 11. 28. 19:58
0. AbstractInstruction Following Assessment (지침 준수 평가)A metric that gauges how closely generated text adheres to the given instructionLLMBar419 pairs of outputsone adhereing to instructionsthe other diverging, yet may poseses deceptive qualities that mislead an LLM evaluator (e.g. a more engaging tone)Experimentevaluators ( LLM + Prompt Combinations )exhibit different performance + highest scori..
-
Human Feedback is not Gold StandardMachine Learning/MLLM 2024. 11. 28. 19:52
https://openreview.net/forum?id=7W3GLNImfS1. IntroductionOpen-ended generation tasks에서 인간 평가는 사실상 표준이 됨인간 평가는 절대 점수일수도(1~5), 두 응답간의 비교가 될 수도 있음인간 평가자는 주어진 과제를 더 쉽게 하기 위해 shortcut을 찾는 경향이 있음fluency, linguistic complexity와 같은 피상적인 요소에 기반하여 평가함factuality와 같은 더 많은 노력이 필요한 요소는 간과됨인간 평가를 종합 점수 / 특정 오류 기준에 대해 분석 2. Are preference score reliable?Error Types유해성, 유창성, 범위, 반복, 거부, 형식, 관련성, 사실성, 불일치, 모순Erro..
-
FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETSMachine Learning/MLLM 2024. 11. 28. 19:47
https://arxiv.org/abs/2307.10928 1. IntroductionEvaluation the alignment of LLMs to human values is challengingopen-ended user instruction1. composition of multiple abilities → single metric으로 평가하기엔 충분하지 않음2. task-agnostic → task 별로 요구되는 능력이 다름.Current State : Automatic metrics (Coarse-grained)accuracy, ROUGE / overall scoring ( preference 기반 )서로 다른 skill, domain, difficulty를 대상으로 하고 있음GSM (Grad..
-
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language BenchmarkMachine Learning/MLLM 2024. 8. 17. 22:50
Can Multimodal Large Language Models (MLLMs) effectively serve as judges in multimodal domains, and how closely do their evaluations align with human preferences?-> MLLM의 평가 능력을 평가 (Meta-evaluation)1. IntroductionInspiration: LLM-as-a-Judgehttps://arxiv.org/abs/2306.05685 / https://arxiv.org/html/2403.02839v1OverviewMLLM이 다양한 modality에서 판단하는 능력을 평가다음과 같은 3가지 형태의 판단에 대한 MLLM의 능력을 평가Scroing Eval..
-
Video Recap: Recursive Captioning for Hour-Long VideosMachine Learning/MLLM 2024. 8. 17. 22:29
https://sites.google.com/view/vidrecap Video ReCapHierarchical Video Captioning Tasksites.google.comhttps://arxiv.org/abs/2402.13250Video ReCap: Recursive Captioning of Hour-Long VideosMd Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan,Lorenzo Torresani, Gedas BertasiusUNC Chapel Hill and Meta AIAccepted by CVPR 2024[Paper] [Code] [Dataset] [Demo] [HF] Abstract: Video ReCap기존 v..
-
Video Understanding Paper Summary (Data 중심)Machine Learning/MLLM 2024. 8. 17. 22:19
0. 전체 요약" style="width: 17.6744%;"> Data SourceData GenerationPost-Processing# Data(for tuning)" style="width: 17.6744%;">1. LLaVAPublic Dataset(COCO Images)ChatGPT-4 158K" style="width: 17.6744%;">2. MiniGPT-4Public Dataset(Conceptual Captions)Inital Pretrained ModelChatGPT-4+manual 3.5K" style="width: 17.6744%;">3. ValleyJukinmedia(73k)+ llava(150k)+ videochat(11k)ChatGPT-4 234k" style="width:..
-
EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined CriteriaMachine Learning/MLLM 2024. 8. 17. 22:00
Abstract프롬프트를 통해 LLM을 활용한 생성 애플리케이션을 프로토타입 할 수 있음프로토타입을 실제 product로 발전시키기 위해서는 output을 평가하고 약점을 진단하여 프롬프트를 반복적으로 수정해야함EvalLM: interactive system사용자가 정의한 기준에 따라 여러 출력을 평가하여 프롬프트를 개선함Introduction프롬프트 반복 수정의 필요성프롬프트를 통해 AI 기반 어플리케이션을 쉽게 시작할 수 있음고품질 출력을 위해 반복적인 프롬프트 수정 필요.비결정적인 LLM 특성으로 작은 변경도 큰 영향.개방형 생성 작업의 출력 평가 어려움.자동 메트릭으로 주관적 품질 측정 불가.초기 단계에서 빠른 반복 필요하지만 인간 평가자 필요.Formative interviews각 어플리케이션에..
-
LoRA: Low-Rank Adaptation of Large Language ModelsMachine Learning/Model 2024. 1. 20. 20:09
"LoRA: Low-Rank Adaptation of Large Language Models" 논문을 한국어로 정리한 포스트입니다. LoRA: Low-Rank Adaptation of Large Language Models Edward Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen Introduction Terminologies $d_{model}$: Transformer 레이어의 입력 및 출력 차원 크기 $W_q$, $W_k$, $W_v$, $W_o$: self-attention 모듈에서 query, key, value, output projection 행렬 $W$ 또는 $W_0..