전체 글
-
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language BenchmarkMachine Learning/MLLM 2024. 8. 17. 22:50
Can Multimodal Large Language Models (MLLMs) effectively serve as judges in multimodal domains, and how closely do their evaluations align with human preferences?-> MLLM의 평가 능력을 평가 (Meta-evaluation)1. IntroductionInspiration: LLM-as-a-Judgehttps://arxiv.org/abs/2306.05685 / https://arxiv.org/html/2403.02839v1OverviewMLLM이 다양한 modality에서 판단하는 능력을 평가다음과 같은 3가지 형태의 판단에 대한 MLLM의 능력을 평가Scroing Eval..
-
Video Recap: Recursive Captioning for Hour-Long VideosMachine Learning/MLLM 2024. 8. 17. 22:29
https://sites.google.com/view/vidrecap Video ReCapHierarchical Video Captioning Tasksites.google.comhttps://arxiv.org/abs/2402.13250Video ReCap: Recursive Captioning of Hour-Long VideosMd Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan,Lorenzo Torresani, Gedas BertasiusUNC Chapel Hill and Meta AIAccepted by CVPR 2024[Paper] [Code] [Dataset] [Demo] [HF] Abstract: Video ReCap기존 v..
-
Video Understanding Paper Summary (Data 중심)Machine Learning/MLLM 2024. 8. 17. 22:19
0. 전체 요약" style="width: 17.6744%;"> Data SourceData GenerationPost-Processing# Data(for tuning)" style="width: 17.6744%;">1. LLaVAPublic Dataset(COCO Images)ChatGPT-4 158K" style="width: 17.6744%;">2. MiniGPT-4Public Dataset(Conceptual Captions)Inital Pretrained ModelChatGPT-4+manual 3.5K" style="width: 17.6744%;">3. ValleyJukinmedia(73k)+ llava(150k)+ videochat(11k)ChatGPT-4 234k" style="width:..
-
EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined CriteriaMachine Learning/MLLM 2024. 8. 17. 22:00
Abstract프롬프트를 통해 LLM을 활용한 생성 애플리케이션을 프로토타입 할 수 있음프로토타입을 실제 product로 발전시키기 위해서는 output을 평가하고 약점을 진단하여 프롬프트를 반복적으로 수정해야함EvalLM: interactive system사용자가 정의한 기준에 따라 여러 출력을 평가하여 프롬프트를 개선함Introduction프롬프트 반복 수정의 필요성프롬프트를 통해 AI 기반 어플리케이션을 쉽게 시작할 수 있음고품질 출력을 위해 반복적인 프롬프트 수정 필요.비결정적인 LLM 특성으로 작은 변경도 큰 영향.개방형 생성 작업의 출력 평가 어려움.자동 메트릭으로 주관적 품질 측정 불가.초기 단계에서 빠른 반복 필요하지만 인간 평가자 필요.Formative interviews각 어플리케이션에..
-
Do You See What I See? A Qalitative Study Eliciting High-Level Visualization ComprehensionHCI 2024. 8. 17. 21:54
결론 A Qalitative Study Eliciting High-Level Visualization Comprehension시각화의 목표 = 고차원적 분석, 커뮤니케이션 목표 달성이러한 목표는 사람들이 데이터에서 복잡하고, 상호 연결된 패턴을 자연스럽게 추출하도록 요구하지만 기존 연구는 단순 통계량 추정과 같은 저차원적 작업에 초점이 맞춰져 있음사람들이 자연스럽게 보게되는 고차원적 패턴은 디자인 의도와 맞지 않을 수 있음고차원적 이해를 고려한 시각화는 단순히 데이터를 보여주는 것(저차원) 에서 더 나아가, 사용자가 데이터를 통해 의미 있는 통찰(고차원)을 얻을 수 있도록 돕는 것을 목표로 해야함.사용자의 관점에서 시각화를 설계데이터를 맥락화복잡한 패턴을 명확하게 전달하는 방법을 고려해야함 Related..
-
"Help Me Help the AI": Understanding How Explainability Can Support Human-AI InteractionHCI 2024. 8. 17. 21:33
IntroductionAI system은 여러 곳에서 사용되고 있음Face ID, 자율주행 차, 의학 이미지 분석AI system을 더 잘 이해하는 것이 점점 더 중요해지고 있음.스마트폰 유저는 빠른 잠금 해제를 위해 얼굴을 어느 위치에 위치시켜야 하는지 이해하고 싶어함researcher는 어떠한 특수한 결정이 차 사고를 일으키는지 알고 싶어함radiologist는 특정한 진단을 내릴때 이미지의 어떤 부분을 보는지 알고 싶어함기존의 explainable AI(XAI) 연구는 사람들의 이해를 돕기 위해 AI system에 대한 투명성을 제공하고자 했지만, end-user의 관점에서 이루어지지는 않았음Vision 분야를 보면 XAI 방법론들은 실제 사용자의 필요성 보다는, researcher가 할 수 있는 ..
-
LoRA: Low-Rank Adaptation of Large Language ModelsMachine Learning/Model 2024. 1. 20. 20:09
"LoRA: Low-Rank Adaptation of Large Language Models" 논문을 한국어로 정리한 포스트입니다. LoRA: Low-Rank Adaptation of Large Language Models Edward Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen Introduction Terminologies $d_{model}$: Transformer 레이어의 입력 및 출력 차원 크기 $W_q$, $W_k$, $W_v$, $W_o$: self-attention 모듈에서 query, key, value, output projection 행렬 $W$ 또는 $W_0..
-
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-TuningMachine Learning/Model 2024. 1. 20. 19:42
* [ACL 2021] "INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING" 논문을 한국어로 번역&정리한 포스트입니다. Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (2021) Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta [ 논문 ] Intro LoRA : Low-Rank Adaptation of LargeLanguageModels Pre-trained laguage models & Fine tuning PLM provide the defacto initializati..