전체 글
-
LoRA: Low-Rank Adaptation of Large Language ModelsMachine Learning/Model 2024. 1. 20. 20:09
"LoRA: Low-Rank Adaptation of Large Language Models" 논문을 한국어로 정리한 포스트입니다. LoRA: Low-Rank Adaptation of Large Language Models Edward Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen Introduction Terminologies $d_{model}$: Transformer 레이어의 입력 및 출력 차원 크기 $W_q$, $W_k$, $W_v$, $W_o$: self-attention 모듈에서 query, key, value, output projection 행렬 $W$ 또는 $W_0..
-
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-TuningMachine Learning/Model 2024. 1. 20. 19:42
* [ACL 2021] "INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING" 논문을 한국어로 번역&정리한 포스트입니다. Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (2021) Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta [ 논문 ] Intro LoRA : Low-Rank Adaptation of LargeLanguageModels Pre-trained laguage models & Fine tuning PLM provide the defacto initializati..
-
CrossEntropyLoss vs BCELossMachine Learning/Etc 2022. 11. 1. 23:00
Referecne https://medium.com/dejunhuang/learning-day-57-practical-5-loss-function-crossentropyloss-vs-bceloss-in-pytorch-softmax-vs-bd866c8a0d23 Learning Day 57/Practical 5: Loss function — CrossEntropyLoss vs BCELoss in Pytorch; Softmax vs… CrossEntropyLoss vs BCELoss medium.com https://pytorch.org/docs/stable/generated/torch.nn.BCEWithLogitsLoss.html CrossEntropyLoss vs BCELoss 1. Difference i..
-
[KataGo 논문 Review] Accelerating Self-Play in GoMachine Learning/Reinforcement Learning 2022. 4. 28. 00:46
"Accelerating Self-Play in Go" 논문을 한국어로 정리한 포스트입니다. Accelerating Self-Play Learning in Go (2020) a.k.a. KataGo David J. Wu, Jane Street Group. [ 논문 ] [ code ] Abstract AlphaZero의 학습과정과 구조에 몇 가지 향상된 기법을 적용함으로써, Self-play learning을 통한 바둑 AI의 학습 속도를 향상 시켰다. 비교할만한 다른 방법들에 비해 50x 절감된 계산량을 달성하였다. AlphaZero와 그 복제 알고리즘인 ELF OpenGo와 Leela Zero처럼, KataGo는 오직 뉴럴 네트워크에 기반한 몬테 카를로 트리 탐색을 통한 자체 대결(neural-net-..
-
Who am ILife 2022. 2. 20. 19:28
김승현 ( Kim Seunghyun ) E-mail : kim95175@gmail.com Github : github.com/kim95175 kim95175 - Overview kim95175 has 26 repositories available. Follow their code on GitHub. github.com Linkedin : https://www.linkedin.com/in/kim95175/ 성균관대학교 소프트웨어학과 공학사 (2014. 03. 01 ~ 2020. 08. 27 ) 성균관대학교 인공지능학과 석사과정 ( 2020. 08. 31 ~ , 8월 졸업 예정 ) 강화학습 실습 조교 2020. 8. SK Innovation Adv.CDS 과정 강화학습 실습 조교 2021. 8. Samsun..
-
[Review] A ConvNet for the 2020sMachine Learning/Computer Vision 2022. 1. 31. 18:30
* [ArXiv 2022] "A Convnet for the 2020s" 논문을 한국어로 번역&정리한 포스트입니다. A ConvNet for the 2020s (2022) Zhuang Liu, Hanzi Mao Chao-Yuan Wu, Chrsistoph Feichtenhofer, Trevor Darrell, Saining Xie [ 논문 ] [ Code ] Abstract visual recognition의 2020년은 ViT와 함께 시작되어 빠르게 기존의 state-of-the-art였던 ConvNet 기반 모델들을 뛰어넘었습니다. 하지만 ViT는 일반적인 컴퓨터 비전 태스크에 적용하기 힘들다는 어려움에 직면하였는데, 계층 트랜스포머 ( Swin Transformers) 는 ConvNet의 prior..