목록Deep learning/딥러닝 학습기법 (6)
questionet
두 가지 방향을 놓고 고민하고 있었습니다. Single Machine(Single Device) 에서 LLM을 학습시키고 추론해낼 수 있는 PEFT(Parameter Efficient Fine-Tuning) 기법 내지 경량화 기법들을 파고들까 e.g. LoRA, QLoRA, Accelerate Multi Machine(Multiple GPUs)에서 데이터와 모델을 분산(Distributed), 병렬(Parallel) 학습시키는 기법들을 파고들까 e.g. DDP, FairScale, DeepSpeed 이런 류의 고민은 대개 그렇듯 둘다 해야지로 귀결되는 것 같습니다. 이름이 예쁜 LoRA 부터 시작해보겠습니다. 일단 Medium 에서 LoRA 관련 글들을 싹다 긁어 모아 읽어보는 걸로 출발해볼까 합니다. ..

이 페이지는 밑바닥부터 시작하는 딥러닝2권의 내용을 정리한 것이다 살펴볼 주제 1 추론기반 기법(word2vec)을 쓰는 이유 2 추론기반 기법(word2vec)의 원리 3 CBOW 모델 구현해보기 인간이 말하고 쓰는 언어를 컴퓨터에게 이해시키는 방법 1. 유의어사전(thesaurus)을 이용하는 방법 2. 통계 기반 기법 3. 추론 기반 기법 아이디어 분포가설(distributional hypothesis) 단어 자체에는 의미가 없다. 단어의 의미는 주변 단어에 의해, 그 단어가 사용된 맥락에 의해 형성된다. 우리가 원하는 것 = '단어의 의미'를 정확하게 파악할 수 있는 벡터 표현 = 좋은 분산표현 distributional representation 을 얻어내는 것 Q1 : '단어의 의미'를 정확하..

사용된 그래프 그림과 수식 이미지 출처는 다음과 같습니다 github.com/WegraLee/deep-learning-from-scratch-2 www.youtube.com/watch?v=dB-u77Y5a6A&list=PL5-TkQAfAZFbzxjBHtzdVCWE0Zbhomg7r&index=6 1. backpropagation Deep Neural Network에서 경사하강법( W ← w - a*dL/dw )을 써서 optimization을 한다는 것은 모든 레이어의 각 노드에 있는 가중치들이 최종 Loss 값에 미치는 영향력을 알아냄으로써 손실함수의 결과값을 가장 작게 만드는 가중치 행렬을 구한다는 것이다. 이를 위해서는 각 가중치 w에 대해 최종 Loss값을 미분한 값을 구해야 한다. backprop..

이 페이지는 다음 강의 영상을 정리한 것이다. www.youtube.com/watch?v=dB-u77Y5a6A&list=PL5-TkQAfAZFbzxjBHtzdVCWE0Zbhomg7r&index=6 살펴볼 주제 1. computational graph로 backpropagation을 계산했을 때 발견되는 pattern의 의미와 그 쓰임 2. input과 output이 scalar가 아닌 vector 또는 tensor일 때 backpropagation이 진행되는 구체적인 과정 computational graph를 통해 backpropagation 을 계산할 때 미분 값이 역전파 되어가는 데 있어 몇 가지 pattern 을 발견할 수 있다 1. add gate : gradient distributor node..

이 페이지는 밑바닥부터 시작하는 딥러닝1권의 내용을 정리한 것이다 살펴볼 대주제 : 손실함수와 수치미분 그리고 편미분 곁들일 소주제 : 몇 가지 질문과 미니 배치 1. 손실함수 들어가며 1. 눈으로 보는 이미지, 귀로 듣는 소리, 언어로 표현되는 문장, 각종 수치들(날씨 정보, 주가 등등) 2. 다양한 형태의 데이터들을 ----> 숫자로 변환 (입력값) 3. 신경망에 데이터(입력값)들을 넣어서 분류 또는 예측 >>>> 딥러닝을 사용해 하는 일들 4. 어떻게 분류, 예측을 할까? 데이터 주도 학습 ( data-driven approach ) 1. 데이터에서 가장 본질적인 특징(feature)을 추출한 다음 ----> 패턴을 학습시키자! 2. 특징을 사람이 선별해서 알려주는 게 아니라 ----> 신경망이 스..

이 페이지는 다음 강의를 정리한 것이다 www.youtube.com/watch?v=YnQJTfbwBM8&list=PL5-TkQAfAZFbzxjBHtzdVCWE0Zbhomg7r&index=4 Adagrad (adaptive learning rates) SGD의 문제점들을 극복하기 위한 알고리즘 SGD의 문제점 1 zigzag pattern 2 local minimum, saddle point 3 noisy SGD는 파라미터를 갱신하는 방법이 이전 파라미터에서 W에 대해 손실함수를 미분한 값을 뺀 값을 새 파라미터로 쓰는 작업을 반복하는 것이므로 기울어진 방향으로 일정거리만(learning rate만큼) 가겠다는 단순한 방법이다. 이런 SGD를 로스값들로 형성된 공간이 기울기의 정도가 서로 다른 면으로 되어..