목록전체 글 (87)
questionet
PyTorch (또는 다른 딥러닝 프레임워크)에서, nn.linear(in_features, out_features) # 입력특성, 출력특성 코드를 사용해 nn.Linear(20, 30)를 실행하면 파이토치는 내부적으로 30×20 shape의 가중치 행렬 A를 초기화합니다. 한편 입력 데이터 X는 일반적으로 (batch_size x 20)의 형태를 가집니다. PyTorch에서 이 두 객체의 행렬곱을 수행할 때 실제 수행되는 연산은 X @ A.T 이고 이 연산의 결과는 (batch_size x 30) 형태의 출력입니다. 왜 x @ A.T 와 같은 꼴로 행렬곱을 할까요? (애초에 왜 가중치 행렬을 전치된 형태로 초기화하고 실제로 연산할 땐 다시 전치시켜 계산하는 걸까요?) 이 방식은 딥러닝에서 배치 처리를 ..
https://github.com/state-spaces/mamba GitHub - state-spaces/mamba Contribute to state-spaces/mamba development by creating an account on GitHub. github.com https://arxiv.org/pdf/2312.00752.pdf
https://arxiv.org/pdf/2305.13048.pdf https://www.rwkv.com/ RWKV Language Model RWKV GUI with one-click install and API for v4 v5 v6 Official RWKV pip package for v4 v5 v6 Fast GPU inference server (nvidia/amd/intel) for v4 v5 v6 Fast CPU/cuBLAS/CLBlast inference, int4/int8/fp16/fp32 for v4 v5 Simple training, for any GPU / CPU Latest www.rwkv.com https://wiki.rwkv.com/ RWKV Language Model RWKV L..
인생이 길다, 살아야할 남은 날들이 많다. 라는 생각이 들면 잠이 오지 않을만큼 불안해지는데 짧게 살려고 마음 먹으면 또 용기가 나고 어떻게든 하루를 반복해내며 살아진다. 실제로 인생은 짧고, 짧게 보면 볼수록 불안을 불러일으킨 원인들의 실체가 명료해진다. 그 실체 중에 희망이란 이름을 붙일 수 있는 건 없다. 그냥 지금해야만 한다고 생각되는 것들 뿐이다. 그런 생각으로 가득찬 삶 자체가 희망이길 바라는 건 내가 아닌 타인의 바람이다. 인생이 길다, 살아야할 남은 날들이 많다. 라는 생각이 들때 희망으로 마음이 부풀어오르는 삶도 있을 것이다. 인생이 그리 길지 않다는 생각이 아직 들지 않았을 때, 앞으로 살아갈 날들을 짧게 쪼갤수록 할수 있고 해야만 하는 것들도 점점 줄어들 때. 어린이는 꿈을 먹으며 자..
https://gist.github.com/philosucker/dab41f97f303e2dd31965d3aeae231d7
푹 쉬고 놀면서 마음의 바닥에 촥 엎드려보게 되니 비로소 내가 무엇을 하고 싶은지 온몸으로 느낄 수 있게 되는 것 같다. 맨 처음 나는 "딥러닝이 어떻게 학습되느냐" 라는 궁금함에 공부를 시작했었다. 그런데 그동안 "딥러닝으로 무엇을 할 수 있느냐" 라는 질문에 너무 많이 노출되어 왔지 않았나 싶다. "딥러닝을 어떻게 학습시킬 것이냐" 이것이 내가 걷고 싶은 길인 것 같다. Single Device에서도 돌아가게 할 수 있게 하는 기술들을 익힐 것인지 Multiple GPUs 환경에서 돌아가게 하는 기술들을 익힐 것인지 어느 쪽으로 진로를 잡아야 할지 고민되었었는데 이런 류의 고민들이 대개 그렇듯 그만 생각하고 이젠 둘 다 손에 잡히는대로 일단 해보면 되지 않을까 하는 생각이 든다. 다른 한편, 인간의 ..
두 가지 방향을 놓고 고민하고 있었습니다. Single Machine(Single Device) 에서 LLM을 학습시키고 추론해낼 수 있는 PEFT(Parameter Efficient Fine-Tuning) 기법 내지 경량화 기법들을 파고들까 e.g. LoRA, QLoRA, Accelerate Multi Machine(Multiple GPUs)에서 데이터와 모델을 분산(Distributed), 병렬(Parallel) 학습시키는 기법들을 파고들까 e.g. DDP, FairScale, DeepSpeed 이런 류의 고민은 대개 그렇듯 둘다 해야지로 귀결되는 것 같습니다. 이름이 예쁜 LoRA 부터 시작해보겠습니다. 일단 Medium 에서 LoRA 관련 글들을 싹다 긁어 모아 읽어보는 걸로 출발해볼까 합니다. ..