목록Deep learning (30)
questionet
https://arxiv.org/pdf/2305.13048.pdf https://www.rwkv.com/ RWKV Language Model RWKV GUI with one-click install and API for v4 v5 v6 Official RWKV pip package for v4 v5 v6 Fast GPU inference server (nvidia/amd/intel) for v4 v5 v6 Fast CPU/cuBLAS/CLBlast inference, int4/int8/fp16/fp32 for v4 v5 Simple training, for any GPU / CPU Latest www.rwkv.com https://wiki.rwkv.com/ RWKV Language Model RWKV L..
두 가지 방향을 놓고 고민하고 있었습니다. Single Machine(Single Device) 에서 LLM을 학습시키고 추론해낼 수 있는 PEFT(Parameter Efficient Fine-Tuning) 기법 내지 경량화 기법들을 파고들까 e.g. LoRA, QLoRA, Accelerate Multi Machine(Multiple GPUs)에서 데이터와 모델을 분산(Distributed), 병렬(Parallel) 학습시키는 기법들을 파고들까 e.g. DDP, FairScale, DeepSpeed 이런 류의 고민은 대개 그렇듯 둘다 해야지로 귀결되는 것 같습니다. 이름이 예쁜 LoRA 부터 시작해보겠습니다. 일단 Medium 에서 LoRA 관련 글들을 싹다 긁어 모아 읽어보는 걸로 출발해볼까 합니다. ..

PPO 드디어 RLHF의 마지막 세번째 단계인 PPO를 실습해볼 차례입니다. 사용할 라이브러리들을 불러오도록 하겠습니다. from copy import deepcopy import torch from torch.optim import Adam from chatgpt.models.base import RewardModel from chatgpt.models.gpt import GPTActor, GPTCritic from chatgpt.trainer import PPOTrainer from chatgpt.trainer.strategies import NaiveStrategy from transformers import AutoTokenizer여기에서 소개하는 KoChatGPT의 경우 PPO에 사용할 acto..
이번 노트에서는 RLHF의 두번째 단계인 Reward model을 설계하고 학습해보겠습니다. 필요한 라이브러리들을 불러와 볼까요? RM import os import json from typing import Optional import torch import torch.nn as nn from torch.optim import Adam from chatgpt.dataset import RewardDataset from chatgpt.models.base import RewardModel from chatgpt.trainer import RewardModelTrainer from chatgpt.trainer.strategies import NaiveStrategy from datasets import l..
SFT 이번 노트에서는 kogpt-2를 instruction dataset으로 SFT를 진행해 보겠습니다. 먼저 필요한 라이브러리들을 불러오겠습니다. import os os.environ["CUDA_VISIBLE_DEVICES"] = "0" import torch import torch.nn as nn from torch.utils.data import Dataset from torch.optim import Adam from datasets import load_dataset import transformers from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline from transformers import Trainer, Tra..
안녕하세요 여러분:) LLM Trend Note2에 오신 걸 환영합니다! LLM Trend Note에서 우리는 최신 LLM의 흐름을 살펴보면서 Foundation model의 조건과 Emergent Abilities의 특징에 대해 알아보았습니다. 그기저엔 대규모 분산 컴퓨팅 기술과 보다 혁신적인 모델 아키텍쳐 및 학습기법에 대한 고민이 단단한 기초를 이루고 있다는 사실도 함께 말이죠. 이번 노트에서는 RLHF를 간접적으로 구현한 언어모델에 한국어 말뭉치를 학습시켜보도록 하겠습니다. 이른바 KoChatGPT라고 할 수 있겠죠? KoChatGPT를 구현한 레퍼런스 코드는 고우영님의 깃헙에서 참고했습니다. KoChatGPT 학습을 위해 필요한 환경과 라이브러리는 아래와 같습니다. wget https://dev..

지난 노트에서 보았던 그림을 다시 한번 보도록하겠습니다. 어떠신가요? 전체 흐름이 처음보다 더 눈에 들어오시나요? OpenAI, Google, Deepmind, Meta, HuggingFace, EleutherAI, SalesForces, BigScience 그리고 그림엔 빠져 있는 Anthropic까지 Foundation Model 이라고 명명되는 LLM을 향한 유수 테크기업들의 결과물들을 빠르게 살펴보면서 여러분들은 어떤 생각이 드셨는지 궁금합니다. Emergent Abilities라는 다소 거창해 보이는 개념을 짚어보면서 single GPU로 학습하는 상황이 대부분일 사람들에게 LLM 연구라는 것이 어쩌면 다소 멀게만 느껴질 수 있을거라고도 말씀드린 바 있었습니다. 이번 노트를 작성하면서 발견한 트..

지난 노트에서 우리는 OpenAI에서 발표한 InstructGPT 논문을 중심으로 LLM에 RLHF가 도입되기까지의 흐름과 RLHF 학습 메커니즘에 관한 내용을 간단히 살펴보았습니다. 이 글을 쓰고 있는 2023년 4월을 기준으로 가장 강력한 Emergence를 보여주는 모델은 GPT-4입니다. 현재 OpenAI의 유료 chatGPT 서비스는 GPT-4를 사용하고 있기 때문입니다. 문제는 GPT-4의 소스코드가 공개되어 있지 않다는 사실입니다. 우리는 GPT-4가 구체적으로 어떤 모델학습 인프라 위에서 어떤 아키텍쳐를 기반으로 얼마나 많은 파라미터를 가지고, 얼마나 많은 수의 토큰을 봤는지, 어떻게 데이터셋을 구성하여 어떤 RLHF 방식으로 학습시켰는지 알 수 없습니다. (GPT-4 Technical R..