목록Deep learning (30)
questionet

RLHF의 탄생배경 모든 일이 그렇듯, 어느날 갑자기 없던 게 생겨나진 않습니다. 우리가 보는 건 땅 위에 싹이 불쑥 튀어 나와 하루가 다르게 쑥쑥 자라나는 모습이지만, 싹이 트기 바로 직전까지 땅속에는 무수한 씨앗들이 꿈틀대고 있었을 테니까요. RLHF (Reinforcement Learning Human Feedback) 에도 물론 히스토리가 있습니다. 그 전에, 눈에 보이지 않는 땅속에서 꿈틀거릴 수 있었던 저 씨앗들을 누가 뿌렸고, 그보다 앞서 저 씨앗들이 어디서부터 왔는지를 잠시 살펴보겠습니다. ChatGPT라는 혁신적인 AI 모델이 지난 2022년 겨울 우리에게 찾아오기 훨씬 전부터 LLM이 풀지 못했던 커다란 숙제가 하나 있었습니다. 바로 알고리즘의 편향 또는 편향된 알고리즘 문제가 바로 그..

1. Emergent Abilities의 정의 Emergence(창발)이란 철학과 과학에서 오랜 역사를 지닌 복잡한 개념입니다. (참고) 위키에서 볼 수 있듯이 창발에 대한 수많은 정의와 해석이 있지만 우리는 노벨물리학상 수상자인 Philip Anderson가 1972년에 발표한 에세이 "More Is Different" 에서 정의한 창발의 개념을 가지고 접근해보겠습니다. "Emergence is when quantitative changes in a system result in qualitative changes in behavior." 번역하자면 "Emergence(창발)은 시스템에서의 양적변화가 질적변화를 가져올 때를 의미한다" 정도가 되겠네요. 우리는 앞선 노트에서 파라미터 스케일의 급진적인 변..

1. Statistic LM, Neural LM, Pre-trained LM 그리고 LLM Foundation Model foundation model 이라는 개념에 대해 들어보셨나요? 통계적 언어모델, 신경망 언어모델을 거쳐 Transfomer 아키텍쳐 등장 이후, 우리는 사전 훈련된 모델을 사용해 downstream task를 수행하는 패러다임을 지나가고 있습니다. 2022년에 발표된 논문 On the Opportunities and Risks of Foundation Models 에서는 지금까지 나온 모든 Pre-trained LM(이하 PLM)들을 foundation model 이라는 개념으로 지칭하며 새로운 패러다임을 제시합니다. 논문의 저자들은 foundation model을 두 가지 특징으로..

안녕하세요 여러분:) LLM Trend Note1 에 오신걸 환영합니다! 최신 트렌드라는 게 따라가자니 어디서부터 시작해야할지 막막하고, 보고 있자니 이 기술이 앞으로도 유효할지 모르겠고, 아마 이 노트에서도 시간을 들여 숙고해볼 만한 가치가 없는 내용이 여러분들께서 노트를 보시게 될 시점엔 많아지게 되는 건 아닐까 저 역시 한편으론 걱정이 되기도 합니다. 이 노트를 작성하기 위해 자료를 수집하는 동안에도 closed source가 open되기도 했고 이런 자료가 있었으면 좋겠다 싶은 것들이 다음 날에 짠 하고 공개되곤 했으니까요. 하지만 다른 한편으로 트렌드란 오랜 시간의 압력으로 굳어져 크게 변할 수 없어 보이는 현상이나 현재까지 이룩한 문명의 힘으로 규정지어진 기술적, 사회적 사실들로부터 생겨나고 ..
바닥부터 배우는 강화 학습 Chapter 5 이번 챕터에서는 모델 프리상황에서의 prediction을 하는 2가지 방법에 대해 배운다. = MDP를 모르는 상황에서 임의의 정책이 주어졌을 때 각 상태의 가치를 평가하는 2가지 방법에 대해 배운다. 1. 몬테카를로 학습 2. TD (Temporal Difference) 학습 용어 정리 MDP (Markov Decision Process) 를 모른다는 것의 의미 1. 보상함수(R)를 모른다 = 어떤 상태 s에 도착하게 됐을 때 받게 되는 보상이 뭔지 모른다 2. 전이확률행렬(P)을 모른다 = 현재 상태 s에서 어떤 액션a를 했을 때 가게 될 다음 상태들의 확률분포를 모른다 >>> 둘 다 액션을 해봐야 안다 = MDP를 모르는 상태 = 모델 프리 (모델을 모르..
자연어는 텍스트 함축textual entailment, 질의응답question answering, 의미 유사도 평가semantic similarity assessment 문서 분류 등 광범위한 태스크 래인지를 가진다. 레이블되지 않은 텍스트는 엄청 많은 반면 특정 태스크를 위해 레이블된 자료들은 드물다 We demonstrate that large gains on these tasks can be realized by generative pre-raining of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task. 우리는 레이블되지 않은 다양한 종..
Quantitative investment 양적 투자 일정 기간 동안 돈 안 잃고 최대한 많이 버는 게 목적이다. 양적 투자 분야에서 인공지능 기술을 도입하고 있는데 우리는 Qlib이란 기술을 설계해봤다. 양적 투자에 인공지능 기술이 성공적으로 안착되려면 infrastructure upgrade가 요구된다 어떤 업그레이드냐면 to accommodate the renovated workflow 여기서 Infrastructure 가 뭘 가리키는 건지? Workflow는 뭐지? trading signals을 포착하는 능력, 어떤 factor들로부터 그걸 통해 거래 전략을 수립하는 것 factor가 매우 많은데 여기서 factor는 머신러닝에서의 feature에 상응 된다 data-driven의 의미 AI는 주..
COCO-GAN: Generation by Parts via Conditional Coordinating 인간은 자신을 둘러싼 환경의 일부분과만 상호작용할 수 있다. 생물학적 한계로인해. 그래서 그 환경의 부분들을 연속적으로 관찰해서 공간정보를 추론한다. 이러한 인간 인지 특성에서 영감을 받아 머신러닝 시 연산비용 문제를 고려해 conditional coordinate GAN을 제안해보려 한다. 생성자는 조건으로 주어지는 공간좌표에 기반해 부분 이미지를 생성해내고 판별자는 global coherence, local appearance, and edge-crossing continuity 를 바탕으로 부분들의 조합으로 만들어진 이미지의 사실성을 판별한다? global coherence, local-appe..