목록분류 전체보기 (89)
questionet

이 페이지는 밑바닥부터 시작하는 딥러닝2권의 내용을 정리한 것이다 살펴볼 주제 1 추론기반 기법(word2vec)을 쓰는 이유 2 추론기반 기법(word2vec)의 원리 3 CBOW 모델 구현해보기 인간이 말하고 쓰는 언어를 컴퓨터에게 이해시키는 방법 1. 유의어사전(thesaurus)을 이용하는 방법 2. 통계 기반 기법 3. 추론 기반 기법 아이디어 분포가설(distributional hypothesis) 단어 자체에는 의미가 없다. 단어의 의미는 주변 단어에 의해, 그 단어가 사용된 맥락에 의해 형성된다. 우리가 원하는 것 = '단어의 의미'를 정확하게 파악할 수 있는 벡터 표현 = 좋은 분산표현 distributional representation 을 얻어내는 것 Q1 : '단어의 의미'를 정확하..

이미지 출처 jalammar.github.io/visual-numpy/ numpy에서 dim, axis, rank, shape, size 의 의미 1. size 는 총 element의 개수를 뜻한다. 2. dim 은 텐서가 존재하는 축의 개수를 뜻한다. 여기서 축이란, 1차원 벡터, 2차원 행렬, 3차원,...,n차원 텐서에서의 각 1, 2, n을 말한다. 위의 넘파이 배열 b와 그것을 시각화한 그림을 보면 1차원 벡터가 총 8개 있고 [1,2] [3,4] [5,6] [7,8] >>> dim1 [1,2] [3,4] 와 [5,6] [7,8] 을 묶어 2차원 행렬 2개를 만든 후 [[1,2] , [3,4]] [[5,6] , [7,8]] >>> dim2 각 행렬이 3차원 상에 배열된다. [ [[1,2] , [..

사용된 그래프 그림과 수식 이미지 출처는 다음과 같습니다 github.com/WegraLee/deep-learning-from-scratch-2 www.youtube.com/watch?v=dB-u77Y5a6A&list=PL5-TkQAfAZFbzxjBHtzdVCWE0Zbhomg7r&index=6 1. backpropagation Deep Neural Network에서 경사하강법( W ← w - a*dL/dw )을 써서 optimization을 한다는 것은 모든 레이어의 각 노드에 있는 가중치들이 최종 Loss 값에 미치는 영향력을 알아냄으로써 손실함수의 결과값을 가장 작게 만드는 가중치 행렬을 구한다는 것이다. 이를 위해서는 각 가중치 w에 대해 최종 Loss값을 미분한 값을 구해야 한다. backprop..
제곱손실함수와 절대값 손실함수의 차이 제곱손실함수를 사용할 때 scale이 너무 크면 값이 비정상적으로 커져서 노이즈 데이터가 생성될 수 있다. 노이즈 데이터가 너무 많이 생성될 거 같으면 절대값 손실 함수를 사용한다.
normalization 값의 범위(scale)을 0~1 사이 값으로 바꾸는 것 = scaling scaling이란 표현도 여기저기서 조금씩 다른 뜻으로 많이 쓰여 헷갈린다 standardization 값의 범위(scale)을 평균이 0, 분산이 1이 되도록 바꾸는 것 정규분포를 표준정규분포로 변환하는 것과 같음 이렇게 하면 무슨 효과를 보는 거지? regularization weight를 조정하는데 규제(제약)를 거는 기법 정확히 이해하지 못했다 over fitting 을 막기 위해 사용 normalization, standardization의 공통점 1 학습전에 scaling 2 오버피팅을 방지 어떻게? 3 머신러닝에서 scale이 큰 feature의 영향이 비대해지는 걸 방지 4 딥러닝에서 loca..
딥러닝에서의 배치 모델의 가중치를 한번 업데이트 시킬 때 사용되는 샘플들의 묶음 딥러닝에서의 에포크 학습의 횟수 예를 들어, 1 총 1000개의 훈련샘플이 있고 배치 사이즈가 20이면 20개 샘플 단위마다 모델의 가중치를 한번씩 업데이트 따라서 총 50번 가중치가 업데이트 된다 2 이제 배치 사이즈는 그대로 두고 에포크를 10으로 하면 가중치 50번 업데이트를 10번 반복 바꿔 말하면, 각 데이터 샘플이 총 10번씩 사용 결과적으로 가중치가 총 500번 업데이트 된다. 3 에포크가 20이고 배치사이즈가 1이면 1000개를 하나의 단위로 보니까 가중치는 총 20번 업데이트 된다. 뭔가 설명이 좀 구리다. 보충이 필요하다 배치와 관련된 문제 배치사이즈가 너무 크면 한번에 처리해야할 양이 많아져서 학습속도가 ..

이 페이지는 다음 강의 영상을 정리한 것이다. www.youtube.com/watch?v=dB-u77Y5a6A&list=PL5-TkQAfAZFbzxjBHtzdVCWE0Zbhomg7r&index=6 살펴볼 주제 1. computational graph로 backpropagation을 계산했을 때 발견되는 pattern의 의미와 그 쓰임 2. input과 output이 scalar가 아닌 vector 또는 tensor일 때 backpropagation이 진행되는 구체적인 과정 computational graph를 통해 backpropagation 을 계산할 때 미분 값이 역전파 되어가는 데 있어 몇 가지 pattern 을 발견할 수 있다 1. add gate : gradient distributor node..