목록전체 글 (91)
questionet
expectation ≠ average (mean) 이론적인 평균값 ≠ 진짜 샘플들의 평균값 1. y = 2x + n (n은 노이즈), y의 평균은 얼마인가? E[y] = E[2x + n] E[y] = E[2x] + E[n] E[n]=0 이라면, y의 평균은 2x 확률변수는 y, n 랜덤성이 없으면 확률변수가 아니다. 그래서 2x는 확률변수가 아니다. 확률변수가 아닌 건 기대값의 의미가 없다. 2. y = (2x + n)**2, y의 평균은 얼마인가? n의 평균이 0이고 분산이 1이면 4x**2 + 4xn + n**2 E[4x**2] + E[4xn] + E[n**2] y의 평균은 4x**2 + 1. 이것이 의미하는 게 무엇일까? y = (2x + n)**2 = 4(x + n/2)**2 y = 4(x + ..
hackerthon 코딩에 혀는 필요 없다.
이 페이지는 밑바닥부터 시작하는 딥러닝2권의 내용을 정리한 것이다 살펴볼 주제 1 추론기반 기법(word2vec)을 쓰는 이유 2 추론기반 기법(word2vec)의 원리 3 CBOW 모델 구현해보기 인간이 말하고 쓰는 언어를 컴퓨터에게 이해시키는 방법 1. 유의어사전(thesaurus)을 이용하는 방법 2. 통계 기반 기법 3. 추론 기반 기법 아이디어 분포가설(distributional hypothesis) 단어 자체에는 의미가 없다. 단어의 의미는 주변 단어에 의해, 그 단어가 사용된 맥락에 의해 형성된다. 우리가 원하는 것 = '단어의 의미'를 정확하게 파악할 수 있는 벡터 표현 = 좋은 분산표현 distributional representation 을 얻어내는 것 Q1 : '단어의 의미'를 정확하..
이미지 출처 jalammar.github.io/visual-numpy/ numpy에서 dim, axis, rank, shape, size 의 의미 1. size 는 총 element의 개수를 뜻한다. 2. dim 은 텐서가 존재하는 축의 개수를 뜻한다. 여기서 축이란, 1차원 벡터, 2차원 행렬, 3차원,...,n차원 텐서에서의 각 1, 2, n을 말한다. 위의 넘파이 배열 b와 그것을 시각화한 그림을 보면 1차원 벡터가 총 8개 있고 [1,2] [3,4] [5,6] [7,8] >>> dim1 [1,2] [3,4] 와 [5,6] [7,8] 을 묶어 2차원 행렬 2개를 만든 후 [[1,2] , [3,4]] [[5,6] , [7,8]] >>> dim2 각 행렬이 3차원 상에 배열된다. [ [[1,2] , [..
사용된 그래프 그림과 수식 이미지 출처는 다음과 같습니다 github.com/WegraLee/deep-learning-from-scratch-2 www.youtube.com/watch?v=dB-u77Y5a6A&list=PL5-TkQAfAZFbzxjBHtzdVCWE0Zbhomg7r&index=6 1. backpropagation Deep Neural Network에서 경사하강법( W ← w - a*dL/dw )을 써서 optimization을 한다는 것은 모든 레이어의 각 노드에 있는 가중치들이 최종 Loss 값에 미치는 영향력을 알아냄으로써 손실함수의 결과값을 가장 작게 만드는 가중치 행렬을 구한다는 것이다. 이를 위해서는 각 가중치 w에 대해 최종 Loss값을 미분한 값을 구해야 한다. backprop..
제곱손실함수와 절대값 손실함수의 차이 제곱손실함수를 사용할 때 scale이 너무 크면 값이 비정상적으로 커져서 노이즈 데이터가 생성될 수 있다. 노이즈 데이터가 너무 많이 생성될 거 같으면 절대값 손실 함수를 사용한다.
normalization 값의 범위(scale)을 0~1 사이 값으로 바꾸는 것 = scaling scaling이란 표현도 여기저기서 조금씩 다른 뜻으로 많이 쓰여 헷갈린다 standardization 값의 범위(scale)을 평균이 0, 분산이 1이 되도록 바꾸는 것 정규분포를 표준정규분포로 변환하는 것과 같음 이렇게 하면 무슨 효과를 보는 거지? regularization weight를 조정하는데 규제(제약)를 거는 기법 정확히 이해하지 못했다 over fitting 을 막기 위해 사용 normalization, standardization의 공통점 1 학습전에 scaling 2 오버피팅을 방지 어떻게? 3 머신러닝에서 scale이 큰 feature의 영향이 비대해지는 걸 방지 4 딥러닝에서 loca..