questionet
차원의 저주, 차원 축소 본문
차원이란 용어의 쓰임새
dim, axis, rank, 변수, feature의 개수 여기저기 막 혼용되어 아직 분명히 머리 속에 정립돼 있진 않다.
일단 지금은 feature의 수라고 두고 접근해보자.
차원의 저주란,
1 차원이 늘어나면 데이터 공간이 커진다 .
2 변수가 늘어나면 분석에 요구되는 데이터 건수도 증가한다.
3 공간을 채울만큼 큰 데이터 수집 없이 적은 데이터로만 돌릴 경우 오버피팅이 발생할 수 있다.
차원 축소란,
차원의 수를 줄이는 것, feature의 수를 줄이는 것.
차원 축소를 통해 차원의 저주를 탈피하고
시각화가 쉬워지는 이점을 얻을 수 있다.
차원 축소 방법엔,
1 feature selection (기준 : 변수에 중첩이 있는지, 중요한 변수가 뭔지, 어떤 변수가 타켓에 영향을 크게 주는지)
* 중첩되는 변수를 찾을 때는 상관분석 correlaton을 해서
상관계수가 높거나 VIF(분산팽창지수, Variance Inflation Factor)가 높은 중첩되는 변수들 중 하나만을 선택한다.
무슨 말인지 아직 모르겠다
* 타겟, 즉 종속변수에 영향을 크게 주는 중요한 변수는 랜덤포레스트(Random Forest) 또는 XGBoost 등을 이용해
Variable Importance를 찾아 몇 가지 변수만 선택한다.
얘도 아직 모르겠다
2 feature extraction
* 모든 변수를 조합해서 데이터를 잘 표현할 수 있는 중요 성분을 가진 새로운 변수를 추출한다.
* 변수 추출을 위해 주로 사용되는 방법은 주성분 분석(PCA, Principal Component Analysis)이다.
'Learning questions > 쉽게 이해되지 않는 것들' 카테고리의 다른 글
normalization, standardization, regularization (0) | 2021.02.02 |
---|---|
부동 소수점 방식이 낳는 문제는 무엇인가? (0) | 2021.01.18 |
learning rate 와 optimization algorithm의 관계 (0) | 2021.01.17 |
embedding layer (0) | 2021.01.15 |
weight regularization (0) | 2021.01.15 |