questionet

차원의 저주, 차원 축소 본문

Learning questions/쉽게 이해되지 않는 것들

차원의 저주, 차원 축소

orthanc 2021. 1. 4. 22:31

차원이란 용어의 쓰임새
dim, axis, rank, 변수, feature의 개수 여기저기 막 혼용되어 아직 분명히 머리 속에 정립돼 있진 않다.
일단 지금은 feature의 수라고 두고 접근해보자.


차원의 저주란,
1 차원이 늘어나면  데이터 공간이 커진다 .
2 변수가 늘어나면 분석에 요구되는 데이터 건수도 증가한다.
3 공간을 채울만큼 큰 데이터 수집 없이 적은 데이터로만 돌릴 경우 오버피팅이 발생할 수 있다.


차원 축소란,
차원의 수를 줄이는 것, feature의 수를 줄이는 것.
차원 축소를 통해 차원의 저주를 탈피하고
시각화가 쉬워지는 이점을 얻을 수 있다.


차원 축소 방법엔,
1 feature selection (기준 : 변수에 중첩이 있는지, 중요한 변수가 뭔지, 어떤 변수가 타켓에 영향을 크게 주는지)

    * 중첩되는 변수를 찾을 때는 상관분석 correlaton을 해서
       상관계수가 높거나 VIF(분산팽창지수, Variance Inflation Factor)가 높은 중첩되는 변수들 중 하나만을 선택한다.

       무슨 말인지 아직 모르겠다

    * 타겟, 즉 종속변수에 영향을 크게 주는 중요한 변수는 랜덤포레스트(Random Forest) 또는 XGBoost 등을 이용해
       Variable Importance를 찾아 몇 가지 변수만 선택한다.
       얘도 아직 모르겠다

2 feature extraction

    * 모든 변수를 조합해서 데이터를 잘 표현할 수 있는 중요 성분을 가진 새로운 변수를 추출한다.
    * 변수 추출을 위해 주로 사용되는 방법은 주성분 분석(PCA, Principal Component Analysis)이다.
     

Comments