data analysis & visualization

우리는 범주로 구성되어 있는 자료를 분석할 때 흔히 더미화, 원핫인코딩 등을 통해 자료를 변화시킨다. 과연 이러한 더미화는 모델링에서 어떤 영향을 미칠까? 

 

회귀분석에서 주로 얘기되는 더미화는 해당 범주별로 가중치를 다르게 주려고 사용한다. 예를 들어 회귀분석을 통해 몸무게를 예측할 때 성별이라는 변수가 고려되었다고 한다면, 성별이 남자일 때 beta0에 남성의 weight만큼 더해지고, 성별이 여성일 때 beta0에 여성의 weight 만큼 더해져 좀 더 정교하게 예측하게 된다. 

 

Tree기반 모델에서는 과연 더미화는 어떤 역할을 할까? Tree 기반 모델에서는 더미화가 오히려 성능에 악영향을 주는경우가 종종 발생한다. 트리모델에서는 범주별로 이진화를 하게 되는데 만약 더미화를 하게되면 범주별로 변수처럼 인식하게 되므로 True, False 단  두가지로 분류되게 된다. 즉, 이 경우 더미화를 하게됨으로써 덜 정교하게 예측하게 된다. 

 

물론 절대적인 얘기는 아니다. 다만 모델링에서 더미화를 할지 말지는 모델에 따라 고민이 필요하다는 것이다. 

'머신러닝' 카테고리의 다른 글

calibration Curve  (0) 2020.08.19
보루타(boruta algorithm)  (0) 2020.08.09
Dynamic Time Warping(동적 시간 접합)  (0) 2020.07.09
성능평가지표  (0) 2020.04.26
과적합이 좋지 못한 이유?  (0) 2020.01.20