AI

RandomForest에서 ScandardScaler는 의미가 크게 없다.

Alex Han 2024. 11. 17. 15:14
반응형

StandardScaler를 사용했음에도 불구하고 RandomForest 모델의 정확도가 변화하지 않는 이유는 랜덤 포레스트(Random Forest) 모델의 특성과 관련이 있습니다.

 

1. 랜덤 포레스트는 스케일링에 민감하지 않음

랜덤 포레스트는 결정 트리(decision tree)의 앙상블(ensemble) 모델입니다. 결정 트리는 데이터를 분할할 때 특정 피처의 값 대신 값의 순서와 조건(예: “피처 A가 값 X보다 크거나 작은가?”)만 고려합니다. 따라서:

데이터의 스케일(크기나 단위)은 중요하지 않습니다.

StandardScaler가 데이터를 정규화(normalization)하여 값의 분포를 바꾸더라도, 결정 트리와 랜덤 포레스트의 작동 방식에는 영향을 미치지 않습니다.

 

2. 스케일링이 영향을 주는 경우

스케일링이 모델 성능에 영향을 미칠 수 있는 경우는 보통 다음과 같습니다:

선형 모델(Linear Regression, Logistic Regression 등)

이들은 피처 값의 크기가 가중치(weight)에 직접 영향을 미치므로 스케일링이 중요합니다.

거리 기반 모델(KNN, SVM, K-means 등)

이들은 피처 간 거리 계산에 의존하므로, 값의 크기가 달라지면 모델의 동작 방식이 변할 수 있습니다.

 

3. 결론

랜덤 포레스트의 경우, 스케일링을 적용해도 모델의 성능에는 영향을 주지 않습니다.

StandardScaler를 사용했지만 정확도가 동일하게 나온 것은 랜덤 포레스트가 스케일에 민감하지 않기 때문입니다.

 

만약 스케일링이 성능에 영향을 미칠 것으로 예상되는 다른 모델을 사용하려는 계획이 없다면, 랜덤 포레스트에서는 굳이 스케일링을 적용하지 않아도 괜찮습니다.

반응형