반응형

정규화 2

RandomForest에서 ScandardScaler는 의미가 크게 없다.

StandardScaler를 사용했음에도 불구하고 RandomForest 모델의 정확도가 변화하지 않는 이유는 랜덤 포레스트(Random Forest) 모델의 특성과 관련이 있습니다. 1. 랜덤 포레스트는 스케일링에 민감하지 않음랜덤 포레스트는 결정 트리(decision tree)의 앙상블(ensemble) 모델입니다. 결정 트리는 데이터를 분할할 때 특정 피처의 값 대신 값의 순서와 조건(예: “피처 A가 값 X보다 크거나 작은가?”)만 고려합니다. 따라서: • 데이터의 스케일(크기나 단위)은 중요하지 않습니다. • StandardScaler가 데이터를 정규화(normalization)하여 값의 분포를 바꾸더라도, 결정 트리와 랜덤 포레스트의 작동 방식에는 영향을 미치지 않습니다. 2. 스케일링이 영향..

AI 2024.11.17

StandardScaler(z-score 정규화)와 Log Transformation(로그 변환) 사이에서 정규분포화의 관계

StandardScaler와 로그 변환은 모두 데이터의 분포를 변화시킬 수 있지만, 정규분포화 시킨다는 목적에서는 차이가 있습니다.  1.  StandardScaler를 통한 Normalization(Z-score): • 목적: StandardScaler는 데이터를 평균 0, 표준편차 1로 변환하는 데 중점을 둡니다. 각 특성의 값에서 평균을 빼고 표준편차로 나누어 평균을 중심으로 값들이 표준화되도록 하는 것이 목표입니다.  • 정규분포화와의 차이: StandardScaler는 데이터의 분포 모양을 정규분포로 바꾸려는 목적은 아닙니다. 데이터가 원래 정규분포에 가까울 때, StandardScaler로 변환된 결과는 정규분포와 비슷하게 됩니다. 하지만 정규분포가 아닌 경우 StandardScaler 적용 ..

AI 2024.11.13
반응형